{ "best_metric": 1.358161449432373, "best_model_checkpoint": "/leonardo_work/AIFAC_5C0_174/ahochleh/lora-transferability/output/models/Qwen2.5-7B_openthoughts_lrc/checkpoint-7400", "epoch": 1.1946666666666665, "eval_steps": 200, "global_step": 7400, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 5.333333333333333e-05, "grad_norm": 0.017663535983957833, "learning_rate": 0.0001, "loss": 1.2851, "step": 1 }, { "epoch": 0.00010666666666666667, "grad_norm": 0.019045901437460214, "learning_rate": 0.0001, "loss": 1.3386, "step": 2 }, { "epoch": 0.00016, "grad_norm": 0.040626311097590344, "learning_rate": 0.0001, "loss": 1.3481, "step": 3 }, { "epoch": 0.00021333333333333333, "grad_norm": 0.02036167462487858, "learning_rate": 0.0001, "loss": 1.3394, "step": 4 }, { "epoch": 0.0002666666666666667, "grad_norm": 0.021079644337874338, "learning_rate": 0.0001, "loss": 1.2781, "step": 5 }, { "epoch": 0.00032, "grad_norm": 0.02456331072308504, "learning_rate": 0.0001, "loss": 1.2759, "step": 6 }, { "epoch": 0.0003733333333333333, "grad_norm": 0.02574756282403388, "learning_rate": 0.0001, "loss": 1.2822, "step": 7 }, { "epoch": 0.00042666666666666667, "grad_norm": 0.020452790742183886, "learning_rate": 0.0001, "loss": 1.2741, "step": 8 }, { "epoch": 0.00048, "grad_norm": 0.022974487064571184, "learning_rate": 0.0001, "loss": 1.2232, "step": 9 }, { "epoch": 0.0005333333333333334, "grad_norm": 0.03322565045040931, "learning_rate": 0.0001, "loss": 1.2736, "step": 10 }, { "epoch": 0.0005866666666666667, "grad_norm": 0.02956456488679643, "learning_rate": 0.0001, "loss": 1.247, "step": 11 }, { "epoch": 0.00064, "grad_norm": 0.02168306912081603, "learning_rate": 0.0001, "loss": 1.2169, "step": 12 }, { "epoch": 0.0006933333333333333, "grad_norm": 0.022361870048187463, "learning_rate": 0.0001, "loss": 1.2363, "step": 13 }, { "epoch": 0.0007466666666666666, "grad_norm": 0.02376362612896722, "learning_rate": 0.0001, "loss": 1.2536, "step": 14 }, { "epoch": 0.0008, "grad_norm": 0.029034593258185748, "learning_rate": 0.0001, "loss": 1.2462, "step": 15 }, { "epoch": 0.0008533333333333333, "grad_norm": 0.023657592719445227, "learning_rate": 0.0001, "loss": 1.2161, "step": 16 }, { "epoch": 0.0009066666666666666, "grad_norm": 0.022641704453159297, "learning_rate": 0.0001, "loss": 1.2128, "step": 17 }, { "epoch": 0.00096, "grad_norm": 0.020311526742182503, "learning_rate": 0.0001, "loss": 1.1668, "step": 18 }, { "epoch": 0.0010133333333333333, "grad_norm": 0.023774882884098115, "learning_rate": 0.0001, "loss": 1.1876, "step": 19 }, { "epoch": 0.0010666666666666667, "grad_norm": 0.023435346843676392, "learning_rate": 0.0001, "loss": 1.196, "step": 20 }, { "epoch": 0.00112, "grad_norm": 0.0202262806047923, "learning_rate": 0.0001, "loss": 1.1923, "step": 21 }, { "epoch": 0.0011733333333333333, "grad_norm": 0.02144623757822789, "learning_rate": 0.0001, "loss": 1.2012, "step": 22 }, { "epoch": 0.0012266666666666667, "grad_norm": 0.0201617567358022, "learning_rate": 0.0001, "loss": 1.19, "step": 23 }, { "epoch": 0.00128, "grad_norm": 0.018419463152263324, "learning_rate": 0.0001, "loss": 1.1822, "step": 24 }, { "epoch": 0.0013333333333333333, "grad_norm": 0.01846724961733521, "learning_rate": 0.0001, "loss": 1.1678, "step": 25 }, { "epoch": 0.0013866666666666667, "grad_norm": 0.019184613840958157, "learning_rate": 0.0001, "loss": 1.2129, "step": 26 }, { "epoch": 0.00144, "grad_norm": 0.018819324313548307, "learning_rate": 0.0001, "loss": 1.1961, "step": 27 }, { "epoch": 0.0014933333333333333, "grad_norm": 0.01832186624369802, "learning_rate": 0.0001, "loss": 1.1963, "step": 28 }, { "epoch": 0.0015466666666666667, "grad_norm": 0.01651266186352045, "learning_rate": 0.0001, "loss": 1.1771, "step": 29 }, { "epoch": 0.0016, "grad_norm": 0.01592594563048431, "learning_rate": 0.0001, "loss": 1.1797, "step": 30 }, { "epoch": 0.0016533333333333333, "grad_norm": 0.019461088377968366, "learning_rate": 0.0001, "loss": 1.1208, "step": 31 }, { "epoch": 0.0017066666666666667, "grad_norm": 0.0168301023097901, "learning_rate": 0.0001, "loss": 1.1587, "step": 32 }, { "epoch": 0.00176, "grad_norm": 0.01747679214570985, "learning_rate": 0.0001, "loss": 1.1658, "step": 33 }, { "epoch": 0.0018133333333333332, "grad_norm": 0.0185202216354917, "learning_rate": 0.0001, "loss": 1.1433, "step": 34 }, { "epoch": 0.0018666666666666666, "grad_norm": 0.017636562910814738, "learning_rate": 0.0001, "loss": 1.1773, "step": 35 }, { "epoch": 0.00192, "grad_norm": 0.01898649683732413, "learning_rate": 0.0001, "loss": 1.1744, "step": 36 }, { "epoch": 0.0019733333333333334, "grad_norm": 0.0168480946606765, "learning_rate": 0.0001, "loss": 1.1458, "step": 37 }, { "epoch": 0.0020266666666666666, "grad_norm": 0.019529780302859606, "learning_rate": 0.0001, "loss": 1.1769, "step": 38 }, { "epoch": 0.00208, "grad_norm": 0.018378736692672405, "learning_rate": 0.0001, "loss": 1.1145, "step": 39 }, { "epoch": 0.0021333333333333334, "grad_norm": 0.018561990641567855, "learning_rate": 0.0001, "loss": 1.1505, "step": 40 }, { "epoch": 0.0021866666666666666, "grad_norm": 0.019595710048582, "learning_rate": 0.0001, "loss": 1.1706, "step": 41 }, { "epoch": 0.00224, "grad_norm": 0.01723885512620191, "learning_rate": 0.0001, "loss": 1.0743, "step": 42 }, { "epoch": 0.0022933333333333334, "grad_norm": 0.020970230781914477, "learning_rate": 0.0001, "loss": 1.1477, "step": 43 }, { "epoch": 0.0023466666666666666, "grad_norm": 0.01747766223448201, "learning_rate": 0.0001, "loss": 1.1369, "step": 44 }, { "epoch": 0.0024, "grad_norm": 0.022322939149236103, "learning_rate": 0.0001, "loss": 1.1643, "step": 45 }, { "epoch": 0.0024533333333333334, "grad_norm": 0.01933666405055695, "learning_rate": 0.0001, "loss": 1.132, "step": 46 }, { "epoch": 0.0025066666666666666, "grad_norm": 0.01820440810809091, "learning_rate": 0.0001, "loss": 1.1702, "step": 47 }, { "epoch": 0.00256, "grad_norm": 0.020901926256680293, "learning_rate": 0.0001, "loss": 1.0989, "step": 48 }, { "epoch": 0.0026133333333333334, "grad_norm": 0.02266426968178372, "learning_rate": 0.0001, "loss": 1.1868, "step": 49 }, { "epoch": 0.0026666666666666666, "grad_norm": 0.02045471979926694, "learning_rate": 0.0001, "loss": 1.124, "step": 50 }, { "epoch": 0.00272, "grad_norm": 0.020428646490662984, "learning_rate": 0.0001, "loss": 1.1586, "step": 51 }, { "epoch": 0.0027733333333333334, "grad_norm": 0.02283069620954967, "learning_rate": 0.0001, "loss": 1.1124, "step": 52 }, { "epoch": 0.0028266666666666666, "grad_norm": 0.020431781519662916, "learning_rate": 0.0001, "loss": 1.1339, "step": 53 }, { "epoch": 0.00288, "grad_norm": 0.018296043477837764, "learning_rate": 0.0001, "loss": 1.08, "step": 54 }, { "epoch": 0.0029333333333333334, "grad_norm": 0.019769980849317578, "learning_rate": 0.0001, "loss": 1.2115, "step": 55 }, { "epoch": 0.0029866666666666665, "grad_norm": 0.018349336281229915, "learning_rate": 0.0001, "loss": 1.0953, "step": 56 }, { "epoch": 0.00304, "grad_norm": 0.021340822597750022, "learning_rate": 0.0001, "loss": 1.112, "step": 57 }, { "epoch": 0.0030933333333333334, "grad_norm": 0.021205791237932158, "learning_rate": 0.0001, "loss": 1.1319, "step": 58 }, { "epoch": 0.0031466666666666665, "grad_norm": 0.018840643855392632, "learning_rate": 0.0001, "loss": 1.1057, "step": 59 }, { "epoch": 0.0032, "grad_norm": 0.01996167612298934, "learning_rate": 0.0001, "loss": 1.1454, "step": 60 }, { "epoch": 0.0032533333333333333, "grad_norm": 0.0206921266276397, "learning_rate": 0.0001, "loss": 1.0957, "step": 61 }, { "epoch": 0.0033066666666666665, "grad_norm": 0.022366877812907533, "learning_rate": 0.0001, "loss": 1.1182, "step": 62 }, { "epoch": 0.00336, "grad_norm": 0.019894907897840822, "learning_rate": 0.0001, "loss": 1.142, "step": 63 }, { "epoch": 0.0034133333333333333, "grad_norm": 0.02230021168006463, "learning_rate": 0.0001, "loss": 1.0673, "step": 64 }, { "epoch": 0.0034666666666666665, "grad_norm": 0.02274359400474783, "learning_rate": 0.0001, "loss": 1.0662, "step": 65 }, { "epoch": 0.00352, "grad_norm": 0.01911665109076629, "learning_rate": 0.0001, "loss": 1.0955, "step": 66 }, { "epoch": 0.0035733333333333333, "grad_norm": 0.021169614524847495, "learning_rate": 0.0001, "loss": 1.0595, "step": 67 }, { "epoch": 0.0036266666666666665, "grad_norm": 0.022306947829863855, "learning_rate": 0.0001, "loss": 1.0901, "step": 68 }, { "epoch": 0.00368, "grad_norm": 0.02399697508573963, "learning_rate": 0.0001, "loss": 1.1329, "step": 69 }, { "epoch": 0.0037333333333333333, "grad_norm": 0.022557666480114306, "learning_rate": 0.0001, "loss": 1.1235, "step": 70 }, { "epoch": 0.0037866666666666665, "grad_norm": 0.024881109806363145, "learning_rate": 0.0001, "loss": 1.1017, "step": 71 }, { "epoch": 0.00384, "grad_norm": 0.0213415342371312, "learning_rate": 0.0001, "loss": 1.1515, "step": 72 }, { "epoch": 0.0038933333333333333, "grad_norm": 0.026076390092072337, "learning_rate": 0.0001, "loss": 1.1292, "step": 73 }, { "epoch": 0.003946666666666667, "grad_norm": 0.02291805139654699, "learning_rate": 0.0001, "loss": 1.1258, "step": 74 }, { "epoch": 0.004, "grad_norm": 0.022509948988868995, "learning_rate": 0.0001, "loss": 1.1106, "step": 75 }, { "epoch": 0.004053333333333333, "grad_norm": 0.026440628872700073, "learning_rate": 0.0001, "loss": 1.0949, "step": 76 }, { "epoch": 0.0041066666666666665, "grad_norm": 0.0230542777991158, "learning_rate": 0.0001, "loss": 1.0854, "step": 77 }, { "epoch": 0.00416, "grad_norm": 0.02528260148409545, "learning_rate": 0.0001, "loss": 1.0459, "step": 78 }, { "epoch": 0.004213333333333334, "grad_norm": 0.02159758025703304, "learning_rate": 0.0001, "loss": 1.1371, "step": 79 }, { "epoch": 0.004266666666666667, "grad_norm": 0.024619883227926107, "learning_rate": 0.0001, "loss": 1.1259, "step": 80 }, { "epoch": 0.00432, "grad_norm": 0.028027358033021, "learning_rate": 0.0001, "loss": 1.1394, "step": 81 }, { "epoch": 0.004373333333333333, "grad_norm": 0.0240314163084437, "learning_rate": 0.0001, "loss": 1.0882, "step": 82 }, { "epoch": 0.004426666666666666, "grad_norm": 0.02760626929155725, "learning_rate": 0.0001, "loss": 1.0783, "step": 83 }, { "epoch": 0.00448, "grad_norm": 0.02612768589454587, "learning_rate": 0.0001, "loss": 1.0524, "step": 84 }, { "epoch": 0.004533333333333334, "grad_norm": 0.02344713260341745, "learning_rate": 0.0001, "loss": 1.1095, "step": 85 }, { "epoch": 0.004586666666666667, "grad_norm": 0.024144060481023133, "learning_rate": 0.0001, "loss": 1.1412, "step": 86 }, { "epoch": 0.00464, "grad_norm": 0.02621237204120152, "learning_rate": 0.0001, "loss": 1.1281, "step": 87 }, { "epoch": 0.004693333333333333, "grad_norm": 0.026984655607370928, "learning_rate": 0.0001, "loss": 1.118, "step": 88 }, { "epoch": 0.004746666666666666, "grad_norm": 0.02394842786614117, "learning_rate": 0.0001, "loss": 1.1157, "step": 89 }, { "epoch": 0.0048, "grad_norm": 0.02308805596503825, "learning_rate": 0.0001, "loss": 1.0954, "step": 90 }, { "epoch": 0.004853333333333334, "grad_norm": 0.02641446783650999, "learning_rate": 0.0001, "loss": 1.1977, "step": 91 }, { "epoch": 0.004906666666666667, "grad_norm": 0.02628224000749557, "learning_rate": 0.0001, "loss": 1.0381, "step": 92 }, { "epoch": 0.00496, "grad_norm": 0.0262711888727942, "learning_rate": 0.0001, "loss": 1.0804, "step": 93 }, { "epoch": 0.005013333333333333, "grad_norm": 0.028852404195580973, "learning_rate": 0.0001, "loss": 1.0847, "step": 94 }, { "epoch": 0.005066666666666666, "grad_norm": 0.022820012487008153, "learning_rate": 0.0001, "loss": 1.0983, "step": 95 }, { "epoch": 0.00512, "grad_norm": 0.027684130043247292, "learning_rate": 0.0001, "loss": 1.1937, "step": 96 }, { "epoch": 0.005173333333333334, "grad_norm": 0.024770212365944143, "learning_rate": 0.0001, "loss": 1.1115, "step": 97 }, { "epoch": 0.005226666666666667, "grad_norm": 0.027494101888264684, "learning_rate": 0.0001, "loss": 1.0862, "step": 98 }, { "epoch": 0.00528, "grad_norm": 0.028068591916916897, "learning_rate": 0.0001, "loss": 1.1198, "step": 99 }, { "epoch": 0.005333333333333333, "grad_norm": 0.025215653660767015, "learning_rate": 0.0001, "loss": 1.0789, "step": 100 }, { "epoch": 0.005386666666666666, "grad_norm": 0.02617302078474964, "learning_rate": 0.0001, "loss": 1.1003, "step": 101 }, { "epoch": 0.00544, "grad_norm": 0.023807385684215778, "learning_rate": 0.0001, "loss": 1.1229, "step": 102 }, { "epoch": 0.005493333333333334, "grad_norm": 0.029317144217495813, "learning_rate": 0.0001, "loss": 1.077, "step": 103 }, { "epoch": 0.005546666666666667, "grad_norm": 0.02774344185697802, "learning_rate": 0.0001, "loss": 1.1502, "step": 104 }, { "epoch": 0.0056, "grad_norm": 0.03121423939416175, "learning_rate": 0.0001, "loss": 1.1989, "step": 105 }, { "epoch": 0.005653333333333333, "grad_norm": 0.028168171591932172, "learning_rate": 0.0001, "loss": 1.0944, "step": 106 }, { "epoch": 0.005706666666666666, "grad_norm": 0.02433804240030303, "learning_rate": 0.0001, "loss": 1.0472, "step": 107 }, { "epoch": 0.00576, "grad_norm": 0.027260996841302933, "learning_rate": 0.0001, "loss": 1.0762, "step": 108 }, { "epoch": 0.0058133333333333335, "grad_norm": 0.025572432554085187, "learning_rate": 0.0001, "loss": 1.0738, "step": 109 }, { "epoch": 0.005866666666666667, "grad_norm": 0.030597638921935663, "learning_rate": 0.0001, "loss": 1.1201, "step": 110 }, { "epoch": 0.00592, "grad_norm": 0.025224536725061118, "learning_rate": 0.0001, "loss": 1.0667, "step": 111 }, { "epoch": 0.005973333333333333, "grad_norm": 0.0321935508085268, "learning_rate": 0.0001, "loss": 1.071, "step": 112 }, { "epoch": 0.006026666666666666, "grad_norm": 0.027980799700585705, "learning_rate": 0.0001, "loss": 1.1006, "step": 113 }, { "epoch": 0.00608, "grad_norm": 0.03037305660606416, "learning_rate": 0.0001, "loss": 1.091, "step": 114 }, { "epoch": 0.0061333333333333335, "grad_norm": 0.023866879394773586, "learning_rate": 0.0001, "loss": 1.105, "step": 115 }, { "epoch": 0.006186666666666667, "grad_norm": 0.03248916000693501, "learning_rate": 0.0001, "loss": 1.0927, "step": 116 }, { "epoch": 0.00624, "grad_norm": 0.030583352782920434, "learning_rate": 0.0001, "loss": 1.0742, "step": 117 }, { "epoch": 0.006293333333333333, "grad_norm": 0.02600505865067891, "learning_rate": 0.0001, "loss": 1.0409, "step": 118 }, { "epoch": 0.006346666666666666, "grad_norm": 0.03210617414476007, "learning_rate": 0.0001, "loss": 1.022, "step": 119 }, { "epoch": 0.0064, "grad_norm": 0.026414605867270017, "learning_rate": 0.0001, "loss": 1.1234, "step": 120 }, { "epoch": 0.0064533333333333335, "grad_norm": 0.029831579361245805, "learning_rate": 0.0001, "loss": 1.1231, "step": 121 }, { "epoch": 0.006506666666666667, "grad_norm": 0.03903353067292734, "learning_rate": 0.0001, "loss": 1.1309, "step": 122 }, { "epoch": 0.00656, "grad_norm": 0.025073552110052105, "learning_rate": 0.0001, "loss": 1.1192, "step": 123 }, { "epoch": 0.006613333333333333, "grad_norm": 0.03884135633408205, "learning_rate": 0.0001, "loss": 1.1032, "step": 124 }, { "epoch": 0.006666666666666667, "grad_norm": 0.025911124270801084, "learning_rate": 0.0001, "loss": 1.1439, "step": 125 }, { "epoch": 0.00672, "grad_norm": 0.0411337863161015, "learning_rate": 0.0001, "loss": 1.0446, "step": 126 }, { "epoch": 0.0067733333333333335, "grad_norm": 0.028822101803103718, "learning_rate": 0.0001, "loss": 1.0794, "step": 127 }, { "epoch": 0.006826666666666667, "grad_norm": 0.030315384805135674, "learning_rate": 0.0001, "loss": 1.0087, "step": 128 }, { "epoch": 0.00688, "grad_norm": 0.02898101474669884, "learning_rate": 0.0001, "loss": 1.0669, "step": 129 }, { "epoch": 0.006933333333333333, "grad_norm": 0.030957894227308772, "learning_rate": 0.0001, "loss": 1.0257, "step": 130 }, { "epoch": 0.006986666666666667, "grad_norm": 0.028211613583629815, "learning_rate": 0.0001, "loss": 1.0686, "step": 131 }, { "epoch": 0.00704, "grad_norm": 0.03119816452688914, "learning_rate": 0.0001, "loss": 1.0768, "step": 132 }, { "epoch": 0.0070933333333333334, "grad_norm": 0.027015001492647513, "learning_rate": 0.0001, "loss": 1.0498, "step": 133 }, { "epoch": 0.007146666666666667, "grad_norm": 0.027416668668713742, "learning_rate": 0.0001, "loss": 1.0268, "step": 134 }, { "epoch": 0.0072, "grad_norm": 0.033612080287052704, "learning_rate": 0.0001, "loss": 1.0266, "step": 135 }, { "epoch": 0.007253333333333333, "grad_norm": 0.02847556645412267, "learning_rate": 0.0001, "loss": 1.0434, "step": 136 }, { "epoch": 0.007306666666666667, "grad_norm": 0.030942116760774373, "learning_rate": 0.0001, "loss": 1.1008, "step": 137 }, { "epoch": 0.00736, "grad_norm": 0.03937632453183713, "learning_rate": 0.0001, "loss": 1.0481, "step": 138 }, { "epoch": 0.007413333333333333, "grad_norm": 0.034978623142463375, "learning_rate": 0.0001, "loss": 1.1072, "step": 139 }, { "epoch": 0.007466666666666667, "grad_norm": 0.03295011953113239, "learning_rate": 0.0001, "loss": 1.1178, "step": 140 }, { "epoch": 0.00752, "grad_norm": 0.036305639130275257, "learning_rate": 0.0001, "loss": 1.0754, "step": 141 }, { "epoch": 0.007573333333333333, "grad_norm": 0.029533299062835094, "learning_rate": 0.0001, "loss": 1.1093, "step": 142 }, { "epoch": 0.007626666666666667, "grad_norm": 0.028700473652073708, "learning_rate": 0.0001, "loss": 1.0834, "step": 143 }, { "epoch": 0.00768, "grad_norm": 0.03449586335694953, "learning_rate": 0.0001, "loss": 1.0461, "step": 144 }, { "epoch": 0.007733333333333333, "grad_norm": 0.030621392049860134, "learning_rate": 0.0001, "loss": 1.0546, "step": 145 }, { "epoch": 0.0077866666666666666, "grad_norm": 0.030669253137562656, "learning_rate": 0.0001, "loss": 1.138, "step": 146 }, { "epoch": 0.00784, "grad_norm": 0.0326978961412198, "learning_rate": 0.0001, "loss": 1.0628, "step": 147 }, { "epoch": 0.007893333333333334, "grad_norm": 0.02595212462751761, "learning_rate": 0.0001, "loss": 1.0908, "step": 148 }, { "epoch": 0.007946666666666666, "grad_norm": 0.03054212089490085, "learning_rate": 0.0001, "loss": 1.0862, "step": 149 }, { "epoch": 0.008, "grad_norm": 0.02989665153550542, "learning_rate": 0.0001, "loss": 1.0437, "step": 150 }, { "epoch": 0.008053333333333332, "grad_norm": 0.03284186158764758, "learning_rate": 0.0001, "loss": 1.0438, "step": 151 }, { "epoch": 0.008106666666666667, "grad_norm": 0.026431410101557674, "learning_rate": 0.0001, "loss": 1.0513, "step": 152 }, { "epoch": 0.00816, "grad_norm": 0.03556175947247141, "learning_rate": 0.0001, "loss": 1.0672, "step": 153 }, { "epoch": 0.008213333333333333, "grad_norm": 0.03312777514368852, "learning_rate": 0.0001, "loss": 1.0631, "step": 154 }, { "epoch": 0.008266666666666667, "grad_norm": 0.034095158189905925, "learning_rate": 0.0001, "loss": 1.0788, "step": 155 }, { "epoch": 0.00832, "grad_norm": 0.029675226922119612, "learning_rate": 0.0001, "loss": 1.0646, "step": 156 }, { "epoch": 0.008373333333333333, "grad_norm": 0.029642245637533884, "learning_rate": 0.0001, "loss": 1.1023, "step": 157 }, { "epoch": 0.008426666666666667, "grad_norm": 0.0316882903580528, "learning_rate": 0.0001, "loss": 1.1032, "step": 158 }, { "epoch": 0.00848, "grad_norm": 0.030398811807450663, "learning_rate": 0.0001, "loss": 1.0158, "step": 159 }, { "epoch": 0.008533333333333334, "grad_norm": 0.028622241938623755, "learning_rate": 0.0001, "loss": 1.1911, "step": 160 }, { "epoch": 0.008586666666666666, "grad_norm": 0.030878425197920233, "learning_rate": 0.0001, "loss": 1.0674, "step": 161 }, { "epoch": 0.00864, "grad_norm": 0.030551687902506713, "learning_rate": 0.0001, "loss": 1.0529, "step": 162 }, { "epoch": 0.008693333333333334, "grad_norm": 0.02616507706190728, "learning_rate": 0.0001, "loss": 1.0764, "step": 163 }, { "epoch": 0.008746666666666666, "grad_norm": 0.03306618170823384, "learning_rate": 0.0001, "loss": 1.0315, "step": 164 }, { "epoch": 0.0088, "grad_norm": 0.030468090986927567, "learning_rate": 0.0001, "loss": 1.0901, "step": 165 }, { "epoch": 0.008853333333333333, "grad_norm": 0.030484937784253374, "learning_rate": 0.0001, "loss": 1.0994, "step": 166 }, { "epoch": 0.008906666666666667, "grad_norm": 0.02436297674078621, "learning_rate": 0.0001, "loss": 0.9992, "step": 167 }, { "epoch": 0.00896, "grad_norm": 0.029546291148058058, "learning_rate": 0.0001, "loss": 1.0618, "step": 168 }, { "epoch": 0.009013333333333333, "grad_norm": 0.027771428992338913, "learning_rate": 0.0001, "loss": 1.0679, "step": 169 }, { "epoch": 0.009066666666666667, "grad_norm": 0.02446932578340339, "learning_rate": 0.0001, "loss": 1.0693, "step": 170 }, { "epoch": 0.00912, "grad_norm": 0.025946328395637305, "learning_rate": 0.0001, "loss": 1.0664, "step": 171 }, { "epoch": 0.009173333333333334, "grad_norm": 0.025711044698923182, "learning_rate": 0.0001, "loss": 1.1023, "step": 172 }, { "epoch": 0.009226666666666666, "grad_norm": 0.02843683469636292, "learning_rate": 0.0001, "loss": 1.0664, "step": 173 }, { "epoch": 0.00928, "grad_norm": 0.028625066904893793, "learning_rate": 0.0001, "loss": 1.1065, "step": 174 }, { "epoch": 0.009333333333333334, "grad_norm": 0.026222597089346756, "learning_rate": 0.0001, "loss": 1.0928, "step": 175 }, { "epoch": 0.009386666666666666, "grad_norm": 0.030016093375412906, "learning_rate": 0.0001, "loss": 1.0091, "step": 176 }, { "epoch": 0.00944, "grad_norm": 0.026762861619253595, "learning_rate": 0.0001, "loss": 1.0982, "step": 177 }, { "epoch": 0.009493333333333333, "grad_norm": 0.02924314921734599, "learning_rate": 0.0001, "loss": 1.0529, "step": 178 }, { "epoch": 0.009546666666666667, "grad_norm": 0.03190498414770447, "learning_rate": 0.0001, "loss": 1.076, "step": 179 }, { "epoch": 0.0096, "grad_norm": 0.026313375645259457, "learning_rate": 0.0001, "loss": 1.0145, "step": 180 }, { "epoch": 0.009653333333333333, "grad_norm": 0.028387707678660303, "learning_rate": 0.0001, "loss": 1.1284, "step": 181 }, { "epoch": 0.009706666666666667, "grad_norm": 0.023473497175759403, "learning_rate": 0.0001, "loss": 1.1003, "step": 182 }, { "epoch": 0.00976, "grad_norm": 0.03027101342433051, "learning_rate": 0.0001, "loss": 1.0589, "step": 183 }, { "epoch": 0.009813333333333334, "grad_norm": 0.024727172011912026, "learning_rate": 0.0001, "loss": 1.0894, "step": 184 }, { "epoch": 0.009866666666666666, "grad_norm": 0.029937693082934983, "learning_rate": 0.0001, "loss": 1.0868, "step": 185 }, { "epoch": 0.00992, "grad_norm": 0.023075693331877877, "learning_rate": 0.0001, "loss": 1.0153, "step": 186 }, { "epoch": 0.009973333333333334, "grad_norm": 0.030530753457832613, "learning_rate": 0.0001, "loss": 1.0281, "step": 187 }, { "epoch": 0.010026666666666666, "grad_norm": 0.023823152503381035, "learning_rate": 0.0001, "loss": 1.0742, "step": 188 }, { "epoch": 0.01008, "grad_norm": 0.02865813717051232, "learning_rate": 0.0001, "loss": 1.0586, "step": 189 }, { "epoch": 0.010133333333333333, "grad_norm": 0.02409752713778315, "learning_rate": 0.0001, "loss": 1.1176, "step": 190 }, { "epoch": 0.010186666666666667, "grad_norm": 0.03136103252142913, "learning_rate": 0.0001, "loss": 1.0161, "step": 191 }, { "epoch": 0.01024, "grad_norm": 0.024976015498924982, "learning_rate": 0.0001, "loss": 1.0986, "step": 192 }, { "epoch": 0.010293333333333333, "grad_norm": 0.030268189210588402, "learning_rate": 0.0001, "loss": 1.0279, "step": 193 }, { "epoch": 0.010346666666666667, "grad_norm": 0.026081446558559367, "learning_rate": 0.0001, "loss": 1.0987, "step": 194 }, { "epoch": 0.0104, "grad_norm": 0.029272574892080832, "learning_rate": 0.0001, "loss": 1.1228, "step": 195 }, { "epoch": 0.010453333333333334, "grad_norm": 0.028444370366998047, "learning_rate": 0.0001, "loss": 1.0627, "step": 196 }, { "epoch": 0.010506666666666666, "grad_norm": 0.02871989966492329, "learning_rate": 0.0001, "loss": 1.0425, "step": 197 }, { "epoch": 0.01056, "grad_norm": 0.026683222419199053, "learning_rate": 0.0001, "loss": 1.0645, "step": 198 }, { "epoch": 0.010613333333333334, "grad_norm": 0.03102078373330611, "learning_rate": 0.0001, "loss": 1.0982, "step": 199 }, { "epoch": 0.010666666666666666, "grad_norm": 0.024925348589159332, "learning_rate": 0.0001, "loss": 1.0631, "step": 200 }, { "epoch": 0.010666666666666666, "eval_accuracy": 0.5994892765793127, "eval_loss": 1.4720326662063599, "eval_runtime": 64.0332, "eval_samples_per_second": 15.617, "eval_steps_per_second": 0.5, "step": 200 }, { "epoch": 0.01072, "grad_norm": 0.0316568442785842, "learning_rate": 0.0001, "loss": 1.0106, "step": 201 }, { "epoch": 0.010773333333333333, "grad_norm": 0.029488540862034826, "learning_rate": 0.0001, "loss": 1.0694, "step": 202 }, { "epoch": 0.010826666666666667, "grad_norm": 0.03270372948892288, "learning_rate": 0.0001, "loss": 1.1027, "step": 203 }, { "epoch": 0.01088, "grad_norm": 0.026249914459016466, "learning_rate": 0.0001, "loss": 1.006, "step": 204 }, { "epoch": 0.010933333333333333, "grad_norm": 0.036076515998888274, "learning_rate": 0.0001, "loss": 1.025, "step": 205 }, { "epoch": 0.010986666666666667, "grad_norm": 0.028660418517231483, "learning_rate": 0.0001, "loss": 1.0922, "step": 206 }, { "epoch": 0.01104, "grad_norm": 0.03464428925277351, "learning_rate": 0.0001, "loss": 1.0825, "step": 207 }, { "epoch": 0.011093333333333334, "grad_norm": 0.03499278386784176, "learning_rate": 0.0001, "loss": 1.0653, "step": 208 }, { "epoch": 0.011146666666666666, "grad_norm": 0.03455491380319108, "learning_rate": 0.0001, "loss": 1.1851, "step": 209 }, { "epoch": 0.0112, "grad_norm": 0.03556355607620968, "learning_rate": 0.0001, "loss": 1.1095, "step": 210 }, { "epoch": 0.011253333333333334, "grad_norm": 0.027996921018236753, "learning_rate": 0.0001, "loss": 1.0589, "step": 211 }, { "epoch": 0.011306666666666666, "grad_norm": 0.033919884475156446, "learning_rate": 0.0001, "loss": 1.151, "step": 212 }, { "epoch": 0.01136, "grad_norm": 0.03179790669262934, "learning_rate": 0.0001, "loss": 1.0438, "step": 213 }, { "epoch": 0.011413333333333333, "grad_norm": 0.034354530415734434, "learning_rate": 0.0001, "loss": 1.1146, "step": 214 }, { "epoch": 0.011466666666666667, "grad_norm": 0.03363381354597863, "learning_rate": 0.0001, "loss": 1.0434, "step": 215 }, { "epoch": 0.01152, "grad_norm": 0.027585856330821976, "learning_rate": 0.0001, "loss": 1.037, "step": 216 }, { "epoch": 0.011573333333333333, "grad_norm": 0.03687603187735977, "learning_rate": 0.0001, "loss": 1.1113, "step": 217 }, { "epoch": 0.011626666666666667, "grad_norm": 0.031044148398233003, "learning_rate": 0.0001, "loss": 1.0642, "step": 218 }, { "epoch": 0.01168, "grad_norm": 0.03764672380440334, "learning_rate": 0.0001, "loss": 1.0963, "step": 219 }, { "epoch": 0.011733333333333333, "grad_norm": 0.027914178328522027, "learning_rate": 0.0001, "loss": 1.0609, "step": 220 }, { "epoch": 0.011786666666666668, "grad_norm": 0.03951760149032919, "learning_rate": 0.0001, "loss": 1.1319, "step": 221 }, { "epoch": 0.01184, "grad_norm": 0.034632178742719816, "learning_rate": 0.0001, "loss": 1.0665, "step": 222 }, { "epoch": 0.011893333333333334, "grad_norm": 0.03145482034798728, "learning_rate": 0.0001, "loss": 1.1083, "step": 223 }, { "epoch": 0.011946666666666666, "grad_norm": 0.028622820086677346, "learning_rate": 0.0001, "loss": 1.106, "step": 224 }, { "epoch": 0.012, "grad_norm": 0.03713441908996785, "learning_rate": 0.0001, "loss": 1.1149, "step": 225 }, { "epoch": 0.012053333333333333, "grad_norm": 0.029442226710517116, "learning_rate": 0.0001, "loss": 1.1165, "step": 226 }, { "epoch": 0.012106666666666667, "grad_norm": 0.03983023301502642, "learning_rate": 0.0001, "loss": 1.0819, "step": 227 }, { "epoch": 0.01216, "grad_norm": 0.02871890963411655, "learning_rate": 0.0001, "loss": 1.0739, "step": 228 }, { "epoch": 0.012213333333333333, "grad_norm": 0.0339422135806941, "learning_rate": 0.0001, "loss": 1.0558, "step": 229 }, { "epoch": 0.012266666666666667, "grad_norm": 0.029295544671822406, "learning_rate": 0.0001, "loss": 1.1026, "step": 230 }, { "epoch": 0.01232, "grad_norm": 0.03117100028630677, "learning_rate": 0.0001, "loss": 1.0616, "step": 231 }, { "epoch": 0.012373333333333333, "grad_norm": 0.03272720116909769, "learning_rate": 0.0001, "loss": 1.0742, "step": 232 }, { "epoch": 0.012426666666666667, "grad_norm": 0.032903369710183934, "learning_rate": 0.0001, "loss": 1.0711, "step": 233 }, { "epoch": 0.01248, "grad_norm": 0.026522446346979263, "learning_rate": 0.0001, "loss": 1.0556, "step": 234 }, { "epoch": 0.012533333333333334, "grad_norm": 0.0313667578669662, "learning_rate": 0.0001, "loss": 1.0297, "step": 235 }, { "epoch": 0.012586666666666666, "grad_norm": 0.024441583614101686, "learning_rate": 0.0001, "loss": 1.0817, "step": 236 }, { "epoch": 0.01264, "grad_norm": 0.030687588030212466, "learning_rate": 0.0001, "loss": 1.0936, "step": 237 }, { "epoch": 0.012693333333333333, "grad_norm": 0.026725161148006413, "learning_rate": 0.0001, "loss": 1.0639, "step": 238 }, { "epoch": 0.012746666666666667, "grad_norm": 0.0341335664388797, "learning_rate": 0.0001, "loss": 1.0895, "step": 239 }, { "epoch": 0.0128, "grad_norm": 0.02556524501453891, "learning_rate": 0.0001, "loss": 1.0569, "step": 240 }, { "epoch": 0.012853333333333333, "grad_norm": 0.03266580181401952, "learning_rate": 0.0001, "loss": 1.0989, "step": 241 }, { "epoch": 0.012906666666666667, "grad_norm": 0.02420254561644533, "learning_rate": 0.0001, "loss": 1.0974, "step": 242 }, { "epoch": 0.01296, "grad_norm": 0.032663609242733156, "learning_rate": 0.0001, "loss": 1.1148, "step": 243 }, { "epoch": 0.013013333333333333, "grad_norm": 0.029372208748646, "learning_rate": 0.0001, "loss": 1.0483, "step": 244 }, { "epoch": 0.013066666666666667, "grad_norm": 0.032611033861686727, "learning_rate": 0.0001, "loss": 1.0317, "step": 245 }, { "epoch": 0.01312, "grad_norm": 0.028764390691977424, "learning_rate": 0.0001, "loss": 1.0649, "step": 246 }, { "epoch": 0.013173333333333334, "grad_norm": 0.02853643403071029, "learning_rate": 0.0001, "loss": 1.0095, "step": 247 }, { "epoch": 0.013226666666666666, "grad_norm": 0.026393256047266497, "learning_rate": 0.0001, "loss": 1.0928, "step": 248 }, { "epoch": 0.01328, "grad_norm": 0.030058717821202726, "learning_rate": 0.0001, "loss": 1.0409, "step": 249 }, { "epoch": 0.013333333333333334, "grad_norm": 0.025503126626144908, "learning_rate": 0.0001, "loss": 1.1051, "step": 250 }, { "epoch": 0.013386666666666667, "grad_norm": 0.03192773525242038, "learning_rate": 0.0001, "loss": 1.0981, "step": 251 }, { "epoch": 0.01344, "grad_norm": 0.03087365928002955, "learning_rate": 0.0001, "loss": 1.0939, "step": 252 }, { "epoch": 0.013493333333333333, "grad_norm": 0.027264835049182718, "learning_rate": 0.0001, "loss": 1.0273, "step": 253 }, { "epoch": 0.013546666666666667, "grad_norm": 0.03203806040322685, "learning_rate": 0.0001, "loss": 1.0834, "step": 254 }, { "epoch": 0.0136, "grad_norm": 0.028435121546608523, "learning_rate": 0.0001, "loss": 1.0842, "step": 255 }, { "epoch": 0.013653333333333333, "grad_norm": 0.02789540168079048, "learning_rate": 0.0001, "loss": 1.1021, "step": 256 }, { "epoch": 0.013706666666666667, "grad_norm": 0.03230653992990404, "learning_rate": 0.0001, "loss": 1.0357, "step": 257 }, { "epoch": 0.01376, "grad_norm": 0.02842524369187931, "learning_rate": 0.0001, "loss": 1.1362, "step": 258 }, { "epoch": 0.013813333333333334, "grad_norm": 0.03192343054835773, "learning_rate": 0.0001, "loss": 1.0945, "step": 259 }, { "epoch": 0.013866666666666666, "grad_norm": 0.028430943047898668, "learning_rate": 0.0001, "loss": 1.0657, "step": 260 }, { "epoch": 0.01392, "grad_norm": 0.027727809893507527, "learning_rate": 0.0001, "loss": 1.0347, "step": 261 }, { "epoch": 0.013973333333333334, "grad_norm": 0.028186279813022404, "learning_rate": 0.0001, "loss": 1.0301, "step": 262 }, { "epoch": 0.014026666666666666, "grad_norm": 0.03124689523487801, "learning_rate": 0.0001, "loss": 1.0251, "step": 263 }, { "epoch": 0.01408, "grad_norm": 0.027622431240190815, "learning_rate": 0.0001, "loss": 1.0704, "step": 264 }, { "epoch": 0.014133333333333333, "grad_norm": 0.02709341351532001, "learning_rate": 0.0001, "loss": 1.0939, "step": 265 }, { "epoch": 0.014186666666666667, "grad_norm": 0.027655100539760544, "learning_rate": 0.0001, "loss": 1.0873, "step": 266 }, { "epoch": 0.01424, "grad_norm": 0.026073125536718738, "learning_rate": 0.0001, "loss": 1.036, "step": 267 }, { "epoch": 0.014293333333333333, "grad_norm": 0.02758550868453682, "learning_rate": 0.0001, "loss": 1.0577, "step": 268 }, { "epoch": 0.014346666666666667, "grad_norm": 0.028454174421323895, "learning_rate": 0.0001, "loss": 1.0475, "step": 269 }, { "epoch": 0.0144, "grad_norm": 0.029867413981346007, "learning_rate": 0.0001, "loss": 1.1298, "step": 270 }, { "epoch": 0.014453333333333334, "grad_norm": 0.029986167180212155, "learning_rate": 0.0001, "loss": 1.1042, "step": 271 }, { "epoch": 0.014506666666666666, "grad_norm": 0.029757465367408323, "learning_rate": 0.0001, "loss": 1.0657, "step": 272 }, { "epoch": 0.01456, "grad_norm": 0.031816140547927925, "learning_rate": 0.0001, "loss": 1.1605, "step": 273 }, { "epoch": 0.014613333333333334, "grad_norm": 0.028829857830680077, "learning_rate": 0.0001, "loss": 1.0576, "step": 274 }, { "epoch": 0.014666666666666666, "grad_norm": 0.032753645427159854, "learning_rate": 0.0001, "loss": 1.0527, "step": 275 }, { "epoch": 0.01472, "grad_norm": 0.026395045026196336, "learning_rate": 0.0001, "loss": 1.1568, "step": 276 }, { "epoch": 0.014773333333333333, "grad_norm": 0.032515847673883186, "learning_rate": 0.0001, "loss": 0.9883, "step": 277 }, { "epoch": 0.014826666666666667, "grad_norm": 0.031092394270422992, "learning_rate": 0.0001, "loss": 1.0262, "step": 278 }, { "epoch": 0.01488, "grad_norm": 0.03200153316376056, "learning_rate": 0.0001, "loss": 1.017, "step": 279 }, { "epoch": 0.014933333333333333, "grad_norm": 0.03156614483660119, "learning_rate": 0.0001, "loss": 1.062, "step": 280 }, { "epoch": 0.014986666666666667, "grad_norm": 0.03422292317044305, "learning_rate": 0.0001, "loss": 1.1088, "step": 281 }, { "epoch": 0.01504, "grad_norm": 0.030615084871283046, "learning_rate": 0.0001, "loss": 1.0022, "step": 282 }, { "epoch": 0.015093333333333334, "grad_norm": 0.041856508510729126, "learning_rate": 0.0001, "loss": 1.028, "step": 283 }, { "epoch": 0.015146666666666666, "grad_norm": 0.030255434345494908, "learning_rate": 0.0001, "loss": 1.0536, "step": 284 }, { "epoch": 0.0152, "grad_norm": 0.047847076194265425, "learning_rate": 0.0001, "loss": 1.0148, "step": 285 }, { "epoch": 0.015253333333333334, "grad_norm": 0.029642002087216762, "learning_rate": 0.0001, "loss": 1.032, "step": 286 }, { "epoch": 0.015306666666666666, "grad_norm": 0.03884378012758909, "learning_rate": 0.0001, "loss": 1.068, "step": 287 }, { "epoch": 0.01536, "grad_norm": 0.035224974127389654, "learning_rate": 0.0001, "loss": 1.118, "step": 288 }, { "epoch": 0.015413333333333333, "grad_norm": 0.026067067449157006, "learning_rate": 0.0001, "loss": 1.0179, "step": 289 }, { "epoch": 0.015466666666666667, "grad_norm": 0.04154574080729332, "learning_rate": 0.0001, "loss": 1.0617, "step": 290 }, { "epoch": 0.01552, "grad_norm": 0.02922863155265625, "learning_rate": 0.0001, "loss": 1.0007, "step": 291 }, { "epoch": 0.015573333333333333, "grad_norm": 0.03759135682927236, "learning_rate": 0.0001, "loss": 1.1074, "step": 292 }, { "epoch": 0.015626666666666667, "grad_norm": 0.02768527333698743, "learning_rate": 0.0001, "loss": 1.0832, "step": 293 }, { "epoch": 0.01568, "grad_norm": 0.028540400069516168, "learning_rate": 0.0001, "loss": 1.0482, "step": 294 }, { "epoch": 0.015733333333333332, "grad_norm": 0.03785712025203911, "learning_rate": 0.0001, "loss": 1.0742, "step": 295 }, { "epoch": 0.015786666666666668, "grad_norm": 0.03056094132989058, "learning_rate": 0.0001, "loss": 1.0569, "step": 296 }, { "epoch": 0.01584, "grad_norm": 0.03159285738338081, "learning_rate": 0.0001, "loss": 1.0684, "step": 297 }, { "epoch": 0.015893333333333332, "grad_norm": 0.035974216268575804, "learning_rate": 0.0001, "loss": 1.0613, "step": 298 }, { "epoch": 0.015946666666666668, "grad_norm": 0.030947377010682443, "learning_rate": 0.0001, "loss": 1.1092, "step": 299 }, { "epoch": 0.016, "grad_norm": 0.033898563438806525, "learning_rate": 0.0001, "loss": 1.041, "step": 300 }, { "epoch": 0.016053333333333333, "grad_norm": 0.03292576051008011, "learning_rate": 0.0001, "loss": 1.0887, "step": 301 }, { "epoch": 0.016106666666666665, "grad_norm": 0.031749365812221826, "learning_rate": 0.0001, "loss": 1.0969, "step": 302 }, { "epoch": 0.01616, "grad_norm": 0.029785513340430385, "learning_rate": 0.0001, "loss": 1.055, "step": 303 }, { "epoch": 0.016213333333333333, "grad_norm": 0.031742247722212874, "learning_rate": 0.0001, "loss": 1.006, "step": 304 }, { "epoch": 0.016266666666666665, "grad_norm": 0.03134762620808533, "learning_rate": 0.0001, "loss": 1.0492, "step": 305 }, { "epoch": 0.01632, "grad_norm": 0.035003819557545446, "learning_rate": 0.0001, "loss": 1.0558, "step": 306 }, { "epoch": 0.016373333333333333, "grad_norm": 0.03296922340582736, "learning_rate": 0.0001, "loss": 1.0714, "step": 307 }, { "epoch": 0.016426666666666666, "grad_norm": 0.03117154954741794, "learning_rate": 0.0001, "loss": 1.057, "step": 308 }, { "epoch": 0.01648, "grad_norm": 0.029912372061067876, "learning_rate": 0.0001, "loss": 1.0732, "step": 309 }, { "epoch": 0.016533333333333334, "grad_norm": 0.04487232292890057, "learning_rate": 0.0001, "loss": 1.0216, "step": 310 }, { "epoch": 0.016586666666666666, "grad_norm": 0.03081273512723902, "learning_rate": 0.0001, "loss": 1.057, "step": 311 }, { "epoch": 0.01664, "grad_norm": 0.03281915569187027, "learning_rate": 0.0001, "loss": 1.0563, "step": 312 }, { "epoch": 0.016693333333333334, "grad_norm": 0.029292829792812388, "learning_rate": 0.0001, "loss": 1.0558, "step": 313 }, { "epoch": 0.016746666666666667, "grad_norm": 0.02977200434254926, "learning_rate": 0.0001, "loss": 1.0343, "step": 314 }, { "epoch": 0.0168, "grad_norm": 0.027179631564878907, "learning_rate": 0.0001, "loss": 0.9973, "step": 315 }, { "epoch": 0.016853333333333335, "grad_norm": 0.02707133743343452, "learning_rate": 0.0001, "loss": 0.985, "step": 316 }, { "epoch": 0.016906666666666667, "grad_norm": 0.027862420414370256, "learning_rate": 0.0001, "loss": 1.0784, "step": 317 }, { "epoch": 0.01696, "grad_norm": 0.024751619732911904, "learning_rate": 0.0001, "loss": 1.0739, "step": 318 }, { "epoch": 0.01701333333333333, "grad_norm": 0.031493765173030604, "learning_rate": 0.0001, "loss": 1.0446, "step": 319 }, { "epoch": 0.017066666666666667, "grad_norm": 0.028696386778704255, "learning_rate": 0.0001, "loss": 0.9795, "step": 320 }, { "epoch": 0.01712, "grad_norm": 0.03415118878092258, "learning_rate": 0.0001, "loss": 1.0772, "step": 321 }, { "epoch": 0.017173333333333332, "grad_norm": 0.02995010953902378, "learning_rate": 0.0001, "loss": 1.0159, "step": 322 }, { "epoch": 0.017226666666666668, "grad_norm": 0.03580808487326185, "learning_rate": 0.0001, "loss": 1.0612, "step": 323 }, { "epoch": 0.01728, "grad_norm": 0.03506423701369882, "learning_rate": 0.0001, "loss": 1.0595, "step": 324 }, { "epoch": 0.017333333333333333, "grad_norm": 0.03466479476243407, "learning_rate": 0.0001, "loss": 1.0502, "step": 325 }, { "epoch": 0.01738666666666667, "grad_norm": 0.03214391804179624, "learning_rate": 0.0001, "loss": 1.0812, "step": 326 }, { "epoch": 0.01744, "grad_norm": 0.028072159375967753, "learning_rate": 0.0001, "loss": 1.0963, "step": 327 }, { "epoch": 0.017493333333333333, "grad_norm": 0.031494434621519414, "learning_rate": 0.0001, "loss": 1.1078, "step": 328 }, { "epoch": 0.017546666666666665, "grad_norm": 0.031617913967152994, "learning_rate": 0.0001, "loss": 1.0441, "step": 329 }, { "epoch": 0.0176, "grad_norm": 0.0329875799682057, "learning_rate": 0.0001, "loss": 1.0439, "step": 330 }, { "epoch": 0.017653333333333333, "grad_norm": 0.029467640878076403, "learning_rate": 0.0001, "loss": 1.02, "step": 331 }, { "epoch": 0.017706666666666666, "grad_norm": 0.03052182121481663, "learning_rate": 0.0001, "loss": 1.0755, "step": 332 }, { "epoch": 0.01776, "grad_norm": 0.02559458807134852, "learning_rate": 0.0001, "loss": 1.0606, "step": 333 }, { "epoch": 0.017813333333333334, "grad_norm": 0.02703684933326687, "learning_rate": 0.0001, "loss": 1.0864, "step": 334 }, { "epoch": 0.017866666666666666, "grad_norm": 0.026753531972531313, "learning_rate": 0.0001, "loss": 1.0259, "step": 335 }, { "epoch": 0.01792, "grad_norm": 0.026916556699741197, "learning_rate": 0.0001, "loss": 1.075, "step": 336 }, { "epoch": 0.017973333333333334, "grad_norm": 0.025738137328926707, "learning_rate": 0.0001, "loss": 1.1118, "step": 337 }, { "epoch": 0.018026666666666667, "grad_norm": 0.02567237774910536, "learning_rate": 0.0001, "loss": 1.1171, "step": 338 }, { "epoch": 0.01808, "grad_norm": 0.026013833568443275, "learning_rate": 0.0001, "loss": 1.0911, "step": 339 }, { "epoch": 0.018133333333333335, "grad_norm": 0.027028788146671114, "learning_rate": 0.0001, "loss": 1.0504, "step": 340 }, { "epoch": 0.018186666666666667, "grad_norm": 0.023988082488905483, "learning_rate": 0.0001, "loss": 1.0436, "step": 341 }, { "epoch": 0.01824, "grad_norm": 0.026303446832233002, "learning_rate": 0.0001, "loss": 1.0461, "step": 342 }, { "epoch": 0.018293333333333335, "grad_norm": 0.02427904886173714, "learning_rate": 0.0001, "loss": 1.0531, "step": 343 }, { "epoch": 0.018346666666666667, "grad_norm": 0.023390434640162036, "learning_rate": 0.0001, "loss": 1.0632, "step": 344 }, { "epoch": 0.0184, "grad_norm": 0.028486247841189936, "learning_rate": 0.0001, "loss": 1.046, "step": 345 }, { "epoch": 0.018453333333333332, "grad_norm": 0.024377650723664605, "learning_rate": 0.0001, "loss": 1.0255, "step": 346 }, { "epoch": 0.018506666666666668, "grad_norm": 0.030887395887601296, "learning_rate": 0.0001, "loss": 1.0857, "step": 347 }, { "epoch": 0.01856, "grad_norm": 0.02674271547203887, "learning_rate": 0.0001, "loss": 1.0208, "step": 348 }, { "epoch": 0.018613333333333332, "grad_norm": 0.029958343257763205, "learning_rate": 0.0001, "loss": 1.0487, "step": 349 }, { "epoch": 0.018666666666666668, "grad_norm": 0.02721468036424237, "learning_rate": 0.0001, "loss": 1.0297, "step": 350 }, { "epoch": 0.01872, "grad_norm": 0.03041357064666306, "learning_rate": 0.0001, "loss": 1.0595, "step": 351 }, { "epoch": 0.018773333333333333, "grad_norm": 0.025530909097418928, "learning_rate": 0.0001, "loss": 0.9533, "step": 352 }, { "epoch": 0.018826666666666665, "grad_norm": 0.029046980447655, "learning_rate": 0.0001, "loss": 1.0412, "step": 353 }, { "epoch": 0.01888, "grad_norm": 0.02742225734624913, "learning_rate": 0.0001, "loss": 1.0527, "step": 354 }, { "epoch": 0.018933333333333333, "grad_norm": 0.02817214536206837, "learning_rate": 0.0001, "loss": 1.0794, "step": 355 }, { "epoch": 0.018986666666666666, "grad_norm": 0.028177786714841432, "learning_rate": 0.0001, "loss": 1.1266, "step": 356 }, { "epoch": 0.01904, "grad_norm": 0.036940352302188284, "learning_rate": 0.0001, "loss": 1.0354, "step": 357 }, { "epoch": 0.019093333333333334, "grad_norm": 0.02891213109646514, "learning_rate": 0.0001, "loss": 1.0301, "step": 358 }, { "epoch": 0.019146666666666666, "grad_norm": 0.035077638590988815, "learning_rate": 0.0001, "loss": 1.1065, "step": 359 }, { "epoch": 0.0192, "grad_norm": 0.027029906296890737, "learning_rate": 0.0001, "loss": 1.0932, "step": 360 }, { "epoch": 0.019253333333333334, "grad_norm": 0.028542269376271526, "learning_rate": 0.0001, "loss": 1.0999, "step": 361 }, { "epoch": 0.019306666666666666, "grad_norm": 0.03555033316971397, "learning_rate": 0.0001, "loss": 1.0551, "step": 362 }, { "epoch": 0.01936, "grad_norm": 0.02804863106584758, "learning_rate": 0.0001, "loss": 1.0604, "step": 363 }, { "epoch": 0.019413333333333335, "grad_norm": 0.03343706544181945, "learning_rate": 0.0001, "loss": 1.0714, "step": 364 }, { "epoch": 0.019466666666666667, "grad_norm": 0.03368558088032251, "learning_rate": 0.0001, "loss": 1.0638, "step": 365 }, { "epoch": 0.01952, "grad_norm": 0.030220655249612118, "learning_rate": 0.0001, "loss": 1.0467, "step": 366 }, { "epoch": 0.019573333333333335, "grad_norm": 0.029117713883176303, "learning_rate": 0.0001, "loss": 1.1224, "step": 367 }, { "epoch": 0.019626666666666667, "grad_norm": 0.031636676066211435, "learning_rate": 0.0001, "loss": 1.0971, "step": 368 }, { "epoch": 0.01968, "grad_norm": 0.025851792712128695, "learning_rate": 0.0001, "loss": 1.0808, "step": 369 }, { "epoch": 0.019733333333333332, "grad_norm": 0.027299446409118307, "learning_rate": 0.0001, "loss": 1.0784, "step": 370 }, { "epoch": 0.019786666666666668, "grad_norm": 0.028099557032940214, "learning_rate": 0.0001, "loss": 0.9995, "step": 371 }, { "epoch": 0.01984, "grad_norm": 0.026366419496810567, "learning_rate": 0.0001, "loss": 1.0425, "step": 372 }, { "epoch": 0.019893333333333332, "grad_norm": 0.025729039831486382, "learning_rate": 0.0001, "loss": 1.0516, "step": 373 }, { "epoch": 0.019946666666666668, "grad_norm": 0.02890713408278688, "learning_rate": 0.0001, "loss": 1.0055, "step": 374 }, { "epoch": 0.02, "grad_norm": 0.027887343477902646, "learning_rate": 0.0001, "loss": 1.0869, "step": 375 }, { "epoch": 0.020053333333333333, "grad_norm": 0.025907081160040965, "learning_rate": 0.0001, "loss": 1.0178, "step": 376 }, { "epoch": 0.020106666666666665, "grad_norm": 0.026435137519446417, "learning_rate": 0.0001, "loss": 1.0937, "step": 377 }, { "epoch": 0.02016, "grad_norm": 0.0253290870695598, "learning_rate": 0.0001, "loss": 1.031, "step": 378 }, { "epoch": 0.020213333333333333, "grad_norm": 0.026734068911816202, "learning_rate": 0.0001, "loss": 1.0576, "step": 379 }, { "epoch": 0.020266666666666665, "grad_norm": 0.03393577567452843, "learning_rate": 0.0001, "loss": 1.0591, "step": 380 }, { "epoch": 0.02032, "grad_norm": 0.02828326274802342, "learning_rate": 0.0001, "loss": 1.0517, "step": 381 }, { "epoch": 0.020373333333333334, "grad_norm": 0.02860485461026611, "learning_rate": 0.0001, "loss": 1.0674, "step": 382 }, { "epoch": 0.020426666666666666, "grad_norm": 0.026478529379975944, "learning_rate": 0.0001, "loss": 1.0941, "step": 383 }, { "epoch": 0.02048, "grad_norm": 0.027481746097079915, "learning_rate": 0.0001, "loss": 1.1043, "step": 384 }, { "epoch": 0.020533333333333334, "grad_norm": 0.027006969234312356, "learning_rate": 0.0001, "loss": 1.1279, "step": 385 }, { "epoch": 0.020586666666666666, "grad_norm": 0.028720064065126408, "learning_rate": 0.0001, "loss": 1.0274, "step": 386 }, { "epoch": 0.02064, "grad_norm": 0.027529008097351197, "learning_rate": 0.0001, "loss": 1.0253, "step": 387 }, { "epoch": 0.020693333333333334, "grad_norm": 0.03158791587970711, "learning_rate": 0.0001, "loss": 1.055, "step": 388 }, { "epoch": 0.020746666666666667, "grad_norm": 0.0291389379537766, "learning_rate": 0.0001, "loss": 1.022, "step": 389 }, { "epoch": 0.0208, "grad_norm": 0.026310647414075156, "learning_rate": 0.0001, "loss": 1.0406, "step": 390 }, { "epoch": 0.020853333333333335, "grad_norm": 0.029681993096700644, "learning_rate": 0.0001, "loss": 1.1108, "step": 391 }, { "epoch": 0.020906666666666667, "grad_norm": 0.026459941461558376, "learning_rate": 0.0001, "loss": 1.0914, "step": 392 }, { "epoch": 0.02096, "grad_norm": 0.026362412568191183, "learning_rate": 0.0001, "loss": 1.056, "step": 393 }, { "epoch": 0.021013333333333332, "grad_norm": 0.026093317445612677, "learning_rate": 0.0001, "loss": 1.0737, "step": 394 }, { "epoch": 0.021066666666666668, "grad_norm": 0.025638727214101386, "learning_rate": 0.0001, "loss": 1.0656, "step": 395 }, { "epoch": 0.02112, "grad_norm": 0.028232502494594188, "learning_rate": 0.0001, "loss": 0.9716, "step": 396 }, { "epoch": 0.021173333333333332, "grad_norm": 0.02906780589841371, "learning_rate": 0.0001, "loss": 1.0187, "step": 397 }, { "epoch": 0.021226666666666668, "grad_norm": 0.025717361098639903, "learning_rate": 0.0001, "loss": 1.058, "step": 398 }, { "epoch": 0.02128, "grad_norm": 0.02652830785176825, "learning_rate": 0.0001, "loss": 1.0539, "step": 399 }, { "epoch": 0.021333333333333333, "grad_norm": 0.025167052204156423, "learning_rate": 0.0001, "loss": 1.029, "step": 400 }, { "epoch": 0.021333333333333333, "eval_accuracy": 0.6031766972522907, "eval_loss": 1.4504541158676147, "eval_runtime": 62.3335, "eval_samples_per_second": 16.043, "eval_steps_per_second": 0.513, "step": 400 }, { "epoch": 0.021386666666666665, "grad_norm": 0.029053357525178344, "learning_rate": 0.0001, "loss": 1.0365, "step": 401 }, { "epoch": 0.02144, "grad_norm": 0.029474045819068078, "learning_rate": 0.0001, "loss": 1.0607, "step": 402 }, { "epoch": 0.021493333333333333, "grad_norm": 0.025678794455837924, "learning_rate": 0.0001, "loss": 1.0363, "step": 403 }, { "epoch": 0.021546666666666665, "grad_norm": 0.03227659639217607, "learning_rate": 0.0001, "loss": 1.0577, "step": 404 }, { "epoch": 0.0216, "grad_norm": 0.02884093933159816, "learning_rate": 0.0001, "loss": 1.0318, "step": 405 }, { "epoch": 0.021653333333333333, "grad_norm": 0.026513728040301318, "learning_rate": 0.0001, "loss": 1.07, "step": 406 }, { "epoch": 0.021706666666666666, "grad_norm": 0.030849289634637234, "learning_rate": 0.0001, "loss": 1.0563, "step": 407 }, { "epoch": 0.02176, "grad_norm": 0.03153134056187864, "learning_rate": 0.0001, "loss": 0.974, "step": 408 }, { "epoch": 0.021813333333333334, "grad_norm": 0.030167919251293484, "learning_rate": 0.0001, "loss": 1.0063, "step": 409 }, { "epoch": 0.021866666666666666, "grad_norm": 0.03779516349808776, "learning_rate": 0.0001, "loss": 1.0775, "step": 410 }, { "epoch": 0.02192, "grad_norm": 0.03487583611834528, "learning_rate": 0.0001, "loss": 1.0242, "step": 411 }, { "epoch": 0.021973333333333334, "grad_norm": 0.03340258412178405, "learning_rate": 0.0001, "loss": 1.007, "step": 412 }, { "epoch": 0.022026666666666667, "grad_norm": 0.02992368088330469, "learning_rate": 0.0001, "loss": 1.0288, "step": 413 }, { "epoch": 0.02208, "grad_norm": 0.028447780043733484, "learning_rate": 0.0001, "loss": 1.0049, "step": 414 }, { "epoch": 0.022133333333333335, "grad_norm": 0.03082770040515954, "learning_rate": 0.0001, "loss": 1.0824, "step": 415 }, { "epoch": 0.022186666666666667, "grad_norm": 0.03142775534057516, "learning_rate": 0.0001, "loss": 1.0175, "step": 416 }, { "epoch": 0.02224, "grad_norm": 0.03039707881525997, "learning_rate": 0.0001, "loss": 1.1004, "step": 417 }, { "epoch": 0.02229333333333333, "grad_norm": 0.035482902760430986, "learning_rate": 0.0001, "loss": 1.0629, "step": 418 }, { "epoch": 0.022346666666666667, "grad_norm": 0.0311600162316943, "learning_rate": 0.0001, "loss": 1.083, "step": 419 }, { "epoch": 0.0224, "grad_norm": 0.02598116713955271, "learning_rate": 0.0001, "loss": 1.0295, "step": 420 }, { "epoch": 0.022453333333333332, "grad_norm": 0.028539749918331213, "learning_rate": 0.0001, "loss": 1.1239, "step": 421 }, { "epoch": 0.022506666666666668, "grad_norm": 0.02794856360914057, "learning_rate": 0.0001, "loss": 1.0869, "step": 422 }, { "epoch": 0.02256, "grad_norm": 0.026963534370146734, "learning_rate": 0.0001, "loss": 1.0359, "step": 423 }, { "epoch": 0.022613333333333333, "grad_norm": 0.029060493516265676, "learning_rate": 0.0001, "loss": 1.0602, "step": 424 }, { "epoch": 0.02266666666666667, "grad_norm": 0.026189659354252996, "learning_rate": 0.0001, "loss": 1.0796, "step": 425 }, { "epoch": 0.02272, "grad_norm": 0.028693064238298812, "learning_rate": 0.0001, "loss": 1.0146, "step": 426 }, { "epoch": 0.022773333333333333, "grad_norm": 0.025348928366226316, "learning_rate": 0.0001, "loss": 1.0848, "step": 427 }, { "epoch": 0.022826666666666665, "grad_norm": 0.02885848930611813, "learning_rate": 0.0001, "loss": 1.0602, "step": 428 }, { "epoch": 0.02288, "grad_norm": 0.02629223229615296, "learning_rate": 0.0001, "loss": 1.03, "step": 429 }, { "epoch": 0.022933333333333333, "grad_norm": 0.027409049751057055, "learning_rate": 0.0001, "loss": 1.061, "step": 430 }, { "epoch": 0.022986666666666666, "grad_norm": 0.02780451142825781, "learning_rate": 0.0001, "loss": 1.0552, "step": 431 }, { "epoch": 0.02304, "grad_norm": 0.029522800413640884, "learning_rate": 0.0001, "loss": 1.0533, "step": 432 }, { "epoch": 0.023093333333333334, "grad_norm": 0.030455229875625784, "learning_rate": 0.0001, "loss": 1.0033, "step": 433 }, { "epoch": 0.023146666666666666, "grad_norm": 0.03173636241329264, "learning_rate": 0.0001, "loss": 1.0686, "step": 434 }, { "epoch": 0.0232, "grad_norm": 0.03168326600402686, "learning_rate": 0.0001, "loss": 1.0628, "step": 435 }, { "epoch": 0.023253333333333334, "grad_norm": 0.026215702129123965, "learning_rate": 0.0001, "loss": 1.0686, "step": 436 }, { "epoch": 0.023306666666666667, "grad_norm": 0.035464794520461466, "learning_rate": 0.0001, "loss": 1.0772, "step": 437 }, { "epoch": 0.02336, "grad_norm": 0.02855595177866171, "learning_rate": 0.0001, "loss": 1.098, "step": 438 }, { "epoch": 0.023413333333333335, "grad_norm": 0.04002437828765943, "learning_rate": 0.0001, "loss": 1.089, "step": 439 }, { "epoch": 0.023466666666666667, "grad_norm": 0.03585573294824762, "learning_rate": 0.0001, "loss": 1.0301, "step": 440 }, { "epoch": 0.02352, "grad_norm": 0.043418690636598985, "learning_rate": 0.0001, "loss": 1.0726, "step": 441 }, { "epoch": 0.023573333333333335, "grad_norm": 0.0290614894491396, "learning_rate": 0.0001, "loss": 1.0859, "step": 442 }, { "epoch": 0.023626666666666667, "grad_norm": 0.0290944822288765, "learning_rate": 0.0001, "loss": 1.126, "step": 443 }, { "epoch": 0.02368, "grad_norm": 0.030186607335437106, "learning_rate": 0.0001, "loss": 1.087, "step": 444 }, { "epoch": 0.023733333333333332, "grad_norm": 0.02814069752913434, "learning_rate": 0.0001, "loss": 1.0546, "step": 445 }, { "epoch": 0.023786666666666668, "grad_norm": 0.03233398519193545, "learning_rate": 0.0001, "loss": 1.0532, "step": 446 }, { "epoch": 0.02384, "grad_norm": 0.03063285078969354, "learning_rate": 0.0001, "loss": 1.0443, "step": 447 }, { "epoch": 0.023893333333333332, "grad_norm": 0.033114650713262056, "learning_rate": 0.0001, "loss": 1.0253, "step": 448 }, { "epoch": 0.023946666666666668, "grad_norm": 0.03491959026821597, "learning_rate": 0.0001, "loss": 1.0721, "step": 449 }, { "epoch": 0.024, "grad_norm": 0.026318486959858924, "learning_rate": 0.0001, "loss": 1.0659, "step": 450 }, { "epoch": 0.024053333333333333, "grad_norm": 0.04080394535435901, "learning_rate": 0.0001, "loss": 1.0095, "step": 451 }, { "epoch": 0.024106666666666665, "grad_norm": 0.03246981772136912, "learning_rate": 0.0001, "loss": 1.0795, "step": 452 }, { "epoch": 0.02416, "grad_norm": 0.03711499410275952, "learning_rate": 0.0001, "loss": 1.0494, "step": 453 }, { "epoch": 0.024213333333333333, "grad_norm": 0.03389334869976908, "learning_rate": 0.0001, "loss": 1.0487, "step": 454 }, { "epoch": 0.024266666666666666, "grad_norm": 0.03060692008215914, "learning_rate": 0.0001, "loss": 0.9845, "step": 455 }, { "epoch": 0.02432, "grad_norm": 0.03240637929991925, "learning_rate": 0.0001, "loss": 1.0729, "step": 456 }, { "epoch": 0.024373333333333334, "grad_norm": 0.03309869330586512, "learning_rate": 0.0001, "loss": 1.0077, "step": 457 }, { "epoch": 0.024426666666666666, "grad_norm": 0.029231242062182545, "learning_rate": 0.0001, "loss": 1.0936, "step": 458 }, { "epoch": 0.02448, "grad_norm": 0.035605870022303046, "learning_rate": 0.0001, "loss": 1.0339, "step": 459 }, { "epoch": 0.024533333333333334, "grad_norm": 0.032122017264580076, "learning_rate": 0.0001, "loss": 1.0432, "step": 460 }, { "epoch": 0.024586666666666666, "grad_norm": 0.03627076642877057, "learning_rate": 0.0001, "loss": 1.0836, "step": 461 }, { "epoch": 0.02464, "grad_norm": 0.02736588232960089, "learning_rate": 0.0001, "loss": 1.0424, "step": 462 }, { "epoch": 0.024693333333333334, "grad_norm": 0.032870392142688235, "learning_rate": 0.0001, "loss": 1.0666, "step": 463 }, { "epoch": 0.024746666666666667, "grad_norm": 0.02580065579028054, "learning_rate": 0.0001, "loss": 1.0515, "step": 464 }, { "epoch": 0.0248, "grad_norm": 0.030460139904030313, "learning_rate": 0.0001, "loss": 1.052, "step": 465 }, { "epoch": 0.024853333333333335, "grad_norm": 0.02737468320120218, "learning_rate": 0.0001, "loss": 0.9922, "step": 466 }, { "epoch": 0.024906666666666667, "grad_norm": 0.03475517154737565, "learning_rate": 0.0001, "loss": 1.0589, "step": 467 }, { "epoch": 0.02496, "grad_norm": 0.028928836775852042, "learning_rate": 0.0001, "loss": 1.0824, "step": 468 }, { "epoch": 0.025013333333333332, "grad_norm": 0.035307137381791795, "learning_rate": 0.0001, "loss": 0.9911, "step": 469 }, { "epoch": 0.025066666666666668, "grad_norm": 0.026823401948891615, "learning_rate": 0.0001, "loss": 1.0639, "step": 470 }, { "epoch": 0.02512, "grad_norm": 0.0357739238856504, "learning_rate": 0.0001, "loss": 1.063, "step": 471 }, { "epoch": 0.025173333333333332, "grad_norm": 0.02708876927708111, "learning_rate": 0.0001, "loss": 1.044, "step": 472 }, { "epoch": 0.025226666666666668, "grad_norm": 0.033064805821763264, "learning_rate": 0.0001, "loss": 1.0237, "step": 473 }, { "epoch": 0.02528, "grad_norm": 0.027573131632937994, "learning_rate": 0.0001, "loss": 0.9948, "step": 474 }, { "epoch": 0.025333333333333333, "grad_norm": 0.03168991555601376, "learning_rate": 0.0001, "loss": 1.0835, "step": 475 }, { "epoch": 0.025386666666666665, "grad_norm": 0.026789578605463115, "learning_rate": 0.0001, "loss": 1.054, "step": 476 }, { "epoch": 0.02544, "grad_norm": 0.029621588067924365, "learning_rate": 0.0001, "loss": 1.0663, "step": 477 }, { "epoch": 0.025493333333333333, "grad_norm": 0.0256933807176801, "learning_rate": 0.0001, "loss": 1.0868, "step": 478 }, { "epoch": 0.025546666666666665, "grad_norm": 0.031583332157905514, "learning_rate": 0.0001, "loss": 1.0984, "step": 479 }, { "epoch": 0.0256, "grad_norm": 0.028610464318737584, "learning_rate": 0.0001, "loss": 1.0159, "step": 480 }, { "epoch": 0.025653333333333334, "grad_norm": 0.03182093744252328, "learning_rate": 0.0001, "loss": 1.0765, "step": 481 }, { "epoch": 0.025706666666666666, "grad_norm": 0.027101991844817215, "learning_rate": 0.0001, "loss": 1.0466, "step": 482 }, { "epoch": 0.02576, "grad_norm": 0.03559697773609355, "learning_rate": 0.0001, "loss": 0.9895, "step": 483 }, { "epoch": 0.025813333333333334, "grad_norm": 0.029373287519758855, "learning_rate": 0.0001, "loss": 1.0795, "step": 484 }, { "epoch": 0.025866666666666666, "grad_norm": 0.030874499025079473, "learning_rate": 0.0001, "loss": 1.0496, "step": 485 }, { "epoch": 0.02592, "grad_norm": 0.03160479471651721, "learning_rate": 0.0001, "loss": 1.0135, "step": 486 }, { "epoch": 0.025973333333333334, "grad_norm": 0.03447887590022929, "learning_rate": 0.0001, "loss": 1.054, "step": 487 }, { "epoch": 0.026026666666666667, "grad_norm": 0.030774359975939802, "learning_rate": 0.0001, "loss": 1.0676, "step": 488 }, { "epoch": 0.02608, "grad_norm": 0.028798000478720626, "learning_rate": 0.0001, "loss": 1.0028, "step": 489 }, { "epoch": 0.026133333333333335, "grad_norm": 0.03390295207044085, "learning_rate": 0.0001, "loss": 1.0608, "step": 490 }, { "epoch": 0.026186666666666667, "grad_norm": 0.026205318620701235, "learning_rate": 0.0001, "loss": 1.0723, "step": 491 }, { "epoch": 0.02624, "grad_norm": 0.030382545007108054, "learning_rate": 0.0001, "loss": 1.0075, "step": 492 }, { "epoch": 0.026293333333333332, "grad_norm": 0.02632373090852729, "learning_rate": 0.0001, "loss": 1.016, "step": 493 }, { "epoch": 0.026346666666666668, "grad_norm": 0.034629311803308915, "learning_rate": 0.0001, "loss": 1.0849, "step": 494 }, { "epoch": 0.0264, "grad_norm": 0.02794974055789051, "learning_rate": 0.0001, "loss": 1.0658, "step": 495 }, { "epoch": 0.026453333333333332, "grad_norm": 0.034484018595900924, "learning_rate": 0.0001, "loss": 1.057, "step": 496 }, { "epoch": 0.026506666666666668, "grad_norm": 0.027226653491494283, "learning_rate": 0.0001, "loss": 1.0898, "step": 497 }, { "epoch": 0.02656, "grad_norm": 0.0366132176620981, "learning_rate": 0.0001, "loss": 0.9982, "step": 498 }, { "epoch": 0.026613333333333333, "grad_norm": 0.029198913488547064, "learning_rate": 0.0001, "loss": 1.018, "step": 499 }, { "epoch": 0.02666666666666667, "grad_norm": 0.03677223145835217, "learning_rate": 0.0001, "loss": 1.0794, "step": 500 }, { "epoch": 0.02672, "grad_norm": 0.02651990731901792, "learning_rate": 0.0001, "loss": 1.0962, "step": 501 }, { "epoch": 0.026773333333333333, "grad_norm": 0.03355077719282936, "learning_rate": 0.0001, "loss": 1.0907, "step": 502 }, { "epoch": 0.026826666666666665, "grad_norm": 0.02915868522934527, "learning_rate": 0.0001, "loss": 1.0684, "step": 503 }, { "epoch": 0.02688, "grad_norm": 0.030235182446328727, "learning_rate": 0.0001, "loss": 1.0726, "step": 504 }, { "epoch": 0.026933333333333333, "grad_norm": 0.032098510499524925, "learning_rate": 0.0001, "loss": 1.0403, "step": 505 }, { "epoch": 0.026986666666666666, "grad_norm": 0.029866292922145002, "learning_rate": 0.0001, "loss": 1.0198, "step": 506 }, { "epoch": 0.02704, "grad_norm": 0.03344940987833942, "learning_rate": 0.0001, "loss": 1.0245, "step": 507 }, { "epoch": 0.027093333333333334, "grad_norm": 0.032703648734689325, "learning_rate": 0.0001, "loss": 1.0319, "step": 508 }, { "epoch": 0.027146666666666666, "grad_norm": 0.030647095309253046, "learning_rate": 0.0001, "loss": 1.0015, "step": 509 }, { "epoch": 0.0272, "grad_norm": 0.03225772763011113, "learning_rate": 0.0001, "loss": 1.0099, "step": 510 }, { "epoch": 0.027253333333333334, "grad_norm": 0.026884104279355815, "learning_rate": 0.0001, "loss": 1.018, "step": 511 }, { "epoch": 0.027306666666666667, "grad_norm": 0.03559905848690804, "learning_rate": 0.0001, "loss": 1.047, "step": 512 }, { "epoch": 0.02736, "grad_norm": 0.025339288225932833, "learning_rate": 0.0001, "loss": 1.0192, "step": 513 }, { "epoch": 0.027413333333333335, "grad_norm": 0.02825279695243195, "learning_rate": 0.0001, "loss": 1.0188, "step": 514 }, { "epoch": 0.027466666666666667, "grad_norm": 0.027726730912414992, "learning_rate": 0.0001, "loss": 1.0139, "step": 515 }, { "epoch": 0.02752, "grad_norm": 0.027358196476371093, "learning_rate": 0.0001, "loss": 1.0217, "step": 516 }, { "epoch": 0.02757333333333333, "grad_norm": 0.025184591999536324, "learning_rate": 0.0001, "loss": 1.0667, "step": 517 }, { "epoch": 0.027626666666666667, "grad_norm": 0.028091983114919894, "learning_rate": 0.0001, "loss": 1.0539, "step": 518 }, { "epoch": 0.02768, "grad_norm": 0.025422931865888544, "learning_rate": 0.0001, "loss": 1.0582, "step": 519 }, { "epoch": 0.027733333333333332, "grad_norm": 0.027449346212440853, "learning_rate": 0.0001, "loss": 1.0463, "step": 520 }, { "epoch": 0.027786666666666668, "grad_norm": 0.0226677266044884, "learning_rate": 0.0001, "loss": 1.0547, "step": 521 }, { "epoch": 0.02784, "grad_norm": 0.029673940261652584, "learning_rate": 0.0001, "loss": 1.0175, "step": 522 }, { "epoch": 0.027893333333333332, "grad_norm": 0.026922235760732487, "learning_rate": 0.0001, "loss": 1.0505, "step": 523 }, { "epoch": 0.02794666666666667, "grad_norm": 0.025413857251451656, "learning_rate": 0.0001, "loss": 1.0449, "step": 524 }, { "epoch": 0.028, "grad_norm": 0.026132355495133704, "learning_rate": 0.0001, "loss": 0.9959, "step": 525 }, { "epoch": 0.028053333333333333, "grad_norm": 0.029086541686811053, "learning_rate": 0.0001, "loss": 1.0518, "step": 526 }, { "epoch": 0.028106666666666665, "grad_norm": 0.028055930897560945, "learning_rate": 0.0001, "loss": 1.0039, "step": 527 }, { "epoch": 0.02816, "grad_norm": 0.029840799240583228, "learning_rate": 0.0001, "loss": 0.9843, "step": 528 }, { "epoch": 0.028213333333333333, "grad_norm": 0.026251648807173542, "learning_rate": 0.0001, "loss": 1.0811, "step": 529 }, { "epoch": 0.028266666666666666, "grad_norm": 0.029243541996501757, "learning_rate": 0.0001, "loss": 1.0343, "step": 530 }, { "epoch": 0.02832, "grad_norm": 0.025780477919854453, "learning_rate": 0.0001, "loss": 1.0485, "step": 531 }, { "epoch": 0.028373333333333334, "grad_norm": 0.031714624601496204, "learning_rate": 0.0001, "loss": 1.0328, "step": 532 }, { "epoch": 0.028426666666666666, "grad_norm": 0.026892706111064008, "learning_rate": 0.0001, "loss": 0.9986, "step": 533 }, { "epoch": 0.02848, "grad_norm": 0.0335277111953333, "learning_rate": 0.0001, "loss": 1.0401, "step": 534 }, { "epoch": 0.028533333333333334, "grad_norm": 0.024376756145341696, "learning_rate": 0.0001, "loss": 1.0297, "step": 535 }, { "epoch": 0.028586666666666666, "grad_norm": 0.026528967455148288, "learning_rate": 0.0001, "loss": 1.0607, "step": 536 }, { "epoch": 0.02864, "grad_norm": 0.03104583148634439, "learning_rate": 0.0001, "loss": 1.0176, "step": 537 }, { "epoch": 0.028693333333333335, "grad_norm": 0.02563386891700496, "learning_rate": 0.0001, "loss": 0.9757, "step": 538 }, { "epoch": 0.028746666666666667, "grad_norm": 0.030424101368903257, "learning_rate": 0.0001, "loss": 1.0376, "step": 539 }, { "epoch": 0.0288, "grad_norm": 0.025122909052099962, "learning_rate": 0.0001, "loss": 1.018, "step": 540 }, { "epoch": 0.028853333333333335, "grad_norm": 0.027986777277271207, "learning_rate": 0.0001, "loss": 1.053, "step": 541 }, { "epoch": 0.028906666666666667, "grad_norm": 0.028366504481278976, "learning_rate": 0.0001, "loss": 1.08, "step": 542 }, { "epoch": 0.02896, "grad_norm": 0.02488252560475833, "learning_rate": 0.0001, "loss": 1.0569, "step": 543 }, { "epoch": 0.029013333333333332, "grad_norm": 0.02771674283303712, "learning_rate": 0.0001, "loss": 1.0876, "step": 544 }, { "epoch": 0.029066666666666668, "grad_norm": 0.023043430088074683, "learning_rate": 0.0001, "loss": 1.0617, "step": 545 }, { "epoch": 0.02912, "grad_norm": 0.026836814258446483, "learning_rate": 0.0001, "loss": 1.0553, "step": 546 }, { "epoch": 0.029173333333333332, "grad_norm": 0.02572272778382521, "learning_rate": 0.0001, "loss": 1.0499, "step": 547 }, { "epoch": 0.029226666666666668, "grad_norm": 0.024144153975780923, "learning_rate": 0.0001, "loss": 1.0697, "step": 548 }, { "epoch": 0.02928, "grad_norm": 0.024425685767587794, "learning_rate": 0.0001, "loss": 1.0005, "step": 549 }, { "epoch": 0.029333333333333333, "grad_norm": 0.024001550929373328, "learning_rate": 0.0001, "loss": 1.0064, "step": 550 }, { "epoch": 0.029386666666666665, "grad_norm": 0.02666933853610983, "learning_rate": 0.0001, "loss": 1.0129, "step": 551 }, { "epoch": 0.02944, "grad_norm": 0.02573731726673591, "learning_rate": 0.0001, "loss": 0.9938, "step": 552 }, { "epoch": 0.029493333333333333, "grad_norm": 0.02623993818553527, "learning_rate": 0.0001, "loss": 1.0389, "step": 553 }, { "epoch": 0.029546666666666666, "grad_norm": 0.02764017128615615, "learning_rate": 0.0001, "loss": 1.0165, "step": 554 }, { "epoch": 0.0296, "grad_norm": 0.02517507624746559, "learning_rate": 0.0001, "loss": 1.0142, "step": 555 }, { "epoch": 0.029653333333333334, "grad_norm": 0.028589097697550005, "learning_rate": 0.0001, "loss": 1.0486, "step": 556 }, { "epoch": 0.029706666666666666, "grad_norm": 0.030190744770913033, "learning_rate": 0.0001, "loss": 1.0213, "step": 557 }, { "epoch": 0.02976, "grad_norm": 0.027635184601247646, "learning_rate": 0.0001, "loss": 0.9842, "step": 558 }, { "epoch": 0.029813333333333334, "grad_norm": 0.030248276071141625, "learning_rate": 0.0001, "loss": 1.0615, "step": 559 }, { "epoch": 0.029866666666666666, "grad_norm": 0.03149026965789896, "learning_rate": 0.0001, "loss": 1.0091, "step": 560 }, { "epoch": 0.02992, "grad_norm": 0.026488963368527855, "learning_rate": 0.0001, "loss": 1.0393, "step": 561 }, { "epoch": 0.029973333333333334, "grad_norm": 0.03156056628715051, "learning_rate": 0.0001, "loss": 1.1064, "step": 562 }, { "epoch": 0.030026666666666667, "grad_norm": 0.026772923721642618, "learning_rate": 0.0001, "loss": 1.033, "step": 563 }, { "epoch": 0.03008, "grad_norm": 0.038827517285053986, "learning_rate": 0.0001, "loss": 1.0524, "step": 564 }, { "epoch": 0.030133333333333335, "grad_norm": 0.028417039583703018, "learning_rate": 0.0001, "loss": 1.0513, "step": 565 }, { "epoch": 0.030186666666666667, "grad_norm": 0.029024640825169812, "learning_rate": 0.0001, "loss": 1.0434, "step": 566 }, { "epoch": 0.03024, "grad_norm": 0.030815764401784105, "learning_rate": 0.0001, "loss": 1.0591, "step": 567 }, { "epoch": 0.030293333333333332, "grad_norm": 0.032176126369767806, "learning_rate": 0.0001, "loss": 1.0488, "step": 568 }, { "epoch": 0.030346666666666668, "grad_norm": 0.03548818342529221, "learning_rate": 0.0001, "loss": 1.0562, "step": 569 }, { "epoch": 0.0304, "grad_norm": 0.03152919410060147, "learning_rate": 0.0001, "loss": 1.0424, "step": 570 }, { "epoch": 0.030453333333333332, "grad_norm": 0.029509791077301034, "learning_rate": 0.0001, "loss": 1.0722, "step": 571 }, { "epoch": 0.030506666666666668, "grad_norm": 0.03177426421126197, "learning_rate": 0.0001, "loss": 1.0537, "step": 572 }, { "epoch": 0.03056, "grad_norm": 0.03140684345863599, "learning_rate": 0.0001, "loss": 1.0362, "step": 573 }, { "epoch": 0.030613333333333333, "grad_norm": 0.028387595365111578, "learning_rate": 0.0001, "loss": 1.0314, "step": 574 }, { "epoch": 0.030666666666666665, "grad_norm": 0.03550348870504331, "learning_rate": 0.0001, "loss": 1.0671, "step": 575 }, { "epoch": 0.03072, "grad_norm": 0.02860428962580057, "learning_rate": 0.0001, "loss": 1.0227, "step": 576 }, { "epoch": 0.030773333333333333, "grad_norm": 0.032033012137331396, "learning_rate": 0.0001, "loss": 1.0261, "step": 577 }, { "epoch": 0.030826666666666665, "grad_norm": 0.028652449871259623, "learning_rate": 0.0001, "loss": 1.0307, "step": 578 }, { "epoch": 0.03088, "grad_norm": 0.036854493411152246, "learning_rate": 0.0001, "loss": 1.0941, "step": 579 }, { "epoch": 0.030933333333333334, "grad_norm": 0.03144872596853934, "learning_rate": 0.0001, "loss": 1.0704, "step": 580 }, { "epoch": 0.030986666666666666, "grad_norm": 0.032146801934203724, "learning_rate": 0.0001, "loss": 1.067, "step": 581 }, { "epoch": 0.03104, "grad_norm": 0.02872348390190022, "learning_rate": 0.0001, "loss": 1.031, "step": 582 }, { "epoch": 0.031093333333333334, "grad_norm": 0.036941293121842654, "learning_rate": 0.0001, "loss": 1.06, "step": 583 }, { "epoch": 0.031146666666666666, "grad_norm": 0.028896635015294977, "learning_rate": 0.0001, "loss": 0.9874, "step": 584 }, { "epoch": 0.0312, "grad_norm": 0.032509037386965825, "learning_rate": 0.0001, "loss": 1.0308, "step": 585 }, { "epoch": 0.031253333333333334, "grad_norm": 0.026783272691399063, "learning_rate": 0.0001, "loss": 1.073, "step": 586 }, { "epoch": 0.03130666666666666, "grad_norm": 0.028201980116136813, "learning_rate": 0.0001, "loss": 1.0063, "step": 587 }, { "epoch": 0.03136, "grad_norm": 0.031472833110860174, "learning_rate": 0.0001, "loss": 1.0424, "step": 588 }, { "epoch": 0.031413333333333335, "grad_norm": 0.02561743775327991, "learning_rate": 0.0001, "loss": 1.1446, "step": 589 }, { "epoch": 0.031466666666666664, "grad_norm": 0.02857336989244412, "learning_rate": 0.0001, "loss": 1.0459, "step": 590 }, { "epoch": 0.03152, "grad_norm": 0.033339459213100914, "learning_rate": 0.0001, "loss": 1.0623, "step": 591 }, { "epoch": 0.031573333333333335, "grad_norm": 0.02520360108681762, "learning_rate": 0.0001, "loss": 1.0483, "step": 592 }, { "epoch": 0.031626666666666664, "grad_norm": 0.02966068583757507, "learning_rate": 0.0001, "loss": 1.0643, "step": 593 }, { "epoch": 0.03168, "grad_norm": 0.03104121529036495, "learning_rate": 0.0001, "loss": 1.0218, "step": 594 }, { "epoch": 0.031733333333333336, "grad_norm": 0.027301957706175103, "learning_rate": 0.0001, "loss": 1.0745, "step": 595 }, { "epoch": 0.031786666666666664, "grad_norm": 0.03488774725506519, "learning_rate": 0.0001, "loss": 1.0146, "step": 596 }, { "epoch": 0.03184, "grad_norm": 0.02707810299028643, "learning_rate": 0.0001, "loss": 1.0507, "step": 597 }, { "epoch": 0.031893333333333336, "grad_norm": 0.0322932263549692, "learning_rate": 0.0001, "loss": 1.0611, "step": 598 }, { "epoch": 0.031946666666666665, "grad_norm": 0.02787814023638413, "learning_rate": 0.0001, "loss": 1.0391, "step": 599 }, { "epoch": 0.032, "grad_norm": 0.029467224734742736, "learning_rate": 0.0001, "loss": 1.05, "step": 600 }, { "epoch": 0.032, "eval_accuracy": 0.6054293540235649, "eval_loss": 1.4374525547027588, "eval_runtime": 62.0912, "eval_samples_per_second": 16.105, "eval_steps_per_second": 0.515, "step": 600 }, { "epoch": 0.032053333333333336, "grad_norm": 0.029442314704859494, "learning_rate": 0.0001, "loss": 0.9308, "step": 601 }, { "epoch": 0.032106666666666665, "grad_norm": 0.0315822861964183, "learning_rate": 0.0001, "loss": 1.0444, "step": 602 }, { "epoch": 0.03216, "grad_norm": 0.031044050460379495, "learning_rate": 0.0001, "loss": 1.0511, "step": 603 }, { "epoch": 0.03221333333333333, "grad_norm": 0.0320737073739536, "learning_rate": 0.0001, "loss": 1.0392, "step": 604 }, { "epoch": 0.032266666666666666, "grad_norm": 0.03116399409367164, "learning_rate": 0.0001, "loss": 1.0641, "step": 605 }, { "epoch": 0.03232, "grad_norm": 0.02902664089507814, "learning_rate": 0.0001, "loss": 1.0822, "step": 606 }, { "epoch": 0.03237333333333333, "grad_norm": 0.02743228317735314, "learning_rate": 0.0001, "loss": 1.0677, "step": 607 }, { "epoch": 0.032426666666666666, "grad_norm": 0.03049060377227915, "learning_rate": 0.0001, "loss": 1.0886, "step": 608 }, { "epoch": 0.03248, "grad_norm": 0.030620285970369036, "learning_rate": 0.0001, "loss": 1.0321, "step": 609 }, { "epoch": 0.03253333333333333, "grad_norm": 0.027453568346793748, "learning_rate": 0.0001, "loss": 1.0329, "step": 610 }, { "epoch": 0.03258666666666667, "grad_norm": 0.028622317641376696, "learning_rate": 0.0001, "loss": 1.0837, "step": 611 }, { "epoch": 0.03264, "grad_norm": 0.029710954031531907, "learning_rate": 0.0001, "loss": 1.0775, "step": 612 }, { "epoch": 0.03269333333333333, "grad_norm": 0.026041232029131906, "learning_rate": 0.0001, "loss": 1.0413, "step": 613 }, { "epoch": 0.03274666666666667, "grad_norm": 0.03082650346920606, "learning_rate": 0.0001, "loss": 1.0645, "step": 614 }, { "epoch": 0.0328, "grad_norm": 0.025642962998964396, "learning_rate": 0.0001, "loss": 1.0948, "step": 615 }, { "epoch": 0.03285333333333333, "grad_norm": 0.026592884166059358, "learning_rate": 0.0001, "loss": 1.111, "step": 616 }, { "epoch": 0.03290666666666667, "grad_norm": 0.026511958477497, "learning_rate": 0.0001, "loss": 1.0177, "step": 617 }, { "epoch": 0.03296, "grad_norm": 0.02994628486890638, "learning_rate": 0.0001, "loss": 1.077, "step": 618 }, { "epoch": 0.03301333333333333, "grad_norm": 0.028691406228624348, "learning_rate": 0.0001, "loss": 1.0785, "step": 619 }, { "epoch": 0.03306666666666667, "grad_norm": 0.025828833086042266, "learning_rate": 0.0001, "loss": 1.0481, "step": 620 }, { "epoch": 0.03312, "grad_norm": 0.026737514314920413, "learning_rate": 0.0001, "loss": 1.1035, "step": 621 }, { "epoch": 0.03317333333333333, "grad_norm": 0.029197476259429336, "learning_rate": 0.0001, "loss": 1.0676, "step": 622 }, { "epoch": 0.03322666666666667, "grad_norm": 0.024648165353941858, "learning_rate": 0.0001, "loss": 1.1104, "step": 623 }, { "epoch": 0.03328, "grad_norm": 0.030263619862331045, "learning_rate": 0.0001, "loss": 1.1207, "step": 624 }, { "epoch": 0.03333333333333333, "grad_norm": 0.029513683866545768, "learning_rate": 0.0001, "loss": 0.9784, "step": 625 }, { "epoch": 0.03338666666666667, "grad_norm": 0.027830298720054186, "learning_rate": 0.0001, "loss": 0.9893, "step": 626 }, { "epoch": 0.03344, "grad_norm": 0.029741220158497214, "learning_rate": 0.0001, "loss": 1.0318, "step": 627 }, { "epoch": 0.03349333333333333, "grad_norm": 0.029649247016086167, "learning_rate": 0.0001, "loss": 1.0562, "step": 628 }, { "epoch": 0.03354666666666667, "grad_norm": 0.029771957066470067, "learning_rate": 0.0001, "loss": 1.0399, "step": 629 }, { "epoch": 0.0336, "grad_norm": 0.02524012296167611, "learning_rate": 0.0001, "loss": 1.0232, "step": 630 }, { "epoch": 0.033653333333333334, "grad_norm": 0.0253636486784129, "learning_rate": 0.0001, "loss": 1.0719, "step": 631 }, { "epoch": 0.03370666666666667, "grad_norm": 0.0301207519450283, "learning_rate": 0.0001, "loss": 0.9763, "step": 632 }, { "epoch": 0.03376, "grad_norm": 0.025200984519095006, "learning_rate": 0.0001, "loss": 1.0939, "step": 633 }, { "epoch": 0.033813333333333334, "grad_norm": 0.026202270849513667, "learning_rate": 0.0001, "loss": 1.0581, "step": 634 }, { "epoch": 0.03386666666666667, "grad_norm": 0.02718622752986432, "learning_rate": 0.0001, "loss": 1.0553, "step": 635 }, { "epoch": 0.03392, "grad_norm": 0.02847223530413084, "learning_rate": 0.0001, "loss": 1.0308, "step": 636 }, { "epoch": 0.033973333333333335, "grad_norm": 0.028141133249394403, "learning_rate": 0.0001, "loss": 1.0333, "step": 637 }, { "epoch": 0.03402666666666666, "grad_norm": 0.027803697109497857, "learning_rate": 0.0001, "loss": 1.0076, "step": 638 }, { "epoch": 0.03408, "grad_norm": 0.025860133228893974, "learning_rate": 0.0001, "loss": 1.0478, "step": 639 }, { "epoch": 0.034133333333333335, "grad_norm": 0.02624092268602613, "learning_rate": 0.0001, "loss": 1.0561, "step": 640 }, { "epoch": 0.034186666666666664, "grad_norm": 0.02830680761297857, "learning_rate": 0.0001, "loss": 1.0813, "step": 641 }, { "epoch": 0.03424, "grad_norm": 0.027440795752189422, "learning_rate": 0.0001, "loss": 1.0709, "step": 642 }, { "epoch": 0.034293333333333335, "grad_norm": 0.02842495697281179, "learning_rate": 0.0001, "loss": 1.0398, "step": 643 }, { "epoch": 0.034346666666666664, "grad_norm": 0.026877087653101168, "learning_rate": 0.0001, "loss": 1.0394, "step": 644 }, { "epoch": 0.0344, "grad_norm": 0.031291205618477376, "learning_rate": 0.0001, "loss": 1.0514, "step": 645 }, { "epoch": 0.034453333333333336, "grad_norm": 0.027220769170152172, "learning_rate": 0.0001, "loss": 1.0075, "step": 646 }, { "epoch": 0.034506666666666665, "grad_norm": 0.034450347058666515, "learning_rate": 0.0001, "loss": 1.0253, "step": 647 }, { "epoch": 0.03456, "grad_norm": 0.02474358421090832, "learning_rate": 0.0001, "loss": 1.0122, "step": 648 }, { "epoch": 0.034613333333333336, "grad_norm": 0.02852515746927132, "learning_rate": 0.0001, "loss": 1.0422, "step": 649 }, { "epoch": 0.034666666666666665, "grad_norm": 0.02806506063075934, "learning_rate": 0.0001, "loss": 1.0501, "step": 650 }, { "epoch": 0.03472, "grad_norm": 0.030041188129474285, "learning_rate": 0.0001, "loss": 1.0629, "step": 651 }, { "epoch": 0.03477333333333334, "grad_norm": 0.027421503437624027, "learning_rate": 0.0001, "loss": 1.0566, "step": 652 }, { "epoch": 0.034826666666666665, "grad_norm": 0.03307946742691569, "learning_rate": 0.0001, "loss": 1.0523, "step": 653 }, { "epoch": 0.03488, "grad_norm": 0.024415846045076517, "learning_rate": 0.0001, "loss": 0.9848, "step": 654 }, { "epoch": 0.03493333333333333, "grad_norm": 0.03138882184583716, "learning_rate": 0.0001, "loss": 1.0631, "step": 655 }, { "epoch": 0.034986666666666666, "grad_norm": 0.026448367364929868, "learning_rate": 0.0001, "loss": 1.0205, "step": 656 }, { "epoch": 0.03504, "grad_norm": 0.029342221583600215, "learning_rate": 0.0001, "loss": 1.0385, "step": 657 }, { "epoch": 0.03509333333333333, "grad_norm": 0.03038647314125687, "learning_rate": 0.0001, "loss": 0.9936, "step": 658 }, { "epoch": 0.035146666666666666, "grad_norm": 0.02775980593405033, "learning_rate": 0.0001, "loss": 1.0693, "step": 659 }, { "epoch": 0.0352, "grad_norm": 0.026088659147883955, "learning_rate": 0.0001, "loss": 1.0413, "step": 660 }, { "epoch": 0.03525333333333333, "grad_norm": 0.029625559678343332, "learning_rate": 0.0001, "loss": 1.0629, "step": 661 }, { "epoch": 0.03530666666666667, "grad_norm": 0.027313788130980413, "learning_rate": 0.0001, "loss": 1.0392, "step": 662 }, { "epoch": 0.03536, "grad_norm": 0.03331499740465693, "learning_rate": 0.0001, "loss": 1.0229, "step": 663 }, { "epoch": 0.03541333333333333, "grad_norm": 0.030514783497164282, "learning_rate": 0.0001, "loss": 1.023, "step": 664 }, { "epoch": 0.03546666666666667, "grad_norm": 0.02713831987788137, "learning_rate": 0.0001, "loss": 1.0345, "step": 665 }, { "epoch": 0.03552, "grad_norm": 0.029875217710297927, "learning_rate": 0.0001, "loss": 1.0473, "step": 666 }, { "epoch": 0.03557333333333333, "grad_norm": 0.026468342889627728, "learning_rate": 0.0001, "loss": 1.015, "step": 667 }, { "epoch": 0.03562666666666667, "grad_norm": 0.02919312996312141, "learning_rate": 0.0001, "loss": 0.9788, "step": 668 }, { "epoch": 0.03568, "grad_norm": 0.030901880152681808, "learning_rate": 0.0001, "loss": 1.0289, "step": 669 }, { "epoch": 0.03573333333333333, "grad_norm": 0.027031590786473124, "learning_rate": 0.0001, "loss": 1.0425, "step": 670 }, { "epoch": 0.03578666666666667, "grad_norm": 0.029739424686526857, "learning_rate": 0.0001, "loss": 1.0814, "step": 671 }, { "epoch": 0.03584, "grad_norm": 0.03133699636596671, "learning_rate": 0.0001, "loss": 1.0278, "step": 672 }, { "epoch": 0.03589333333333333, "grad_norm": 0.025661635645964066, "learning_rate": 0.0001, "loss": 1.1161, "step": 673 }, { "epoch": 0.03594666666666667, "grad_norm": 0.033243356210014646, "learning_rate": 0.0001, "loss": 1.0207, "step": 674 }, { "epoch": 0.036, "grad_norm": 0.02651931561965799, "learning_rate": 0.0001, "loss": 1.016, "step": 675 }, { "epoch": 0.03605333333333333, "grad_norm": 0.030756323518494756, "learning_rate": 0.0001, "loss": 1.0485, "step": 676 }, { "epoch": 0.03610666666666667, "grad_norm": 0.029870545925031324, "learning_rate": 0.0001, "loss": 1.1165, "step": 677 }, { "epoch": 0.03616, "grad_norm": 0.0265488035721901, "learning_rate": 0.0001, "loss": 1.009, "step": 678 }, { "epoch": 0.036213333333333333, "grad_norm": 0.03185938576378988, "learning_rate": 0.0001, "loss": 1.0203, "step": 679 }, { "epoch": 0.03626666666666667, "grad_norm": 0.02917796576032436, "learning_rate": 0.0001, "loss": 1.0119, "step": 680 }, { "epoch": 0.03632, "grad_norm": 0.02810637908954052, "learning_rate": 0.0001, "loss": 1.0324, "step": 681 }, { "epoch": 0.036373333333333334, "grad_norm": 0.03404403242385817, "learning_rate": 0.0001, "loss": 1.0048, "step": 682 }, { "epoch": 0.03642666666666667, "grad_norm": 0.02651473722355262, "learning_rate": 0.0001, "loss": 1.0131, "step": 683 }, { "epoch": 0.03648, "grad_norm": 0.03317655777753852, "learning_rate": 0.0001, "loss": 1.0005, "step": 684 }, { "epoch": 0.036533333333333334, "grad_norm": 0.026765529601745244, "learning_rate": 0.0001, "loss": 1.0301, "step": 685 }, { "epoch": 0.03658666666666667, "grad_norm": 0.03337148184797978, "learning_rate": 0.0001, "loss": 1.1005, "step": 686 }, { "epoch": 0.03664, "grad_norm": 0.02819962056557692, "learning_rate": 0.0001, "loss": 1.0758, "step": 687 }, { "epoch": 0.036693333333333335, "grad_norm": 0.03210247987681375, "learning_rate": 0.0001, "loss": 1.0187, "step": 688 }, { "epoch": 0.036746666666666664, "grad_norm": 0.03232827308693877, "learning_rate": 0.0001, "loss": 1.0325, "step": 689 }, { "epoch": 0.0368, "grad_norm": 0.03446768596225845, "learning_rate": 0.0001, "loss": 1.03, "step": 690 }, { "epoch": 0.036853333333333335, "grad_norm": 0.026897559503242113, "learning_rate": 0.0001, "loss": 1.0475, "step": 691 }, { "epoch": 0.036906666666666664, "grad_norm": 0.029446631318678595, "learning_rate": 0.0001, "loss": 1.0477, "step": 692 }, { "epoch": 0.03696, "grad_norm": 0.032762331751153534, "learning_rate": 0.0001, "loss": 1.0197, "step": 693 }, { "epoch": 0.037013333333333336, "grad_norm": 0.0281957658742352, "learning_rate": 0.0001, "loss": 1.0158, "step": 694 }, { "epoch": 0.037066666666666664, "grad_norm": 0.02724850861016724, "learning_rate": 0.0001, "loss": 1.0016, "step": 695 }, { "epoch": 0.03712, "grad_norm": 0.023148234203756595, "learning_rate": 0.0001, "loss": 0.9617, "step": 696 }, { "epoch": 0.037173333333333336, "grad_norm": 0.02438329862235821, "learning_rate": 0.0001, "loss": 1.0901, "step": 697 }, { "epoch": 0.037226666666666665, "grad_norm": 0.029746514340246336, "learning_rate": 0.0001, "loss": 1.1037, "step": 698 }, { "epoch": 0.03728, "grad_norm": 0.02460138737361887, "learning_rate": 0.0001, "loss": 1.0174, "step": 699 }, { "epoch": 0.037333333333333336, "grad_norm": 0.028136426250659978, "learning_rate": 0.0001, "loss": 1.0767, "step": 700 }, { "epoch": 0.037386666666666665, "grad_norm": 0.02593148419061818, "learning_rate": 0.0001, "loss": 1.0616, "step": 701 }, { "epoch": 0.03744, "grad_norm": 0.03229869015677275, "learning_rate": 0.0001, "loss": 1.1232, "step": 702 }, { "epoch": 0.03749333333333333, "grad_norm": 0.0272899279506961, "learning_rate": 0.0001, "loss": 1.0561, "step": 703 }, { "epoch": 0.037546666666666666, "grad_norm": 0.031003158476783026, "learning_rate": 0.0001, "loss": 1.0549, "step": 704 }, { "epoch": 0.0376, "grad_norm": 0.029569893252869125, "learning_rate": 0.0001, "loss": 1.0332, "step": 705 }, { "epoch": 0.03765333333333333, "grad_norm": 0.029938159923103624, "learning_rate": 0.0001, "loss": 1.046, "step": 706 }, { "epoch": 0.037706666666666666, "grad_norm": 0.02600762378192995, "learning_rate": 0.0001, "loss": 1.0764, "step": 707 }, { "epoch": 0.03776, "grad_norm": 0.028209872030893854, "learning_rate": 0.0001, "loss": 1.0324, "step": 708 }, { "epoch": 0.03781333333333333, "grad_norm": 0.024802092602009492, "learning_rate": 0.0001, "loss": 1.0487, "step": 709 }, { "epoch": 0.037866666666666667, "grad_norm": 0.025137906895737205, "learning_rate": 0.0001, "loss": 1.0376, "step": 710 }, { "epoch": 0.03792, "grad_norm": 0.030244055295908946, "learning_rate": 0.0001, "loss": 1.1005, "step": 711 }, { "epoch": 0.03797333333333333, "grad_norm": 0.023607379391306738, "learning_rate": 0.0001, "loss": 1.0019, "step": 712 }, { "epoch": 0.03802666666666667, "grad_norm": 0.026010705861925113, "learning_rate": 0.0001, "loss": 1.0259, "step": 713 }, { "epoch": 0.03808, "grad_norm": 0.026746865614794394, "learning_rate": 0.0001, "loss": 0.9968, "step": 714 }, { "epoch": 0.03813333333333333, "grad_norm": 0.029268328376316065, "learning_rate": 0.0001, "loss": 1.1037, "step": 715 }, { "epoch": 0.03818666666666667, "grad_norm": 0.028164921527962718, "learning_rate": 0.0001, "loss": 1.0396, "step": 716 }, { "epoch": 0.03824, "grad_norm": 0.026653349268801866, "learning_rate": 0.0001, "loss": 1.0644, "step": 717 }, { "epoch": 0.03829333333333333, "grad_norm": 0.027779322896187765, "learning_rate": 0.0001, "loss": 1.0778, "step": 718 }, { "epoch": 0.03834666666666667, "grad_norm": 0.02716044130446403, "learning_rate": 0.0001, "loss": 1.0138, "step": 719 }, { "epoch": 0.0384, "grad_norm": 0.028955600466157444, "learning_rate": 0.0001, "loss": 1.0858, "step": 720 }, { "epoch": 0.03845333333333333, "grad_norm": 0.02692199040163914, "learning_rate": 0.0001, "loss": 1.0152, "step": 721 }, { "epoch": 0.03850666666666667, "grad_norm": 0.027917011781956817, "learning_rate": 0.0001, "loss": 1.0025, "step": 722 }, { "epoch": 0.03856, "grad_norm": 0.027219037133144053, "learning_rate": 0.0001, "loss": 1.069, "step": 723 }, { "epoch": 0.03861333333333333, "grad_norm": 0.0299733011308284, "learning_rate": 0.0001, "loss": 1.0342, "step": 724 }, { "epoch": 0.03866666666666667, "grad_norm": 0.02740215314308012, "learning_rate": 0.0001, "loss": 1.0657, "step": 725 }, { "epoch": 0.03872, "grad_norm": 0.028295373095918817, "learning_rate": 0.0001, "loss": 1.0119, "step": 726 }, { "epoch": 0.03877333333333333, "grad_norm": 0.028247695599226994, "learning_rate": 0.0001, "loss": 1.0702, "step": 727 }, { "epoch": 0.03882666666666667, "grad_norm": 0.025961451300866772, "learning_rate": 0.0001, "loss": 1.0384, "step": 728 }, { "epoch": 0.03888, "grad_norm": 0.031133313696705606, "learning_rate": 0.0001, "loss": 1.0551, "step": 729 }, { "epoch": 0.038933333333333334, "grad_norm": 0.02773277118047147, "learning_rate": 0.0001, "loss": 1.0604, "step": 730 }, { "epoch": 0.03898666666666667, "grad_norm": 0.03001493305971132, "learning_rate": 0.0001, "loss": 1.0414, "step": 731 }, { "epoch": 0.03904, "grad_norm": 0.026973731063982445, "learning_rate": 0.0001, "loss": 1.0332, "step": 732 }, { "epoch": 0.039093333333333334, "grad_norm": 0.030376146440363846, "learning_rate": 0.0001, "loss": 1.0137, "step": 733 }, { "epoch": 0.03914666666666667, "grad_norm": 0.027357657227751988, "learning_rate": 0.0001, "loss": 1.0289, "step": 734 }, { "epoch": 0.0392, "grad_norm": 0.02750576574072316, "learning_rate": 0.0001, "loss": 0.9777, "step": 735 }, { "epoch": 0.039253333333333335, "grad_norm": 0.03265162169157673, "learning_rate": 0.0001, "loss": 1.0356, "step": 736 }, { "epoch": 0.03930666666666666, "grad_norm": 0.025014085583874034, "learning_rate": 0.0001, "loss": 1.0714, "step": 737 }, { "epoch": 0.03936, "grad_norm": 0.03237202030888492, "learning_rate": 0.0001, "loss": 1.0521, "step": 738 }, { "epoch": 0.039413333333333335, "grad_norm": 0.027461699076853703, "learning_rate": 0.0001, "loss": 1.0668, "step": 739 }, { "epoch": 0.039466666666666664, "grad_norm": 0.031325031567587286, "learning_rate": 0.0001, "loss": 1.041, "step": 740 }, { "epoch": 0.03952, "grad_norm": 0.030453728770916868, "learning_rate": 0.0001, "loss": 1.0256, "step": 741 }, { "epoch": 0.039573333333333335, "grad_norm": 0.02943091094307162, "learning_rate": 0.0001, "loss": 1.0504, "step": 742 }, { "epoch": 0.039626666666666664, "grad_norm": 0.030391933689108846, "learning_rate": 0.0001, "loss": 1.0129, "step": 743 }, { "epoch": 0.03968, "grad_norm": 0.03448463373425907, "learning_rate": 0.0001, "loss": 0.9802, "step": 744 }, { "epoch": 0.039733333333333336, "grad_norm": 0.026142254203839345, "learning_rate": 0.0001, "loss": 1.0359, "step": 745 }, { "epoch": 0.039786666666666665, "grad_norm": 0.03202916519352381, "learning_rate": 0.0001, "loss": 1.0869, "step": 746 }, { "epoch": 0.03984, "grad_norm": 0.023781815104029977, "learning_rate": 0.0001, "loss": 1.0432, "step": 747 }, { "epoch": 0.039893333333333336, "grad_norm": 0.029031046885221467, "learning_rate": 0.0001, "loss": 1.0894, "step": 748 }, { "epoch": 0.039946666666666665, "grad_norm": 0.026079542357992126, "learning_rate": 0.0001, "loss": 1.0323, "step": 749 }, { "epoch": 0.04, "grad_norm": 0.026882403635630703, "learning_rate": 0.0001, "loss": 1.0793, "step": 750 }, { "epoch": 0.04005333333333334, "grad_norm": 0.026003312619162028, "learning_rate": 0.0001, "loss": 0.9986, "step": 751 }, { "epoch": 0.040106666666666665, "grad_norm": 0.028952496808054392, "learning_rate": 0.0001, "loss": 1.0731, "step": 752 }, { "epoch": 0.04016, "grad_norm": 0.027781130938632756, "learning_rate": 0.0001, "loss": 1.0342, "step": 753 }, { "epoch": 0.04021333333333333, "grad_norm": 0.026733557978303214, "learning_rate": 0.0001, "loss": 1.0524, "step": 754 }, { "epoch": 0.040266666666666666, "grad_norm": 0.029619895774231214, "learning_rate": 0.0001, "loss": 1.0168, "step": 755 }, { "epoch": 0.04032, "grad_norm": 0.025986463353329322, "learning_rate": 0.0001, "loss": 1.0095, "step": 756 }, { "epoch": 0.04037333333333333, "grad_norm": 0.025729881302954404, "learning_rate": 0.0001, "loss": 1.0372, "step": 757 }, { "epoch": 0.040426666666666666, "grad_norm": 0.025973762228878147, "learning_rate": 0.0001, "loss": 0.985, "step": 758 }, { "epoch": 0.04048, "grad_norm": 0.027831946321555466, "learning_rate": 0.0001, "loss": 1.0466, "step": 759 }, { "epoch": 0.04053333333333333, "grad_norm": 0.023723124249157426, "learning_rate": 0.0001, "loss": 1.0805, "step": 760 }, { "epoch": 0.04058666666666667, "grad_norm": 0.024409018879416225, "learning_rate": 0.0001, "loss": 1.1149, "step": 761 }, { "epoch": 0.04064, "grad_norm": 0.02599894182832873, "learning_rate": 0.0001, "loss": 1.0393, "step": 762 }, { "epoch": 0.04069333333333333, "grad_norm": 0.026537162424658794, "learning_rate": 0.0001, "loss": 1.0173, "step": 763 }, { "epoch": 0.04074666666666667, "grad_norm": 0.025880993280216896, "learning_rate": 0.0001, "loss": 1.0757, "step": 764 }, { "epoch": 0.0408, "grad_norm": 0.02506965819873307, "learning_rate": 0.0001, "loss": 0.9804, "step": 765 }, { "epoch": 0.04085333333333333, "grad_norm": 0.02536139529720351, "learning_rate": 0.0001, "loss": 1.0109, "step": 766 }, { "epoch": 0.04090666666666667, "grad_norm": 0.02970527215447741, "learning_rate": 0.0001, "loss": 1.0285, "step": 767 }, { "epoch": 0.04096, "grad_norm": 0.025118771183072812, "learning_rate": 0.0001, "loss": 1.0677, "step": 768 }, { "epoch": 0.04101333333333333, "grad_norm": 0.026288985573433867, "learning_rate": 0.0001, "loss": 1.0471, "step": 769 }, { "epoch": 0.04106666666666667, "grad_norm": 0.027271600816907965, "learning_rate": 0.0001, "loss": 1.0562, "step": 770 }, { "epoch": 0.04112, "grad_norm": 0.030354044923674085, "learning_rate": 0.0001, "loss": 1.0741, "step": 771 }, { "epoch": 0.04117333333333333, "grad_norm": 0.02622513945137329, "learning_rate": 0.0001, "loss": 1.0647, "step": 772 }, { "epoch": 0.04122666666666667, "grad_norm": 0.028177909995223804, "learning_rate": 0.0001, "loss": 1.0135, "step": 773 }, { "epoch": 0.04128, "grad_norm": 0.02833113727351829, "learning_rate": 0.0001, "loss": 1.0492, "step": 774 }, { "epoch": 0.04133333333333333, "grad_norm": 0.025911071618273676, "learning_rate": 0.0001, "loss": 1.0767, "step": 775 }, { "epoch": 0.04138666666666667, "grad_norm": 0.027931049233247074, "learning_rate": 0.0001, "loss": 1.0575, "step": 776 }, { "epoch": 0.04144, "grad_norm": 0.03386380872322391, "learning_rate": 0.0001, "loss": 1.0856, "step": 777 }, { "epoch": 0.04149333333333333, "grad_norm": 0.03215934079112651, "learning_rate": 0.0001, "loss": 1.0041, "step": 778 }, { "epoch": 0.04154666666666667, "grad_norm": 0.031808495402366015, "learning_rate": 0.0001, "loss": 1.0377, "step": 779 }, { "epoch": 0.0416, "grad_norm": 0.025840807078132324, "learning_rate": 0.0001, "loss": 1.101, "step": 780 }, { "epoch": 0.041653333333333334, "grad_norm": 0.030238852197037553, "learning_rate": 0.0001, "loss": 1.0694, "step": 781 }, { "epoch": 0.04170666666666667, "grad_norm": 0.027447774180194593, "learning_rate": 0.0001, "loss": 1.0162, "step": 782 }, { "epoch": 0.04176, "grad_norm": 0.028798570223231384, "learning_rate": 0.0001, "loss": 0.9791, "step": 783 }, { "epoch": 0.041813333333333334, "grad_norm": 0.0256322210687924, "learning_rate": 0.0001, "loss": 0.9828, "step": 784 }, { "epoch": 0.04186666666666667, "grad_norm": 0.02806223828827209, "learning_rate": 0.0001, "loss": 1.0785, "step": 785 }, { "epoch": 0.04192, "grad_norm": 0.026213708664652294, "learning_rate": 0.0001, "loss": 1.0404, "step": 786 }, { "epoch": 0.041973333333333335, "grad_norm": 0.02720503458938639, "learning_rate": 0.0001, "loss": 1.0455, "step": 787 }, { "epoch": 0.042026666666666664, "grad_norm": 0.025686311433147313, "learning_rate": 0.0001, "loss": 1.0378, "step": 788 }, { "epoch": 0.04208, "grad_norm": 0.02513551846750815, "learning_rate": 0.0001, "loss": 1.0054, "step": 789 }, { "epoch": 0.042133333333333335, "grad_norm": 0.025322570579306657, "learning_rate": 0.0001, "loss": 1.0405, "step": 790 }, { "epoch": 0.042186666666666664, "grad_norm": 0.023569924939221342, "learning_rate": 0.0001, "loss": 0.9785, "step": 791 }, { "epoch": 0.04224, "grad_norm": 0.025538850759327804, "learning_rate": 0.0001, "loss": 1.0488, "step": 792 }, { "epoch": 0.042293333333333336, "grad_norm": 0.02602153335702122, "learning_rate": 0.0001, "loss": 0.9974, "step": 793 }, { "epoch": 0.042346666666666664, "grad_norm": 0.027366433563260364, "learning_rate": 0.0001, "loss": 1.0373, "step": 794 }, { "epoch": 0.0424, "grad_norm": 0.026325880860775832, "learning_rate": 0.0001, "loss": 1.0335, "step": 795 }, { "epoch": 0.042453333333333336, "grad_norm": 0.025630381306590642, "learning_rate": 0.0001, "loss": 1.0309, "step": 796 }, { "epoch": 0.042506666666666665, "grad_norm": 0.02845945089868684, "learning_rate": 0.0001, "loss": 1.0292, "step": 797 }, { "epoch": 0.04256, "grad_norm": 0.02884539665460236, "learning_rate": 0.0001, "loss": 1.0841, "step": 798 }, { "epoch": 0.042613333333333336, "grad_norm": 0.029387731430493474, "learning_rate": 0.0001, "loss": 1.0487, "step": 799 }, { "epoch": 0.042666666666666665, "grad_norm": 0.025881026316409355, "learning_rate": 0.0001, "loss": 1.0518, "step": 800 }, { "epoch": 0.042666666666666665, "eval_accuracy": 0.6070635908507251, "eval_loss": 1.4281765222549438, "eval_runtime": 63.3183, "eval_samples_per_second": 15.793, "eval_steps_per_second": 0.505, "step": 800 }, { "epoch": 0.04272, "grad_norm": 0.029166882820575512, "learning_rate": 0.0001, "loss": 1.051, "step": 801 }, { "epoch": 0.04277333333333333, "grad_norm": 0.0250304770118888, "learning_rate": 0.0001, "loss": 1.0426, "step": 802 }, { "epoch": 0.042826666666666666, "grad_norm": 0.030677898791501974, "learning_rate": 0.0001, "loss": 1.0154, "step": 803 }, { "epoch": 0.04288, "grad_norm": 0.027003872301718947, "learning_rate": 0.0001, "loss": 1.0015, "step": 804 }, { "epoch": 0.04293333333333333, "grad_norm": 0.029722623664073657, "learning_rate": 0.0001, "loss": 1.0208, "step": 805 }, { "epoch": 0.042986666666666666, "grad_norm": 0.025830480105869136, "learning_rate": 0.0001, "loss": 0.9847, "step": 806 }, { "epoch": 0.04304, "grad_norm": 0.025094127707010614, "learning_rate": 0.0001, "loss": 1.052, "step": 807 }, { "epoch": 0.04309333333333333, "grad_norm": 0.03399191864821582, "learning_rate": 0.0001, "loss": 1.0041, "step": 808 }, { "epoch": 0.043146666666666667, "grad_norm": 0.02663254034691933, "learning_rate": 0.0001, "loss": 0.9887, "step": 809 }, { "epoch": 0.0432, "grad_norm": 0.03316585433082221, "learning_rate": 0.0001, "loss": 1.0303, "step": 810 }, { "epoch": 0.04325333333333333, "grad_norm": 0.02666646257083002, "learning_rate": 0.0001, "loss": 1.0092, "step": 811 }, { "epoch": 0.04330666666666667, "grad_norm": 0.028243938168319598, "learning_rate": 0.0001, "loss": 1.0036, "step": 812 }, { "epoch": 0.04336, "grad_norm": 0.029180611506753707, "learning_rate": 0.0001, "loss": 1.1224, "step": 813 }, { "epoch": 0.04341333333333333, "grad_norm": 0.03015300324313961, "learning_rate": 0.0001, "loss": 0.9854, "step": 814 }, { "epoch": 0.04346666666666667, "grad_norm": 0.030535963377852464, "learning_rate": 0.0001, "loss": 1.0043, "step": 815 }, { "epoch": 0.04352, "grad_norm": 0.026258368369023597, "learning_rate": 0.0001, "loss": 1.0487, "step": 816 }, { "epoch": 0.04357333333333333, "grad_norm": 0.03148727800128241, "learning_rate": 0.0001, "loss": 0.9803, "step": 817 }, { "epoch": 0.04362666666666667, "grad_norm": 0.026962935127549294, "learning_rate": 0.0001, "loss": 1.0443, "step": 818 }, { "epoch": 0.04368, "grad_norm": 0.03099516799542764, "learning_rate": 0.0001, "loss": 1.0323, "step": 819 }, { "epoch": 0.04373333333333333, "grad_norm": 0.027660875209212087, "learning_rate": 0.0001, "loss": 1.0678, "step": 820 }, { "epoch": 0.04378666666666667, "grad_norm": 0.026764545220323805, "learning_rate": 0.0001, "loss": 1.026, "step": 821 }, { "epoch": 0.04384, "grad_norm": 0.03219562491030368, "learning_rate": 0.0001, "loss": 1.028, "step": 822 }, { "epoch": 0.04389333333333333, "grad_norm": 0.029178001850638235, "learning_rate": 0.0001, "loss": 1.0011, "step": 823 }, { "epoch": 0.04394666666666667, "grad_norm": 0.028677693722987795, "learning_rate": 0.0001, "loss": 1.0813, "step": 824 }, { "epoch": 0.044, "grad_norm": 0.031671662566301724, "learning_rate": 0.0001, "loss": 1.026, "step": 825 }, { "epoch": 0.04405333333333333, "grad_norm": 0.02364173144547327, "learning_rate": 0.0001, "loss": 1.0613, "step": 826 }, { "epoch": 0.04410666666666667, "grad_norm": 0.030558845012044714, "learning_rate": 0.0001, "loss": 1.0041, "step": 827 }, { "epoch": 0.04416, "grad_norm": 0.029615828974508915, "learning_rate": 0.0001, "loss": 1.032, "step": 828 }, { "epoch": 0.044213333333333334, "grad_norm": 0.027560347249488065, "learning_rate": 0.0001, "loss": 1.0214, "step": 829 }, { "epoch": 0.04426666666666667, "grad_norm": 0.02651364890773219, "learning_rate": 0.0001, "loss": 1.0525, "step": 830 }, { "epoch": 0.04432, "grad_norm": 0.030157698260727527, "learning_rate": 0.0001, "loss": 1.0403, "step": 831 }, { "epoch": 0.044373333333333334, "grad_norm": 0.02853813958840772, "learning_rate": 0.0001, "loss": 0.9673, "step": 832 }, { "epoch": 0.04442666666666667, "grad_norm": 0.027255234754136964, "learning_rate": 0.0001, "loss": 1.0424, "step": 833 }, { "epoch": 0.04448, "grad_norm": 0.030997396681927917, "learning_rate": 0.0001, "loss": 1.0073, "step": 834 }, { "epoch": 0.044533333333333334, "grad_norm": 0.026006883921332068, "learning_rate": 0.0001, "loss": 1.0361, "step": 835 }, { "epoch": 0.04458666666666666, "grad_norm": 0.02723376576368481, "learning_rate": 0.0001, "loss": 0.9861, "step": 836 }, { "epoch": 0.04464, "grad_norm": 0.02907354280903025, "learning_rate": 0.0001, "loss": 1.0768, "step": 837 }, { "epoch": 0.044693333333333335, "grad_norm": 0.02454786990368478, "learning_rate": 0.0001, "loss": 1.0851, "step": 838 }, { "epoch": 0.044746666666666664, "grad_norm": 0.029245046413531754, "learning_rate": 0.0001, "loss": 1.0558, "step": 839 }, { "epoch": 0.0448, "grad_norm": 0.023636608506140265, "learning_rate": 0.0001, "loss": 1.041, "step": 840 }, { "epoch": 0.044853333333333335, "grad_norm": 0.026821550293091273, "learning_rate": 0.0001, "loss": 1.0751, "step": 841 }, { "epoch": 0.044906666666666664, "grad_norm": 0.023579630491512706, "learning_rate": 0.0001, "loss": 0.9943, "step": 842 }, { "epoch": 0.04496, "grad_norm": 0.024849862421515965, "learning_rate": 0.0001, "loss": 1.0374, "step": 843 }, { "epoch": 0.045013333333333336, "grad_norm": 0.025584371274505965, "learning_rate": 0.0001, "loss": 0.9754, "step": 844 }, { "epoch": 0.045066666666666665, "grad_norm": 0.026239644874107387, "learning_rate": 0.0001, "loss": 1.0688, "step": 845 }, { "epoch": 0.04512, "grad_norm": 0.025550271758790568, "learning_rate": 0.0001, "loss": 1.0357, "step": 846 }, { "epoch": 0.045173333333333336, "grad_norm": 0.02625977319875168, "learning_rate": 0.0001, "loss": 1.0334, "step": 847 }, { "epoch": 0.045226666666666665, "grad_norm": 0.026635003193319306, "learning_rate": 0.0001, "loss": 1.0797, "step": 848 }, { "epoch": 0.04528, "grad_norm": 0.024061494469878514, "learning_rate": 0.0001, "loss": 1.0657, "step": 849 }, { "epoch": 0.04533333333333334, "grad_norm": 0.026714488730389906, "learning_rate": 0.0001, "loss": 1.0088, "step": 850 }, { "epoch": 0.045386666666666665, "grad_norm": 0.024730658039716958, "learning_rate": 0.0001, "loss": 1.0488, "step": 851 }, { "epoch": 0.04544, "grad_norm": 0.02718835792563627, "learning_rate": 0.0001, "loss": 1.0673, "step": 852 }, { "epoch": 0.04549333333333333, "grad_norm": 0.02441681391807533, "learning_rate": 0.0001, "loss": 1.0314, "step": 853 }, { "epoch": 0.045546666666666666, "grad_norm": 0.026865227160608504, "learning_rate": 0.0001, "loss": 1.0919, "step": 854 }, { "epoch": 0.0456, "grad_norm": 0.025148982499951615, "learning_rate": 0.0001, "loss": 1.0216, "step": 855 }, { "epoch": 0.04565333333333333, "grad_norm": 0.02594747063669678, "learning_rate": 0.0001, "loss": 1.0201, "step": 856 }, { "epoch": 0.045706666666666666, "grad_norm": 0.02428189394776864, "learning_rate": 0.0001, "loss": 0.9894, "step": 857 }, { "epoch": 0.04576, "grad_norm": 0.024536461948441435, "learning_rate": 0.0001, "loss": 1.0509, "step": 858 }, { "epoch": 0.04581333333333333, "grad_norm": 0.02439492161711063, "learning_rate": 0.0001, "loss": 1.0503, "step": 859 }, { "epoch": 0.04586666666666667, "grad_norm": 0.025643491596401575, "learning_rate": 0.0001, "loss": 1.1235, "step": 860 }, { "epoch": 0.04592, "grad_norm": 0.027406018505493065, "learning_rate": 0.0001, "loss": 1.0317, "step": 861 }, { "epoch": 0.04597333333333333, "grad_norm": 0.026358568639206152, "learning_rate": 0.0001, "loss": 0.9772, "step": 862 }, { "epoch": 0.04602666666666667, "grad_norm": 0.034589733239701694, "learning_rate": 0.0001, "loss": 1.0105, "step": 863 }, { "epoch": 0.04608, "grad_norm": 0.026697480867421183, "learning_rate": 0.0001, "loss": 1.0422, "step": 864 }, { "epoch": 0.04613333333333333, "grad_norm": 0.026118070373238444, "learning_rate": 0.0001, "loss": 0.9825, "step": 865 }, { "epoch": 0.04618666666666667, "grad_norm": 0.03311993920300801, "learning_rate": 0.0001, "loss": 1.0257, "step": 866 }, { "epoch": 0.04624, "grad_norm": 0.02541670861160208, "learning_rate": 0.0001, "loss": 1.0268, "step": 867 }, { "epoch": 0.04629333333333333, "grad_norm": 0.03192569631342193, "learning_rate": 0.0001, "loss": 0.9881, "step": 868 }, { "epoch": 0.04634666666666667, "grad_norm": 0.028360484249675532, "learning_rate": 0.0001, "loss": 1.0242, "step": 869 }, { "epoch": 0.0464, "grad_norm": 0.028765376975513374, "learning_rate": 0.0001, "loss": 1.0103, "step": 870 }, { "epoch": 0.04645333333333333, "grad_norm": 0.03106507609430417, "learning_rate": 0.0001, "loss": 1.0652, "step": 871 }, { "epoch": 0.04650666666666667, "grad_norm": 0.02788284325442229, "learning_rate": 0.0001, "loss": 0.984, "step": 872 }, { "epoch": 0.04656, "grad_norm": 0.032772881749993786, "learning_rate": 0.0001, "loss": 1.0091, "step": 873 }, { "epoch": 0.04661333333333333, "grad_norm": 0.027748818317682947, "learning_rate": 0.0001, "loss": 1.0062, "step": 874 }, { "epoch": 0.04666666666666667, "grad_norm": 0.030669521043367454, "learning_rate": 0.0001, "loss": 1.0211, "step": 875 }, { "epoch": 0.04672, "grad_norm": 0.027938866780504692, "learning_rate": 0.0001, "loss": 1.0078, "step": 876 }, { "epoch": 0.04677333333333333, "grad_norm": 0.028897145772550443, "learning_rate": 0.0001, "loss": 0.9596, "step": 877 }, { "epoch": 0.04682666666666667, "grad_norm": 0.027563295125290033, "learning_rate": 0.0001, "loss": 0.9729, "step": 878 }, { "epoch": 0.04688, "grad_norm": 0.03053359180292864, "learning_rate": 0.0001, "loss": 1.0439, "step": 879 }, { "epoch": 0.046933333333333334, "grad_norm": 0.030128218536925155, "learning_rate": 0.0001, "loss": 1.0081, "step": 880 }, { "epoch": 0.04698666666666667, "grad_norm": 0.028544472551416372, "learning_rate": 0.0001, "loss": 1.0911, "step": 881 }, { "epoch": 0.04704, "grad_norm": 0.030167810066356493, "learning_rate": 0.0001, "loss": 1.0452, "step": 882 }, { "epoch": 0.047093333333333334, "grad_norm": 0.02408297505641106, "learning_rate": 0.0001, "loss": 1.0051, "step": 883 }, { "epoch": 0.04714666666666667, "grad_norm": 0.027774780971964057, "learning_rate": 0.0001, "loss": 1.0536, "step": 884 }, { "epoch": 0.0472, "grad_norm": 0.025400460687023188, "learning_rate": 0.0001, "loss": 1.0593, "step": 885 }, { "epoch": 0.047253333333333335, "grad_norm": 0.02709911794207296, "learning_rate": 0.0001, "loss": 1.0308, "step": 886 }, { "epoch": 0.047306666666666664, "grad_norm": 0.025319198473964438, "learning_rate": 0.0001, "loss": 1.01, "step": 887 }, { "epoch": 0.04736, "grad_norm": 0.026180757328368835, "learning_rate": 0.0001, "loss": 1.0419, "step": 888 }, { "epoch": 0.047413333333333335, "grad_norm": 0.025285573551095335, "learning_rate": 0.0001, "loss": 1.002, "step": 889 }, { "epoch": 0.047466666666666664, "grad_norm": 0.02843670045959905, "learning_rate": 0.0001, "loss": 1.0537, "step": 890 }, { "epoch": 0.04752, "grad_norm": 0.025997312301233654, "learning_rate": 0.0001, "loss": 1.0398, "step": 891 }, { "epoch": 0.047573333333333336, "grad_norm": 0.024073069076504146, "learning_rate": 0.0001, "loss": 1.0616, "step": 892 }, { "epoch": 0.047626666666666664, "grad_norm": 0.023853858637453446, "learning_rate": 0.0001, "loss": 1.0485, "step": 893 }, { "epoch": 0.04768, "grad_norm": 0.025311517497015795, "learning_rate": 0.0001, "loss": 1.019, "step": 894 }, { "epoch": 0.047733333333333336, "grad_norm": 0.026987392764467363, "learning_rate": 0.0001, "loss": 1.0148, "step": 895 }, { "epoch": 0.047786666666666665, "grad_norm": 0.022174378532711547, "learning_rate": 0.0001, "loss": 0.9909, "step": 896 }, { "epoch": 0.04784, "grad_norm": 0.026317338230162874, "learning_rate": 0.0001, "loss": 1.0502, "step": 897 }, { "epoch": 0.047893333333333336, "grad_norm": 0.026420583777472976, "learning_rate": 0.0001, "loss": 1.0273, "step": 898 }, { "epoch": 0.047946666666666665, "grad_norm": 0.026985587613239652, "learning_rate": 0.0001, "loss": 1.0057, "step": 899 }, { "epoch": 0.048, "grad_norm": 0.025839416552008523, "learning_rate": 0.0001, "loss": 1.0796, "step": 900 }, { "epoch": 0.04805333333333334, "grad_norm": 0.02672940975746081, "learning_rate": 0.0001, "loss": 1.005, "step": 901 }, { "epoch": 0.048106666666666666, "grad_norm": 0.02684830673190323, "learning_rate": 0.0001, "loss": 1.0645, "step": 902 }, { "epoch": 0.04816, "grad_norm": 0.028077869874641965, "learning_rate": 0.0001, "loss": 1.0722, "step": 903 }, { "epoch": 0.04821333333333333, "grad_norm": 0.025370399817479655, "learning_rate": 0.0001, "loss": 0.9515, "step": 904 }, { "epoch": 0.048266666666666666, "grad_norm": 0.02859832025368656, "learning_rate": 0.0001, "loss": 1.0186, "step": 905 }, { "epoch": 0.04832, "grad_norm": 0.02320408974355129, "learning_rate": 0.0001, "loss": 0.9942, "step": 906 }, { "epoch": 0.04837333333333333, "grad_norm": 0.02743463118936736, "learning_rate": 0.0001, "loss": 1.0739, "step": 907 }, { "epoch": 0.048426666666666666, "grad_norm": 0.026355248799057453, "learning_rate": 0.0001, "loss": 1.021, "step": 908 }, { "epoch": 0.04848, "grad_norm": 0.026926398814250813, "learning_rate": 0.0001, "loss": 1.005, "step": 909 }, { "epoch": 0.04853333333333333, "grad_norm": 0.027068166487552038, "learning_rate": 0.0001, "loss": 1.0681, "step": 910 }, { "epoch": 0.04858666666666667, "grad_norm": 0.028936813190210933, "learning_rate": 0.0001, "loss": 1.0649, "step": 911 }, { "epoch": 0.04864, "grad_norm": 0.026876465152889058, "learning_rate": 0.0001, "loss": 1.0522, "step": 912 }, { "epoch": 0.04869333333333333, "grad_norm": 0.025860693424968707, "learning_rate": 0.0001, "loss": 1.0466, "step": 913 }, { "epoch": 0.04874666666666667, "grad_norm": 0.027172969127865813, "learning_rate": 0.0001, "loss": 0.9809, "step": 914 }, { "epoch": 0.0488, "grad_norm": 0.0304406822720065, "learning_rate": 0.0001, "loss": 1.0004, "step": 915 }, { "epoch": 0.04885333333333333, "grad_norm": 0.024412252530495844, "learning_rate": 0.0001, "loss": 1.0669, "step": 916 }, { "epoch": 0.04890666666666667, "grad_norm": 0.027523271470342073, "learning_rate": 0.0001, "loss": 1.0237, "step": 917 }, { "epoch": 0.04896, "grad_norm": 0.027066314860441, "learning_rate": 0.0001, "loss": 1.0109, "step": 918 }, { "epoch": 0.04901333333333333, "grad_norm": 0.027317828995139397, "learning_rate": 0.0001, "loss": 1.0114, "step": 919 }, { "epoch": 0.04906666666666667, "grad_norm": 0.025990364604618222, "learning_rate": 0.0001, "loss": 1.066, "step": 920 }, { "epoch": 0.04912, "grad_norm": 0.027079533660723725, "learning_rate": 0.0001, "loss": 1.0319, "step": 921 }, { "epoch": 0.04917333333333333, "grad_norm": 0.024080255184311845, "learning_rate": 0.0001, "loss": 1.04, "step": 922 }, { "epoch": 0.04922666666666667, "grad_norm": 0.02593109200355588, "learning_rate": 0.0001, "loss": 1.0275, "step": 923 }, { "epoch": 0.04928, "grad_norm": 0.02645199023580068, "learning_rate": 0.0001, "loss": 1.0204, "step": 924 }, { "epoch": 0.04933333333333333, "grad_norm": 0.025368483903947164, "learning_rate": 0.0001, "loss": 1.097, "step": 925 }, { "epoch": 0.04938666666666667, "grad_norm": 0.02478047998121872, "learning_rate": 0.0001, "loss": 1.0649, "step": 926 }, { "epoch": 0.04944, "grad_norm": 0.02591348378320989, "learning_rate": 0.0001, "loss": 1.0287, "step": 927 }, { "epoch": 0.049493333333333334, "grad_norm": 0.02569723491190671, "learning_rate": 0.0001, "loss": 1.0277, "step": 928 }, { "epoch": 0.04954666666666667, "grad_norm": 0.024865093791188467, "learning_rate": 0.0001, "loss": 1.0524, "step": 929 }, { "epoch": 0.0496, "grad_norm": 0.030038278118051875, "learning_rate": 0.0001, "loss": 1.015, "step": 930 }, { "epoch": 0.049653333333333334, "grad_norm": 0.026371312851266843, "learning_rate": 0.0001, "loss": 1.026, "step": 931 }, { "epoch": 0.04970666666666667, "grad_norm": 0.03144426885514294, "learning_rate": 0.0001, "loss": 1.0813, "step": 932 }, { "epoch": 0.04976, "grad_norm": 0.0265786517902255, "learning_rate": 0.0001, "loss": 0.987, "step": 933 }, { "epoch": 0.049813333333333334, "grad_norm": 0.024413710676982007, "learning_rate": 0.0001, "loss": 1.0723, "step": 934 }, { "epoch": 0.04986666666666666, "grad_norm": 0.02904755195288663, "learning_rate": 0.0001, "loss": 1.0788, "step": 935 }, { "epoch": 0.04992, "grad_norm": 0.02734009419719898, "learning_rate": 0.0001, "loss": 0.9957, "step": 936 }, { "epoch": 0.049973333333333335, "grad_norm": 0.02646274786062384, "learning_rate": 0.0001, "loss": 1.0135, "step": 937 }, { "epoch": 0.050026666666666664, "grad_norm": 0.026412713213344766, "learning_rate": 0.0001, "loss": 1.0732, "step": 938 }, { "epoch": 0.05008, "grad_norm": 0.027264523122307607, "learning_rate": 0.0001, "loss": 1.0503, "step": 939 }, { "epoch": 0.050133333333333335, "grad_norm": 0.025345845129705905, "learning_rate": 0.0001, "loss": 1.0251, "step": 940 }, { "epoch": 0.050186666666666664, "grad_norm": 0.027965398766579438, "learning_rate": 0.0001, "loss": 0.9635, "step": 941 }, { "epoch": 0.05024, "grad_norm": 0.027435233247793758, "learning_rate": 0.0001, "loss": 1.0559, "step": 942 }, { "epoch": 0.050293333333333336, "grad_norm": 0.02582942963464495, "learning_rate": 0.0001, "loss": 1.0598, "step": 943 }, { "epoch": 0.050346666666666665, "grad_norm": 0.025823728286010116, "learning_rate": 0.0001, "loss": 1.0678, "step": 944 }, { "epoch": 0.0504, "grad_norm": 0.025016110287567075, "learning_rate": 0.0001, "loss": 1.052, "step": 945 }, { "epoch": 0.050453333333333336, "grad_norm": 0.027570944011150574, "learning_rate": 0.0001, "loss": 1.0595, "step": 946 }, { "epoch": 0.050506666666666665, "grad_norm": 0.024839988020182096, "learning_rate": 0.0001, "loss": 1.0486, "step": 947 }, { "epoch": 0.05056, "grad_norm": 0.027533709631797812, "learning_rate": 0.0001, "loss": 0.9896, "step": 948 }, { "epoch": 0.05061333333333334, "grad_norm": 0.02899469275876491, "learning_rate": 0.0001, "loss": 1.0419, "step": 949 }, { "epoch": 0.050666666666666665, "grad_norm": 0.02896434589284753, "learning_rate": 0.0001, "loss": 1.026, "step": 950 }, { "epoch": 0.05072, "grad_norm": 0.028188084863381774, "learning_rate": 0.0001, "loss": 0.9577, "step": 951 }, { "epoch": 0.05077333333333333, "grad_norm": 0.028748892035582663, "learning_rate": 0.0001, "loss": 1.0425, "step": 952 }, { "epoch": 0.050826666666666666, "grad_norm": 0.025433672299958885, "learning_rate": 0.0001, "loss": 1.0228, "step": 953 }, { "epoch": 0.05088, "grad_norm": 0.029959377039149325, "learning_rate": 0.0001, "loss": 1.101, "step": 954 }, { "epoch": 0.05093333333333333, "grad_norm": 0.02682554949601614, "learning_rate": 0.0001, "loss": 1.0058, "step": 955 }, { "epoch": 0.050986666666666666, "grad_norm": 0.027120290332370355, "learning_rate": 0.0001, "loss": 1.0357, "step": 956 }, { "epoch": 0.05104, "grad_norm": 0.02690236478496663, "learning_rate": 0.0001, "loss": 0.9753, "step": 957 }, { "epoch": 0.05109333333333333, "grad_norm": 0.026675812874743455, "learning_rate": 0.0001, "loss": 1.0273, "step": 958 }, { "epoch": 0.05114666666666667, "grad_norm": 0.026364405774591797, "learning_rate": 0.0001, "loss": 0.9537, "step": 959 }, { "epoch": 0.0512, "grad_norm": 0.027814352258148815, "learning_rate": 0.0001, "loss": 1.0844, "step": 960 }, { "epoch": 0.05125333333333333, "grad_norm": 0.027738221405318647, "learning_rate": 0.0001, "loss": 1.0193, "step": 961 }, { "epoch": 0.05130666666666667, "grad_norm": 0.027369845499384125, "learning_rate": 0.0001, "loss": 1.0471, "step": 962 }, { "epoch": 0.05136, "grad_norm": 0.025132221193387694, "learning_rate": 0.0001, "loss": 1.0099, "step": 963 }, { "epoch": 0.05141333333333333, "grad_norm": 0.030297032526235963, "learning_rate": 0.0001, "loss": 1.0406, "step": 964 }, { "epoch": 0.05146666666666667, "grad_norm": 0.02644867889376138, "learning_rate": 0.0001, "loss": 1.0693, "step": 965 }, { "epoch": 0.05152, "grad_norm": 0.03049722617314322, "learning_rate": 0.0001, "loss": 0.9935, "step": 966 }, { "epoch": 0.05157333333333333, "grad_norm": 0.028141916645024353, "learning_rate": 0.0001, "loss": 0.9529, "step": 967 }, { "epoch": 0.05162666666666667, "grad_norm": 0.030003585043015302, "learning_rate": 0.0001, "loss": 1.0041, "step": 968 }, { "epoch": 0.05168, "grad_norm": 0.02500327513306962, "learning_rate": 0.0001, "loss": 1.0436, "step": 969 }, { "epoch": 0.05173333333333333, "grad_norm": 0.02990281455380819, "learning_rate": 0.0001, "loss": 1.0354, "step": 970 }, { "epoch": 0.05178666666666667, "grad_norm": 0.026333817100010478, "learning_rate": 0.0001, "loss": 1.0299, "step": 971 }, { "epoch": 0.05184, "grad_norm": 0.028524374297923222, "learning_rate": 0.0001, "loss": 1.0527, "step": 972 }, { "epoch": 0.05189333333333333, "grad_norm": 0.027317215329043767, "learning_rate": 0.0001, "loss": 0.9765, "step": 973 }, { "epoch": 0.05194666666666667, "grad_norm": 0.030435227042540237, "learning_rate": 0.0001, "loss": 1.0221, "step": 974 }, { "epoch": 0.052, "grad_norm": 0.025082776008801544, "learning_rate": 0.0001, "loss": 0.9899, "step": 975 }, { "epoch": 0.05205333333333333, "grad_norm": 0.02893818436583638, "learning_rate": 0.0001, "loss": 1.0711, "step": 976 }, { "epoch": 0.05210666666666667, "grad_norm": 0.02612253334341159, "learning_rate": 0.0001, "loss": 1.0268, "step": 977 }, { "epoch": 0.05216, "grad_norm": 0.026092979692290217, "learning_rate": 0.0001, "loss": 1.0829, "step": 978 }, { "epoch": 0.052213333333333334, "grad_norm": 0.025524365116835358, "learning_rate": 0.0001, "loss": 1.005, "step": 979 }, { "epoch": 0.05226666666666667, "grad_norm": 0.027720041655663448, "learning_rate": 0.0001, "loss": 1.01, "step": 980 }, { "epoch": 0.05232, "grad_norm": 0.024973777971759016, "learning_rate": 0.0001, "loss": 1.0616, "step": 981 }, { "epoch": 0.052373333333333334, "grad_norm": 0.029835791611434046, "learning_rate": 0.0001, "loss": 1.0245, "step": 982 }, { "epoch": 0.05242666666666667, "grad_norm": 0.028518983156906114, "learning_rate": 0.0001, "loss": 0.9584, "step": 983 }, { "epoch": 0.05248, "grad_norm": 0.039967544616223406, "learning_rate": 0.0001, "loss": 1.042, "step": 984 }, { "epoch": 0.052533333333333335, "grad_norm": 0.024999511244421534, "learning_rate": 0.0001, "loss": 1.0493, "step": 985 }, { "epoch": 0.052586666666666664, "grad_norm": 0.028192180814693775, "learning_rate": 0.0001, "loss": 1.0206, "step": 986 }, { "epoch": 0.05264, "grad_norm": 0.02968235006879617, "learning_rate": 0.0001, "loss": 0.9883, "step": 987 }, { "epoch": 0.052693333333333335, "grad_norm": 0.026646665214108932, "learning_rate": 0.0001, "loss": 1.02, "step": 988 }, { "epoch": 0.052746666666666664, "grad_norm": 0.026930742779090234, "learning_rate": 0.0001, "loss": 0.9344, "step": 989 }, { "epoch": 0.0528, "grad_norm": 0.028004656983621683, "learning_rate": 0.0001, "loss": 1.0525, "step": 990 }, { "epoch": 0.052853333333333335, "grad_norm": 0.028004316974029577, "learning_rate": 0.0001, "loss": 1.0885, "step": 991 }, { "epoch": 0.052906666666666664, "grad_norm": 0.030172617982809555, "learning_rate": 0.0001, "loss": 1.089, "step": 992 }, { "epoch": 0.05296, "grad_norm": 0.026748883940639064, "learning_rate": 0.0001, "loss": 1.1072, "step": 993 }, { "epoch": 0.053013333333333336, "grad_norm": 0.02642645750061407, "learning_rate": 0.0001, "loss": 1.0312, "step": 994 }, { "epoch": 0.053066666666666665, "grad_norm": 0.026932331471971573, "learning_rate": 0.0001, "loss": 1.0759, "step": 995 }, { "epoch": 0.05312, "grad_norm": 0.029597573500736288, "learning_rate": 0.0001, "loss": 1.0693, "step": 996 }, { "epoch": 0.053173333333333336, "grad_norm": 0.028665005103213174, "learning_rate": 0.0001, "loss": 1.0174, "step": 997 }, { "epoch": 0.053226666666666665, "grad_norm": 0.02879866280813181, "learning_rate": 0.0001, "loss": 0.9744, "step": 998 }, { "epoch": 0.05328, "grad_norm": 0.028666575589889665, "learning_rate": 0.0001, "loss": 1.0686, "step": 999 }, { "epoch": 0.05333333333333334, "grad_norm": 0.025823360118417495, "learning_rate": 0.0001, "loss": 0.9781, "step": 1000 }, { "epoch": 0.05333333333333334, "eval_accuracy": 0.608425892609353, "eval_loss": 1.42054283618927, "eval_runtime": 63.1939, "eval_samples_per_second": 15.824, "eval_steps_per_second": 0.506, "step": 1000 }, { "epoch": 0.053386666666666666, "grad_norm": 0.0265499324664092, "learning_rate": 0.0001, "loss": 1.0313, "step": 1001 }, { "epoch": 0.05344, "grad_norm": 0.02669196878349345, "learning_rate": 0.0001, "loss": 1.0241, "step": 1002 }, { "epoch": 0.05349333333333333, "grad_norm": 0.02633389128540039, "learning_rate": 0.0001, "loss": 1.0372, "step": 1003 }, { "epoch": 0.053546666666666666, "grad_norm": 0.025691553483379422, "learning_rate": 0.0001, "loss": 1.0204, "step": 1004 }, { "epoch": 0.0536, "grad_norm": 0.030641399926046524, "learning_rate": 0.0001, "loss": 1.0322, "step": 1005 }, { "epoch": 0.05365333333333333, "grad_norm": 0.02874273411762921, "learning_rate": 0.0001, "loss": 1.0677, "step": 1006 }, { "epoch": 0.053706666666666666, "grad_norm": 0.026649641596944832, "learning_rate": 0.0001, "loss": 1.0382, "step": 1007 }, { "epoch": 0.05376, "grad_norm": 0.029790176804929958, "learning_rate": 0.0001, "loss": 1.0063, "step": 1008 }, { "epoch": 0.05381333333333333, "grad_norm": 0.02987051523481069, "learning_rate": 0.0001, "loss": 1.0317, "step": 1009 }, { "epoch": 0.05386666666666667, "grad_norm": 0.02586195979942284, "learning_rate": 0.0001, "loss": 1.0297, "step": 1010 }, { "epoch": 0.05392, "grad_norm": 0.030974482984548607, "learning_rate": 0.0001, "loss": 0.9882, "step": 1011 }, { "epoch": 0.05397333333333333, "grad_norm": 0.025383014598281916, "learning_rate": 0.0001, "loss": 1.0196, "step": 1012 }, { "epoch": 0.05402666666666667, "grad_norm": 0.028852803538615905, "learning_rate": 0.0001, "loss": 1.0666, "step": 1013 }, { "epoch": 0.05408, "grad_norm": 0.025985020574556903, "learning_rate": 0.0001, "loss": 1.0345, "step": 1014 }, { "epoch": 0.05413333333333333, "grad_norm": 0.026622781078273695, "learning_rate": 0.0001, "loss": 1.044, "step": 1015 }, { "epoch": 0.05418666666666667, "grad_norm": 0.024312560144085713, "learning_rate": 0.0001, "loss": 1.0009, "step": 1016 }, { "epoch": 0.05424, "grad_norm": 0.024780255838161975, "learning_rate": 0.0001, "loss": 1.0222, "step": 1017 }, { "epoch": 0.05429333333333333, "grad_norm": 0.024313611120055204, "learning_rate": 0.0001, "loss": 1.03, "step": 1018 }, { "epoch": 0.05434666666666667, "grad_norm": 0.02503470083032177, "learning_rate": 0.0001, "loss": 1.0139, "step": 1019 }, { "epoch": 0.0544, "grad_norm": 0.026291185891508057, "learning_rate": 0.0001, "loss": 1.0075, "step": 1020 }, { "epoch": 0.05445333333333333, "grad_norm": 0.024841459527093816, "learning_rate": 0.0001, "loss": 1.0418, "step": 1021 }, { "epoch": 0.05450666666666667, "grad_norm": 0.0273833451042017, "learning_rate": 0.0001, "loss": 0.9484, "step": 1022 }, { "epoch": 0.05456, "grad_norm": 0.027282764025504495, "learning_rate": 0.0001, "loss": 1.0904, "step": 1023 }, { "epoch": 0.05461333333333333, "grad_norm": 0.027433998803467727, "learning_rate": 0.0001, "loss": 0.9521, "step": 1024 }, { "epoch": 0.05466666666666667, "grad_norm": 0.02502238653544039, "learning_rate": 0.0001, "loss": 0.941, "step": 1025 }, { "epoch": 0.05472, "grad_norm": 0.0324382307143064, "learning_rate": 0.0001, "loss": 1.0814, "step": 1026 }, { "epoch": 0.054773333333333334, "grad_norm": 0.027098034815702776, "learning_rate": 0.0001, "loss": 0.9915, "step": 1027 }, { "epoch": 0.05482666666666667, "grad_norm": 0.03012494377718488, "learning_rate": 0.0001, "loss": 1.0194, "step": 1028 }, { "epoch": 0.05488, "grad_norm": 0.027790913024391458, "learning_rate": 0.0001, "loss": 0.9959, "step": 1029 }, { "epoch": 0.054933333333333334, "grad_norm": 0.026201153847054896, "learning_rate": 0.0001, "loss": 1.0611, "step": 1030 }, { "epoch": 0.05498666666666667, "grad_norm": 0.0311184229227619, "learning_rate": 0.0001, "loss": 1.0493, "step": 1031 }, { "epoch": 0.05504, "grad_norm": 0.025576190666408274, "learning_rate": 0.0001, "loss": 1.0344, "step": 1032 }, { "epoch": 0.055093333333333334, "grad_norm": 0.02802484699145669, "learning_rate": 0.0001, "loss": 1.0485, "step": 1033 }, { "epoch": 0.05514666666666666, "grad_norm": 0.025620756089379464, "learning_rate": 0.0001, "loss": 1.0622, "step": 1034 }, { "epoch": 0.0552, "grad_norm": 0.025800276805562898, "learning_rate": 0.0001, "loss": 1.0653, "step": 1035 }, { "epoch": 0.055253333333333335, "grad_norm": 0.0286019510853285, "learning_rate": 0.0001, "loss": 1.0037, "step": 1036 }, { "epoch": 0.055306666666666664, "grad_norm": 0.02481896753390645, "learning_rate": 0.0001, "loss": 1.013, "step": 1037 }, { "epoch": 0.05536, "grad_norm": 0.028088407209215516, "learning_rate": 0.0001, "loss": 1.0244, "step": 1038 }, { "epoch": 0.055413333333333335, "grad_norm": 0.026390332649408484, "learning_rate": 0.0001, "loss": 0.9882, "step": 1039 }, { "epoch": 0.055466666666666664, "grad_norm": 0.02953481986232811, "learning_rate": 0.0001, "loss": 1.0448, "step": 1040 }, { "epoch": 0.05552, "grad_norm": 0.025380485281236136, "learning_rate": 0.0001, "loss": 1.054, "step": 1041 }, { "epoch": 0.055573333333333336, "grad_norm": 0.027863228723082493, "learning_rate": 0.0001, "loss": 1.0376, "step": 1042 }, { "epoch": 0.055626666666666665, "grad_norm": 0.02912162318309667, "learning_rate": 0.0001, "loss": 1.0024, "step": 1043 }, { "epoch": 0.05568, "grad_norm": 0.025534780035975754, "learning_rate": 0.0001, "loss": 1.0098, "step": 1044 }, { "epoch": 0.055733333333333336, "grad_norm": 0.029677697705012992, "learning_rate": 0.0001, "loss": 1.0215, "step": 1045 }, { "epoch": 0.055786666666666665, "grad_norm": 0.028630547969815873, "learning_rate": 0.0001, "loss": 1.0601, "step": 1046 }, { "epoch": 0.05584, "grad_norm": 0.027775349510290512, "learning_rate": 0.0001, "loss": 1.0494, "step": 1047 }, { "epoch": 0.05589333333333334, "grad_norm": 0.026579624209351282, "learning_rate": 0.0001, "loss": 1.0486, "step": 1048 }, { "epoch": 0.055946666666666665, "grad_norm": 0.027111562344977972, "learning_rate": 0.0001, "loss": 1.0069, "step": 1049 }, { "epoch": 0.056, "grad_norm": 0.026788967583012777, "learning_rate": 0.0001, "loss": 0.9899, "step": 1050 }, { "epoch": 0.05605333333333333, "grad_norm": 0.026400936585694892, "learning_rate": 0.0001, "loss": 0.9729, "step": 1051 }, { "epoch": 0.056106666666666666, "grad_norm": 0.024894716279123798, "learning_rate": 0.0001, "loss": 1.0135, "step": 1052 }, { "epoch": 0.05616, "grad_norm": 0.02769241643827714, "learning_rate": 0.0001, "loss": 1.0869, "step": 1053 }, { "epoch": 0.05621333333333333, "grad_norm": 0.026192410976461095, "learning_rate": 0.0001, "loss": 1.0137, "step": 1054 }, { "epoch": 0.056266666666666666, "grad_norm": 0.027738684442750707, "learning_rate": 0.0001, "loss": 1.0167, "step": 1055 }, { "epoch": 0.05632, "grad_norm": 0.025270659526073384, "learning_rate": 0.0001, "loss": 1.0417, "step": 1056 }, { "epoch": 0.05637333333333333, "grad_norm": 0.029409145090161994, "learning_rate": 0.0001, "loss": 1.0858, "step": 1057 }, { "epoch": 0.05642666666666667, "grad_norm": 0.028362951697167245, "learning_rate": 0.0001, "loss": 1.07, "step": 1058 }, { "epoch": 0.05648, "grad_norm": 0.0356889094796731, "learning_rate": 0.0001, "loss": 1.0158, "step": 1059 }, { "epoch": 0.05653333333333333, "grad_norm": 0.029232598984724342, "learning_rate": 0.0001, "loss": 1.0152, "step": 1060 }, { "epoch": 0.05658666666666667, "grad_norm": 0.03031924641523104, "learning_rate": 0.0001, "loss": 1.0922, "step": 1061 }, { "epoch": 0.05664, "grad_norm": 0.031272174301218744, "learning_rate": 0.0001, "loss": 1.0726, "step": 1062 }, { "epoch": 0.05669333333333333, "grad_norm": 0.030804814803784927, "learning_rate": 0.0001, "loss": 1.0453, "step": 1063 }, { "epoch": 0.05674666666666667, "grad_norm": 0.03017300637579168, "learning_rate": 0.0001, "loss": 1.0782, "step": 1064 }, { "epoch": 0.0568, "grad_norm": 0.031175082600882413, "learning_rate": 0.0001, "loss": 1.0281, "step": 1065 }, { "epoch": 0.05685333333333333, "grad_norm": 0.029838643738389715, "learning_rate": 0.0001, "loss": 0.9991, "step": 1066 }, { "epoch": 0.05690666666666667, "grad_norm": 0.0269718053542977, "learning_rate": 0.0001, "loss": 1.0418, "step": 1067 }, { "epoch": 0.05696, "grad_norm": 0.028444237460184898, "learning_rate": 0.0001, "loss": 1.0047, "step": 1068 }, { "epoch": 0.05701333333333333, "grad_norm": 0.026897019330090706, "learning_rate": 0.0001, "loss": 1.0286, "step": 1069 }, { "epoch": 0.05706666666666667, "grad_norm": 0.02556935096272631, "learning_rate": 0.0001, "loss": 1.056, "step": 1070 }, { "epoch": 0.05712, "grad_norm": 0.025627567252700868, "learning_rate": 0.0001, "loss": 1.0413, "step": 1071 }, { "epoch": 0.05717333333333333, "grad_norm": 0.02478527813045131, "learning_rate": 0.0001, "loss": 0.9983, "step": 1072 }, { "epoch": 0.05722666666666667, "grad_norm": 0.0270730864924882, "learning_rate": 0.0001, "loss": 1.0298, "step": 1073 }, { "epoch": 0.05728, "grad_norm": 0.0229439485973904, "learning_rate": 0.0001, "loss": 0.9964, "step": 1074 }, { "epoch": 0.05733333333333333, "grad_norm": 0.031395004834123136, "learning_rate": 0.0001, "loss": 1.0704, "step": 1075 }, { "epoch": 0.05738666666666667, "grad_norm": 0.024281516341736056, "learning_rate": 0.0001, "loss": 1.0286, "step": 1076 }, { "epoch": 0.05744, "grad_norm": 0.025026572582949002, "learning_rate": 0.0001, "loss": 1.0026, "step": 1077 }, { "epoch": 0.057493333333333334, "grad_norm": 0.0248173535341957, "learning_rate": 0.0001, "loss": 1.0331, "step": 1078 }, { "epoch": 0.05754666666666667, "grad_norm": 0.02451710653263882, "learning_rate": 0.0001, "loss": 1.0241, "step": 1079 }, { "epoch": 0.0576, "grad_norm": 0.027150106416602225, "learning_rate": 0.0001, "loss": 0.9912, "step": 1080 }, { "epoch": 0.057653333333333334, "grad_norm": 0.02785309655471986, "learning_rate": 0.0001, "loss": 0.9943, "step": 1081 }, { "epoch": 0.05770666666666667, "grad_norm": 0.029147381719421342, "learning_rate": 0.0001, "loss": 0.9555, "step": 1082 }, { "epoch": 0.05776, "grad_norm": 0.027222301983349947, "learning_rate": 0.0001, "loss": 1.0045, "step": 1083 }, { "epoch": 0.057813333333333335, "grad_norm": 0.027304377366049768, "learning_rate": 0.0001, "loss": 1.012, "step": 1084 }, { "epoch": 0.057866666666666663, "grad_norm": 0.030649248280361373, "learning_rate": 0.0001, "loss": 0.9996, "step": 1085 }, { "epoch": 0.05792, "grad_norm": 0.02616413118101414, "learning_rate": 0.0001, "loss": 1.0401, "step": 1086 }, { "epoch": 0.057973333333333335, "grad_norm": 0.03240203697268141, "learning_rate": 0.0001, "loss": 0.9905, "step": 1087 }, { "epoch": 0.058026666666666664, "grad_norm": 0.02656319140839796, "learning_rate": 0.0001, "loss": 1.0136, "step": 1088 }, { "epoch": 0.05808, "grad_norm": 0.029804261858774217, "learning_rate": 0.0001, "loss": 1.0011, "step": 1089 }, { "epoch": 0.058133333333333335, "grad_norm": 0.024507745405010783, "learning_rate": 0.0001, "loss": 1.0138, "step": 1090 }, { "epoch": 0.058186666666666664, "grad_norm": 0.028614677645995804, "learning_rate": 0.0001, "loss": 1.0061, "step": 1091 }, { "epoch": 0.05824, "grad_norm": 0.02730141133831606, "learning_rate": 0.0001, "loss": 1.0816, "step": 1092 }, { "epoch": 0.058293333333333336, "grad_norm": 0.026856559929422676, "learning_rate": 0.0001, "loss": 1.0596, "step": 1093 }, { "epoch": 0.058346666666666665, "grad_norm": 0.030125000009188028, "learning_rate": 0.0001, "loss": 0.9693, "step": 1094 }, { "epoch": 0.0584, "grad_norm": 0.02822822681316328, "learning_rate": 0.0001, "loss": 1.0273, "step": 1095 }, { "epoch": 0.058453333333333336, "grad_norm": 0.028726550084903695, "learning_rate": 0.0001, "loss": 1.007, "step": 1096 }, { "epoch": 0.058506666666666665, "grad_norm": 0.03311596232827745, "learning_rate": 0.0001, "loss": 0.9917, "step": 1097 }, { "epoch": 0.05856, "grad_norm": 0.02558660030061805, "learning_rate": 0.0001, "loss": 1.0247, "step": 1098 }, { "epoch": 0.05861333333333334, "grad_norm": 0.029214945157847817, "learning_rate": 0.0001, "loss": 0.9834, "step": 1099 }, { "epoch": 0.058666666666666666, "grad_norm": 0.034859276356250565, "learning_rate": 0.0001, "loss": 1.0408, "step": 1100 }, { "epoch": 0.05872, "grad_norm": 0.024499089519218722, "learning_rate": 0.0001, "loss": 1.0517, "step": 1101 }, { "epoch": 0.05877333333333333, "grad_norm": 0.03917125008043877, "learning_rate": 0.0001, "loss": 1.0392, "step": 1102 }, { "epoch": 0.058826666666666666, "grad_norm": 0.030070951639903278, "learning_rate": 0.0001, "loss": 0.9912, "step": 1103 }, { "epoch": 0.05888, "grad_norm": 0.02841266292481491, "learning_rate": 0.0001, "loss": 0.9946, "step": 1104 }, { "epoch": 0.05893333333333333, "grad_norm": 0.035030533751566964, "learning_rate": 0.0001, "loss": 1.0334, "step": 1105 }, { "epoch": 0.058986666666666666, "grad_norm": 0.03161746500403546, "learning_rate": 0.0001, "loss": 1.0161, "step": 1106 }, { "epoch": 0.05904, "grad_norm": 0.026892338958252895, "learning_rate": 0.0001, "loss": 0.9843, "step": 1107 }, { "epoch": 0.05909333333333333, "grad_norm": 0.027618371847000913, "learning_rate": 0.0001, "loss": 1.0355, "step": 1108 }, { "epoch": 0.05914666666666667, "grad_norm": 0.03038083148378131, "learning_rate": 0.0001, "loss": 1.1225, "step": 1109 }, { "epoch": 0.0592, "grad_norm": 0.02678803561226073, "learning_rate": 0.0001, "loss": 1.0147, "step": 1110 }, { "epoch": 0.05925333333333333, "grad_norm": 0.02941165053959532, "learning_rate": 0.0001, "loss": 1.0103, "step": 1111 }, { "epoch": 0.05930666666666667, "grad_norm": 0.026039696968818218, "learning_rate": 0.0001, "loss": 1.059, "step": 1112 }, { "epoch": 0.05936, "grad_norm": 0.024966229115687452, "learning_rate": 0.0001, "loss": 0.9823, "step": 1113 }, { "epoch": 0.05941333333333333, "grad_norm": 0.025852763802697066, "learning_rate": 0.0001, "loss": 0.958, "step": 1114 }, { "epoch": 0.05946666666666667, "grad_norm": 0.026193296828074208, "learning_rate": 0.0001, "loss": 1.0615, "step": 1115 }, { "epoch": 0.05952, "grad_norm": 0.028442111438614758, "learning_rate": 0.0001, "loss": 1.0182, "step": 1116 }, { "epoch": 0.05957333333333333, "grad_norm": 0.024106801229830086, "learning_rate": 0.0001, "loss": 1.0276, "step": 1117 }, { "epoch": 0.05962666666666667, "grad_norm": 0.02667480954901167, "learning_rate": 0.0001, "loss": 0.997, "step": 1118 }, { "epoch": 0.05968, "grad_norm": 0.026080305550090874, "learning_rate": 0.0001, "loss": 1.0096, "step": 1119 }, { "epoch": 0.05973333333333333, "grad_norm": 0.026856299161321578, "learning_rate": 0.0001, "loss": 1.0515, "step": 1120 }, { "epoch": 0.05978666666666667, "grad_norm": 0.023798886367481526, "learning_rate": 0.0001, "loss": 0.9948, "step": 1121 }, { "epoch": 0.05984, "grad_norm": 0.026579711979091748, "learning_rate": 0.0001, "loss": 1.0079, "step": 1122 }, { "epoch": 0.05989333333333333, "grad_norm": 0.027325433016494333, "learning_rate": 0.0001, "loss": 1.0122, "step": 1123 }, { "epoch": 0.05994666666666667, "grad_norm": 0.027229007789417052, "learning_rate": 0.0001, "loss": 1.0126, "step": 1124 }, { "epoch": 0.06, "grad_norm": 0.02452497501818222, "learning_rate": 0.0001, "loss": 1.0052, "step": 1125 }, { "epoch": 0.060053333333333334, "grad_norm": 0.027053944168461047, "learning_rate": 0.0001, "loss": 1.0207, "step": 1126 }, { "epoch": 0.06010666666666667, "grad_norm": 0.02395684098263132, "learning_rate": 0.0001, "loss": 1.0353, "step": 1127 }, { "epoch": 0.06016, "grad_norm": 0.025402690119086888, "learning_rate": 0.0001, "loss": 1.0338, "step": 1128 }, { "epoch": 0.060213333333333334, "grad_norm": 0.028298265596709754, "learning_rate": 0.0001, "loss": 1.0359, "step": 1129 }, { "epoch": 0.06026666666666667, "grad_norm": 0.02550116730976038, "learning_rate": 0.0001, "loss": 1.0083, "step": 1130 }, { "epoch": 0.06032, "grad_norm": 0.02957446803272572, "learning_rate": 0.0001, "loss": 1.095, "step": 1131 }, { "epoch": 0.060373333333333334, "grad_norm": 0.028210377376644825, "learning_rate": 0.0001, "loss": 0.9983, "step": 1132 }, { "epoch": 0.06042666666666666, "grad_norm": 0.029877364005796735, "learning_rate": 0.0001, "loss": 1.0032, "step": 1133 }, { "epoch": 0.06048, "grad_norm": 0.026917806460731122, "learning_rate": 0.0001, "loss": 1.0279, "step": 1134 }, { "epoch": 0.060533333333333335, "grad_norm": 0.028789528574731486, "learning_rate": 0.0001, "loss": 1.0219, "step": 1135 }, { "epoch": 0.060586666666666664, "grad_norm": 0.02563949503825346, "learning_rate": 0.0001, "loss": 1.0391, "step": 1136 }, { "epoch": 0.06064, "grad_norm": 0.026870868341438408, "learning_rate": 0.0001, "loss": 1.0992, "step": 1137 }, { "epoch": 0.060693333333333335, "grad_norm": 0.0286721545731373, "learning_rate": 0.0001, "loss": 1.0075, "step": 1138 }, { "epoch": 0.060746666666666664, "grad_norm": 0.025824123895936503, "learning_rate": 0.0001, "loss": 0.9941, "step": 1139 }, { "epoch": 0.0608, "grad_norm": 0.026495456712234123, "learning_rate": 0.0001, "loss": 0.9913, "step": 1140 }, { "epoch": 0.060853333333333336, "grad_norm": 0.027742756716972624, "learning_rate": 0.0001, "loss": 1.0166, "step": 1141 }, { "epoch": 0.060906666666666665, "grad_norm": 0.026476499149065198, "learning_rate": 0.0001, "loss": 0.9947, "step": 1142 }, { "epoch": 0.06096, "grad_norm": 0.029998708291151383, "learning_rate": 0.0001, "loss": 0.9806, "step": 1143 }, { "epoch": 0.061013333333333336, "grad_norm": 0.033285392215665434, "learning_rate": 0.0001, "loss": 1.0125, "step": 1144 }, { "epoch": 0.061066666666666665, "grad_norm": 0.027757102614244113, "learning_rate": 0.0001, "loss": 1.0469, "step": 1145 }, { "epoch": 0.06112, "grad_norm": 0.030629655629175002, "learning_rate": 0.0001, "loss": 0.9896, "step": 1146 }, { "epoch": 0.061173333333333337, "grad_norm": 0.02824585376490924, "learning_rate": 0.0001, "loss": 1.0215, "step": 1147 }, { "epoch": 0.061226666666666665, "grad_norm": 0.027738822094293097, "learning_rate": 0.0001, "loss": 1.0738, "step": 1148 }, { "epoch": 0.06128, "grad_norm": 0.03007159983648022, "learning_rate": 0.0001, "loss": 1.0294, "step": 1149 }, { "epoch": 0.06133333333333333, "grad_norm": 0.02633425287765423, "learning_rate": 0.0001, "loss": 1.0261, "step": 1150 }, { "epoch": 0.061386666666666666, "grad_norm": 0.02631452059151884, "learning_rate": 0.0001, "loss": 0.9939, "step": 1151 }, { "epoch": 0.06144, "grad_norm": 0.03182396939436865, "learning_rate": 0.0001, "loss": 1.0249, "step": 1152 }, { "epoch": 0.06149333333333333, "grad_norm": 0.025714005127244432, "learning_rate": 0.0001, "loss": 1.0482, "step": 1153 }, { "epoch": 0.061546666666666666, "grad_norm": 0.0271639086332221, "learning_rate": 0.0001, "loss": 0.9808, "step": 1154 }, { "epoch": 0.0616, "grad_norm": 0.028352709585798243, "learning_rate": 0.0001, "loss": 0.9321, "step": 1155 }, { "epoch": 0.06165333333333333, "grad_norm": 0.024135919470443454, "learning_rate": 0.0001, "loss": 1.0134, "step": 1156 }, { "epoch": 0.06170666666666667, "grad_norm": 0.02417877110993241, "learning_rate": 0.0001, "loss": 0.9435, "step": 1157 }, { "epoch": 0.06176, "grad_norm": 0.02912100814541876, "learning_rate": 0.0001, "loss": 1.0353, "step": 1158 }, { "epoch": 0.06181333333333333, "grad_norm": 0.02465972183830763, "learning_rate": 0.0001, "loss": 0.9774, "step": 1159 }, { "epoch": 0.06186666666666667, "grad_norm": 0.029824622774776315, "learning_rate": 0.0001, "loss": 0.9739, "step": 1160 }, { "epoch": 0.06192, "grad_norm": 0.02783668221315413, "learning_rate": 0.0001, "loss": 0.9941, "step": 1161 }, { "epoch": 0.06197333333333333, "grad_norm": 0.02426248245170162, "learning_rate": 0.0001, "loss": 1.0289, "step": 1162 }, { "epoch": 0.06202666666666667, "grad_norm": 0.027765981870981938, "learning_rate": 0.0001, "loss": 1.0036, "step": 1163 }, { "epoch": 0.06208, "grad_norm": 0.02904792175175561, "learning_rate": 0.0001, "loss": 1.0185, "step": 1164 }, { "epoch": 0.06213333333333333, "grad_norm": 0.0256322440775795, "learning_rate": 0.0001, "loss": 1.0419, "step": 1165 }, { "epoch": 0.06218666666666667, "grad_norm": 0.026933365681143143, "learning_rate": 0.0001, "loss": 1.0275, "step": 1166 }, { "epoch": 0.06224, "grad_norm": 0.025639519959545408, "learning_rate": 0.0001, "loss": 1.0039, "step": 1167 }, { "epoch": 0.06229333333333333, "grad_norm": 0.02512172278499975, "learning_rate": 0.0001, "loss": 1.0157, "step": 1168 }, { "epoch": 0.06234666666666667, "grad_norm": 0.03087493026653598, "learning_rate": 0.0001, "loss": 1.0197, "step": 1169 }, { "epoch": 0.0624, "grad_norm": 0.024808629333722874, "learning_rate": 0.0001, "loss": 1.0441, "step": 1170 }, { "epoch": 0.06245333333333333, "grad_norm": 0.02587395315160505, "learning_rate": 0.0001, "loss": 1.0083, "step": 1171 }, { "epoch": 0.06250666666666667, "grad_norm": 0.025298769274184393, "learning_rate": 0.0001, "loss": 0.9923, "step": 1172 }, { "epoch": 0.06256, "grad_norm": 0.02882868832032538, "learning_rate": 0.0001, "loss": 0.9766, "step": 1173 }, { "epoch": 0.06261333333333333, "grad_norm": 0.027071893651391597, "learning_rate": 0.0001, "loss": 0.9744, "step": 1174 }, { "epoch": 0.06266666666666666, "grad_norm": 0.024495988188868296, "learning_rate": 0.0001, "loss": 1.0272, "step": 1175 }, { "epoch": 0.06272, "grad_norm": 0.02694021361055139, "learning_rate": 0.0001, "loss": 1.0502, "step": 1176 }, { "epoch": 0.06277333333333333, "grad_norm": 0.029333687784020807, "learning_rate": 0.0001, "loss": 1.0712, "step": 1177 }, { "epoch": 0.06282666666666667, "grad_norm": 0.02740913163321832, "learning_rate": 0.0001, "loss": 1.0303, "step": 1178 }, { "epoch": 0.06288, "grad_norm": 0.025442113783102384, "learning_rate": 0.0001, "loss": 0.9621, "step": 1179 }, { "epoch": 0.06293333333333333, "grad_norm": 0.02929807524297121, "learning_rate": 0.0001, "loss": 0.9295, "step": 1180 }, { "epoch": 0.06298666666666666, "grad_norm": 0.026332639082518032, "learning_rate": 0.0001, "loss": 1.0637, "step": 1181 }, { "epoch": 0.06304, "grad_norm": 0.027297019514507175, "learning_rate": 0.0001, "loss": 1.0059, "step": 1182 }, { "epoch": 0.06309333333333333, "grad_norm": 0.02864463911416425, "learning_rate": 0.0001, "loss": 1.0345, "step": 1183 }, { "epoch": 0.06314666666666667, "grad_norm": 0.025312377764215712, "learning_rate": 0.0001, "loss": 1.0258, "step": 1184 }, { "epoch": 0.0632, "grad_norm": 0.026637189946072205, "learning_rate": 0.0001, "loss": 1.0134, "step": 1185 }, { "epoch": 0.06325333333333333, "grad_norm": 0.027417509468840896, "learning_rate": 0.0001, "loss": 1.0274, "step": 1186 }, { "epoch": 0.06330666666666666, "grad_norm": 0.026560854514583662, "learning_rate": 0.0001, "loss": 1.0023, "step": 1187 }, { "epoch": 0.06336, "grad_norm": 0.0258769665229114, "learning_rate": 0.0001, "loss": 0.983, "step": 1188 }, { "epoch": 0.06341333333333334, "grad_norm": 0.025811046353212606, "learning_rate": 0.0001, "loss": 0.9933, "step": 1189 }, { "epoch": 0.06346666666666667, "grad_norm": 0.02738878545484558, "learning_rate": 0.0001, "loss": 1.0741, "step": 1190 }, { "epoch": 0.06352, "grad_norm": 0.029174192579285132, "learning_rate": 0.0001, "loss": 1.0203, "step": 1191 }, { "epoch": 0.06357333333333333, "grad_norm": 0.02854182097090182, "learning_rate": 0.0001, "loss": 1.0241, "step": 1192 }, { "epoch": 0.06362666666666666, "grad_norm": 0.027424624452766267, "learning_rate": 0.0001, "loss": 0.9814, "step": 1193 }, { "epoch": 0.06368, "grad_norm": 0.026235611455217522, "learning_rate": 0.0001, "loss": 0.9917, "step": 1194 }, { "epoch": 0.06373333333333334, "grad_norm": 0.028870647569580306, "learning_rate": 0.0001, "loss": 1.0555, "step": 1195 }, { "epoch": 0.06378666666666667, "grad_norm": 0.02528805845584082, "learning_rate": 0.0001, "loss": 1.0322, "step": 1196 }, { "epoch": 0.06384, "grad_norm": 0.025494601187859355, "learning_rate": 0.0001, "loss": 1.1178, "step": 1197 }, { "epoch": 0.06389333333333333, "grad_norm": 0.0286342065350762, "learning_rate": 0.0001, "loss": 1.0349, "step": 1198 }, { "epoch": 0.06394666666666667, "grad_norm": 0.024922047986647326, "learning_rate": 0.0001, "loss": 1.0358, "step": 1199 }, { "epoch": 0.064, "grad_norm": 0.02595703889463048, "learning_rate": 0.0001, "loss": 1.0123, "step": 1200 }, { "epoch": 0.064, "eval_accuracy": 0.6094079701488295, "eval_loss": 1.4146265983581543, "eval_runtime": 62.6049, "eval_samples_per_second": 15.973, "eval_steps_per_second": 0.511, "step": 1200 }, { "epoch": 0.06405333333333334, "grad_norm": 0.025006146105032, "learning_rate": 0.0001, "loss": 0.9756, "step": 1201 }, { "epoch": 0.06410666666666667, "grad_norm": 0.023302451693381493, "learning_rate": 0.0001, "loss": 0.9987, "step": 1202 }, { "epoch": 0.06416, "grad_norm": 0.02756625751186389, "learning_rate": 0.0001, "loss": 0.9846, "step": 1203 }, { "epoch": 0.06421333333333333, "grad_norm": 0.028889553311601937, "learning_rate": 0.0001, "loss": 1.0444, "step": 1204 }, { "epoch": 0.06426666666666667, "grad_norm": 0.0258553390249828, "learning_rate": 0.0001, "loss": 1.0208, "step": 1205 }, { "epoch": 0.06432, "grad_norm": 0.027885402443482556, "learning_rate": 0.0001, "loss": 1.0591, "step": 1206 }, { "epoch": 0.06437333333333334, "grad_norm": 0.02864132619478893, "learning_rate": 0.0001, "loss": 1.0782, "step": 1207 }, { "epoch": 0.06442666666666666, "grad_norm": 0.027856345190251184, "learning_rate": 0.0001, "loss": 1.0353, "step": 1208 }, { "epoch": 0.06448, "grad_norm": 0.028927463928279672, "learning_rate": 0.0001, "loss": 0.9859, "step": 1209 }, { "epoch": 0.06453333333333333, "grad_norm": 0.02619708377546426, "learning_rate": 0.0001, "loss": 0.9527, "step": 1210 }, { "epoch": 0.06458666666666667, "grad_norm": 0.02609704904526853, "learning_rate": 0.0001, "loss": 0.9822, "step": 1211 }, { "epoch": 0.06464, "grad_norm": 0.02508451037364046, "learning_rate": 0.0001, "loss": 1.0219, "step": 1212 }, { "epoch": 0.06469333333333334, "grad_norm": 0.029978631434535077, "learning_rate": 0.0001, "loss": 1.0217, "step": 1213 }, { "epoch": 0.06474666666666666, "grad_norm": 0.025455921952942592, "learning_rate": 0.0001, "loss": 1.0961, "step": 1214 }, { "epoch": 0.0648, "grad_norm": 0.025925635048354635, "learning_rate": 0.0001, "loss": 1.0429, "step": 1215 }, { "epoch": 0.06485333333333333, "grad_norm": 0.027555575223156097, "learning_rate": 0.0001, "loss": 1.0531, "step": 1216 }, { "epoch": 0.06490666666666667, "grad_norm": 0.02563121538808906, "learning_rate": 0.0001, "loss": 0.9891, "step": 1217 }, { "epoch": 0.06496, "grad_norm": 0.026839783159929968, "learning_rate": 0.0001, "loss": 1.0211, "step": 1218 }, { "epoch": 0.06501333333333334, "grad_norm": 0.027408562317606494, "learning_rate": 0.0001, "loss": 0.9827, "step": 1219 }, { "epoch": 0.06506666666666666, "grad_norm": 0.026846467879478128, "learning_rate": 0.0001, "loss": 1.03, "step": 1220 }, { "epoch": 0.06512, "grad_norm": 0.026434673262489827, "learning_rate": 0.0001, "loss": 0.9965, "step": 1221 }, { "epoch": 0.06517333333333333, "grad_norm": 0.03046924188185476, "learning_rate": 0.0001, "loss": 0.98, "step": 1222 }, { "epoch": 0.06522666666666667, "grad_norm": 0.02878832248631362, "learning_rate": 0.0001, "loss": 1.0283, "step": 1223 }, { "epoch": 0.06528, "grad_norm": 0.02915463656577247, "learning_rate": 0.0001, "loss": 1.0508, "step": 1224 }, { "epoch": 0.06533333333333333, "grad_norm": 0.026974753797952805, "learning_rate": 0.0001, "loss": 0.9767, "step": 1225 }, { "epoch": 0.06538666666666666, "grad_norm": 0.031014277128188127, "learning_rate": 0.0001, "loss": 0.9998, "step": 1226 }, { "epoch": 0.06544, "grad_norm": 0.026926747968858744, "learning_rate": 0.0001, "loss": 1.0665, "step": 1227 }, { "epoch": 0.06549333333333333, "grad_norm": 0.030408435853748632, "learning_rate": 0.0001, "loss": 1.0446, "step": 1228 }, { "epoch": 0.06554666666666667, "grad_norm": 0.02766460018758552, "learning_rate": 0.0001, "loss": 1.1043, "step": 1229 }, { "epoch": 0.0656, "grad_norm": 0.0317122605999316, "learning_rate": 0.0001, "loss": 0.9888, "step": 1230 }, { "epoch": 0.06565333333333333, "grad_norm": 0.02681023907289104, "learning_rate": 0.0001, "loss": 1.062, "step": 1231 }, { "epoch": 0.06570666666666666, "grad_norm": 0.0256881770124526, "learning_rate": 0.0001, "loss": 1.0828, "step": 1232 }, { "epoch": 0.06576, "grad_norm": 0.026920603142038133, "learning_rate": 0.0001, "loss": 1.0527, "step": 1233 }, { "epoch": 0.06581333333333333, "grad_norm": 0.02596776927624475, "learning_rate": 0.0001, "loss": 0.9722, "step": 1234 }, { "epoch": 0.06586666666666667, "grad_norm": 0.024292401571502437, "learning_rate": 0.0001, "loss": 1.0284, "step": 1235 }, { "epoch": 0.06592, "grad_norm": 0.02635273388302963, "learning_rate": 0.0001, "loss": 1.1033, "step": 1236 }, { "epoch": 0.06597333333333333, "grad_norm": 0.02462399459492257, "learning_rate": 0.0001, "loss": 1.0314, "step": 1237 }, { "epoch": 0.06602666666666666, "grad_norm": 0.03161845079093626, "learning_rate": 0.0001, "loss": 1.0273, "step": 1238 }, { "epoch": 0.06608, "grad_norm": 0.025139767398414566, "learning_rate": 0.0001, "loss": 1.0575, "step": 1239 }, { "epoch": 0.06613333333333334, "grad_norm": 0.025024285423379537, "learning_rate": 0.0001, "loss": 0.9798, "step": 1240 }, { "epoch": 0.06618666666666667, "grad_norm": 0.028347531338522487, "learning_rate": 0.0001, "loss": 1.0088, "step": 1241 }, { "epoch": 0.06624, "grad_norm": 0.025977373158516563, "learning_rate": 0.0001, "loss": 1.016, "step": 1242 }, { "epoch": 0.06629333333333333, "grad_norm": 0.026784423462018946, "learning_rate": 0.0001, "loss": 0.9292, "step": 1243 }, { "epoch": 0.06634666666666666, "grad_norm": 0.02568457117414041, "learning_rate": 0.0001, "loss": 1.0056, "step": 1244 }, { "epoch": 0.0664, "grad_norm": 0.02616800466335011, "learning_rate": 0.0001, "loss": 1.0403, "step": 1245 }, { "epoch": 0.06645333333333334, "grad_norm": 0.025462786683873754, "learning_rate": 0.0001, "loss": 1.0512, "step": 1246 }, { "epoch": 0.06650666666666667, "grad_norm": 0.025872375314676004, "learning_rate": 0.0001, "loss": 1.0543, "step": 1247 }, { "epoch": 0.06656, "grad_norm": 0.02506994383474883, "learning_rate": 0.0001, "loss": 0.9955, "step": 1248 }, { "epoch": 0.06661333333333333, "grad_norm": 0.025847320638486885, "learning_rate": 0.0001, "loss": 1.0207, "step": 1249 }, { "epoch": 0.06666666666666667, "grad_norm": 0.026745081752356473, "learning_rate": 0.0001, "loss": 1.036, "step": 1250 }, { "epoch": 0.06672, "grad_norm": 0.027741835071670197, "learning_rate": 0.0001, "loss": 0.9877, "step": 1251 }, { "epoch": 0.06677333333333334, "grad_norm": 0.027644034574452348, "learning_rate": 0.0001, "loss": 1.021, "step": 1252 }, { "epoch": 0.06682666666666667, "grad_norm": 0.02544188879538882, "learning_rate": 0.0001, "loss": 1.0465, "step": 1253 }, { "epoch": 0.06688, "grad_norm": 0.027975085767387976, "learning_rate": 0.0001, "loss": 1.0611, "step": 1254 }, { "epoch": 0.06693333333333333, "grad_norm": 0.027255598042277746, "learning_rate": 0.0001, "loss": 0.984, "step": 1255 }, { "epoch": 0.06698666666666667, "grad_norm": 0.02842361237600284, "learning_rate": 0.0001, "loss": 1.0332, "step": 1256 }, { "epoch": 0.06704, "grad_norm": 0.028814577585038303, "learning_rate": 0.0001, "loss": 0.9972, "step": 1257 }, { "epoch": 0.06709333333333334, "grad_norm": 0.02814786406105282, "learning_rate": 0.0001, "loss": 0.9929, "step": 1258 }, { "epoch": 0.06714666666666666, "grad_norm": 0.02891141639711133, "learning_rate": 0.0001, "loss": 0.9938, "step": 1259 }, { "epoch": 0.0672, "grad_norm": 0.026794144506704035, "learning_rate": 0.0001, "loss": 0.9918, "step": 1260 }, { "epoch": 0.06725333333333333, "grad_norm": 0.02823908905551989, "learning_rate": 0.0001, "loss": 1.0032, "step": 1261 }, { "epoch": 0.06730666666666667, "grad_norm": 0.029270264026953416, "learning_rate": 0.0001, "loss": 1.0594, "step": 1262 }, { "epoch": 0.06736, "grad_norm": 0.02652632414381041, "learning_rate": 0.0001, "loss": 1.0438, "step": 1263 }, { "epoch": 0.06741333333333334, "grad_norm": 0.02430010332162236, "learning_rate": 0.0001, "loss": 1.0278, "step": 1264 }, { "epoch": 0.06746666666666666, "grad_norm": 0.02659779485584086, "learning_rate": 0.0001, "loss": 1.0182, "step": 1265 }, { "epoch": 0.06752, "grad_norm": 0.02531247834702308, "learning_rate": 0.0001, "loss": 1.0783, "step": 1266 }, { "epoch": 0.06757333333333333, "grad_norm": 0.02883933025521461, "learning_rate": 0.0001, "loss": 1.0119, "step": 1267 }, { "epoch": 0.06762666666666667, "grad_norm": 0.0274786243655685, "learning_rate": 0.0001, "loss": 0.9982, "step": 1268 }, { "epoch": 0.06768, "grad_norm": 0.02769640097334381, "learning_rate": 0.0001, "loss": 0.9722, "step": 1269 }, { "epoch": 0.06773333333333334, "grad_norm": 0.028649126031639265, "learning_rate": 0.0001, "loss": 0.9985, "step": 1270 }, { "epoch": 0.06778666666666666, "grad_norm": 0.027017088430006962, "learning_rate": 0.0001, "loss": 1.0197, "step": 1271 }, { "epoch": 0.06784, "grad_norm": 0.033991790414947425, "learning_rate": 0.0001, "loss": 1.0151, "step": 1272 }, { "epoch": 0.06789333333333333, "grad_norm": 0.024885722258324486, "learning_rate": 0.0001, "loss": 0.9904, "step": 1273 }, { "epoch": 0.06794666666666667, "grad_norm": 0.031204081484248865, "learning_rate": 0.0001, "loss": 0.9887, "step": 1274 }, { "epoch": 0.068, "grad_norm": 0.0280430843495176, "learning_rate": 0.0001, "loss": 1.0088, "step": 1275 }, { "epoch": 0.06805333333333333, "grad_norm": 0.029155153995824506, "learning_rate": 0.0001, "loss": 1.0106, "step": 1276 }, { "epoch": 0.06810666666666666, "grad_norm": 0.026424848643547362, "learning_rate": 0.0001, "loss": 1.0132, "step": 1277 }, { "epoch": 0.06816, "grad_norm": 0.02736100516122246, "learning_rate": 0.0001, "loss": 1.0583, "step": 1278 }, { "epoch": 0.06821333333333333, "grad_norm": 0.027128600656127707, "learning_rate": 0.0001, "loss": 1.0443, "step": 1279 }, { "epoch": 0.06826666666666667, "grad_norm": 0.02901267133914117, "learning_rate": 0.0001, "loss": 1.0684, "step": 1280 }, { "epoch": 0.06832, "grad_norm": 0.02662489798980497, "learning_rate": 0.0001, "loss": 1.0032, "step": 1281 }, { "epoch": 0.06837333333333333, "grad_norm": 0.028953221794727455, "learning_rate": 0.0001, "loss": 1.0266, "step": 1282 }, { "epoch": 0.06842666666666666, "grad_norm": 0.028360559984817325, "learning_rate": 0.0001, "loss": 1.0006, "step": 1283 }, { "epoch": 0.06848, "grad_norm": 0.024057346442448117, "learning_rate": 0.0001, "loss": 1.0668, "step": 1284 }, { "epoch": 0.06853333333333333, "grad_norm": 0.03060536481022083, "learning_rate": 0.0001, "loss": 1.0503, "step": 1285 }, { "epoch": 0.06858666666666667, "grad_norm": 0.027019990077935964, "learning_rate": 0.0001, "loss": 0.9962, "step": 1286 }, { "epoch": 0.06864, "grad_norm": 0.02749414070196188, "learning_rate": 0.0001, "loss": 0.9623, "step": 1287 }, { "epoch": 0.06869333333333333, "grad_norm": 0.026981357440273187, "learning_rate": 0.0001, "loss": 0.98, "step": 1288 }, { "epoch": 0.06874666666666666, "grad_norm": 0.027362719811891416, "learning_rate": 0.0001, "loss": 1.0079, "step": 1289 }, { "epoch": 0.0688, "grad_norm": 0.029889227051165968, "learning_rate": 0.0001, "loss": 1.0416, "step": 1290 }, { "epoch": 0.06885333333333334, "grad_norm": 0.026597553155036407, "learning_rate": 0.0001, "loss": 1.0765, "step": 1291 }, { "epoch": 0.06890666666666667, "grad_norm": 0.02972841625397455, "learning_rate": 0.0001, "loss": 0.9828, "step": 1292 }, { "epoch": 0.06896, "grad_norm": 0.025891266695906297, "learning_rate": 0.0001, "loss": 0.9963, "step": 1293 }, { "epoch": 0.06901333333333333, "grad_norm": 0.027378921112252794, "learning_rate": 0.0001, "loss": 0.9953, "step": 1294 }, { "epoch": 0.06906666666666667, "grad_norm": 0.028541802212397292, "learning_rate": 0.0001, "loss": 1.0314, "step": 1295 }, { "epoch": 0.06912, "grad_norm": 0.031651053512126326, "learning_rate": 0.0001, "loss": 1.0346, "step": 1296 }, { "epoch": 0.06917333333333334, "grad_norm": 0.030042875547908236, "learning_rate": 0.0001, "loss": 1.0389, "step": 1297 }, { "epoch": 0.06922666666666667, "grad_norm": 0.028816004913370854, "learning_rate": 0.0001, "loss": 0.9679, "step": 1298 }, { "epoch": 0.06928, "grad_norm": 0.03260465168484061, "learning_rate": 0.0001, "loss": 1.0011, "step": 1299 }, { "epoch": 0.06933333333333333, "grad_norm": 0.027843094738074038, "learning_rate": 0.0001, "loss": 1.0489, "step": 1300 }, { "epoch": 0.06938666666666667, "grad_norm": 0.032538847285893055, "learning_rate": 0.0001, "loss": 0.9967, "step": 1301 }, { "epoch": 0.06944, "grad_norm": 0.032759680324852804, "learning_rate": 0.0001, "loss": 1.0039, "step": 1302 }, { "epoch": 0.06949333333333334, "grad_norm": 0.026635415468196897, "learning_rate": 0.0001, "loss": 0.9816, "step": 1303 }, { "epoch": 0.06954666666666667, "grad_norm": 0.03187223320205728, "learning_rate": 0.0001, "loss": 1.0827, "step": 1304 }, { "epoch": 0.0696, "grad_norm": 0.030787004412473878, "learning_rate": 0.0001, "loss": 1.067, "step": 1305 }, { "epoch": 0.06965333333333333, "grad_norm": 0.026974504209705395, "learning_rate": 0.0001, "loss": 0.9914, "step": 1306 }, { "epoch": 0.06970666666666667, "grad_norm": 0.02906029502264328, "learning_rate": 0.0001, "loss": 1.0742, "step": 1307 }, { "epoch": 0.06976, "grad_norm": 0.029194325776091583, "learning_rate": 0.0001, "loss": 1.0266, "step": 1308 }, { "epoch": 0.06981333333333334, "grad_norm": 0.02820215517342032, "learning_rate": 0.0001, "loss": 0.9873, "step": 1309 }, { "epoch": 0.06986666666666666, "grad_norm": 0.027319034659265395, "learning_rate": 0.0001, "loss": 1.017, "step": 1310 }, { "epoch": 0.06992, "grad_norm": 0.028077075870165284, "learning_rate": 0.0001, "loss": 0.9982, "step": 1311 }, { "epoch": 0.06997333333333333, "grad_norm": 0.029509625027748284, "learning_rate": 0.0001, "loss": 1.0092, "step": 1312 }, { "epoch": 0.07002666666666667, "grad_norm": 0.030147768232247227, "learning_rate": 0.0001, "loss": 0.9937, "step": 1313 }, { "epoch": 0.07008, "grad_norm": 0.027285186534265114, "learning_rate": 0.0001, "loss": 1.0354, "step": 1314 }, { "epoch": 0.07013333333333334, "grad_norm": 0.025321646951779218, "learning_rate": 0.0001, "loss": 0.9966, "step": 1315 }, { "epoch": 0.07018666666666666, "grad_norm": 0.02691693402784399, "learning_rate": 0.0001, "loss": 1.1293, "step": 1316 }, { "epoch": 0.07024, "grad_norm": 0.025534594950626825, "learning_rate": 0.0001, "loss": 1.0091, "step": 1317 }, { "epoch": 0.07029333333333333, "grad_norm": 0.02649083149261357, "learning_rate": 0.0001, "loss": 1.057, "step": 1318 }, { "epoch": 0.07034666666666667, "grad_norm": 0.026277226768910755, "learning_rate": 0.0001, "loss": 1.0323, "step": 1319 }, { "epoch": 0.0704, "grad_norm": 0.027398607788365104, "learning_rate": 0.0001, "loss": 1.0554, "step": 1320 }, { "epoch": 0.07045333333333334, "grad_norm": 0.026428122377360943, "learning_rate": 0.0001, "loss": 1.0211, "step": 1321 }, { "epoch": 0.07050666666666666, "grad_norm": 0.02541721756398702, "learning_rate": 0.0001, "loss": 1.02, "step": 1322 }, { "epoch": 0.07056, "grad_norm": 0.02689101051312156, "learning_rate": 0.0001, "loss": 1.0055, "step": 1323 }, { "epoch": 0.07061333333333333, "grad_norm": 0.025945837105768497, "learning_rate": 0.0001, "loss": 0.9937, "step": 1324 }, { "epoch": 0.07066666666666667, "grad_norm": 0.026099896594061988, "learning_rate": 0.0001, "loss": 1.0494, "step": 1325 }, { "epoch": 0.07072, "grad_norm": 0.024062990827848723, "learning_rate": 0.0001, "loss": 1.0335, "step": 1326 }, { "epoch": 0.07077333333333333, "grad_norm": 0.026879534250893376, "learning_rate": 0.0001, "loss": 0.9801, "step": 1327 }, { "epoch": 0.07082666666666666, "grad_norm": 0.028099462759973038, "learning_rate": 0.0001, "loss": 0.993, "step": 1328 }, { "epoch": 0.07088, "grad_norm": 0.026544649630919546, "learning_rate": 0.0001, "loss": 0.9719, "step": 1329 }, { "epoch": 0.07093333333333333, "grad_norm": 0.02897181914255022, "learning_rate": 0.0001, "loss": 1.023, "step": 1330 }, { "epoch": 0.07098666666666667, "grad_norm": 0.023933883331079223, "learning_rate": 0.0001, "loss": 1.0358, "step": 1331 }, { "epoch": 0.07104, "grad_norm": 0.02538986160516313, "learning_rate": 0.0001, "loss": 1.0536, "step": 1332 }, { "epoch": 0.07109333333333333, "grad_norm": 0.0265663156710299, "learning_rate": 0.0001, "loss": 0.9639, "step": 1333 }, { "epoch": 0.07114666666666666, "grad_norm": 0.0239861447205062, "learning_rate": 0.0001, "loss": 0.9821, "step": 1334 }, { "epoch": 0.0712, "grad_norm": 0.02379961060855267, "learning_rate": 0.0001, "loss": 0.9596, "step": 1335 }, { "epoch": 0.07125333333333334, "grad_norm": 0.024009322968357425, "learning_rate": 0.0001, "loss": 0.9968, "step": 1336 }, { "epoch": 0.07130666666666667, "grad_norm": 0.02509195275163291, "learning_rate": 0.0001, "loss": 1.0301, "step": 1337 }, { "epoch": 0.07136, "grad_norm": 0.025893697700334097, "learning_rate": 0.0001, "loss": 1.0206, "step": 1338 }, { "epoch": 0.07141333333333333, "grad_norm": 0.02654644434040771, "learning_rate": 0.0001, "loss": 1.0324, "step": 1339 }, { "epoch": 0.07146666666666666, "grad_norm": 0.02809402951932729, "learning_rate": 0.0001, "loss": 0.9765, "step": 1340 }, { "epoch": 0.07152, "grad_norm": 0.02339045672910295, "learning_rate": 0.0001, "loss": 1.0758, "step": 1341 }, { "epoch": 0.07157333333333334, "grad_norm": 0.027063600676679136, "learning_rate": 0.0001, "loss": 1.0248, "step": 1342 }, { "epoch": 0.07162666666666667, "grad_norm": 0.025168153082569093, "learning_rate": 0.0001, "loss": 1.0441, "step": 1343 }, { "epoch": 0.07168, "grad_norm": 0.026026402405670057, "learning_rate": 0.0001, "loss": 0.9667, "step": 1344 }, { "epoch": 0.07173333333333333, "grad_norm": 0.025892084728334548, "learning_rate": 0.0001, "loss": 1.0105, "step": 1345 }, { "epoch": 0.07178666666666667, "grad_norm": 0.025489183773404266, "learning_rate": 0.0001, "loss": 1.0572, "step": 1346 }, { "epoch": 0.07184, "grad_norm": 0.024387102589902687, "learning_rate": 0.0001, "loss": 1.0484, "step": 1347 }, { "epoch": 0.07189333333333334, "grad_norm": 0.025667957552132463, "learning_rate": 0.0001, "loss": 1.0405, "step": 1348 }, { "epoch": 0.07194666666666667, "grad_norm": 0.02528838374054606, "learning_rate": 0.0001, "loss": 1.0485, "step": 1349 }, { "epoch": 0.072, "grad_norm": 0.024477210580103426, "learning_rate": 0.0001, "loss": 1.0428, "step": 1350 }, { "epoch": 0.07205333333333333, "grad_norm": 0.02454427566427297, "learning_rate": 0.0001, "loss": 0.975, "step": 1351 }, { "epoch": 0.07210666666666667, "grad_norm": 0.02493510621312888, "learning_rate": 0.0001, "loss": 0.9685, "step": 1352 }, { "epoch": 0.07216, "grad_norm": 0.025563205302989986, "learning_rate": 0.0001, "loss": 0.9922, "step": 1353 }, { "epoch": 0.07221333333333334, "grad_norm": 0.026555736001282422, "learning_rate": 0.0001, "loss": 0.9942, "step": 1354 }, { "epoch": 0.07226666666666667, "grad_norm": 0.027886715980864066, "learning_rate": 0.0001, "loss": 0.9668, "step": 1355 }, { "epoch": 0.07232, "grad_norm": 0.026862591958340374, "learning_rate": 0.0001, "loss": 1.0645, "step": 1356 }, { "epoch": 0.07237333333333333, "grad_norm": 0.02450102229785219, "learning_rate": 0.0001, "loss": 1.0261, "step": 1357 }, { "epoch": 0.07242666666666667, "grad_norm": 0.03017835114182462, "learning_rate": 0.0001, "loss": 1.011, "step": 1358 }, { "epoch": 0.07248, "grad_norm": 0.024396781209132395, "learning_rate": 0.0001, "loss": 1.0013, "step": 1359 }, { "epoch": 0.07253333333333334, "grad_norm": 0.03096770865771595, "learning_rate": 0.0001, "loss": 1.048, "step": 1360 }, { "epoch": 0.07258666666666666, "grad_norm": 0.025131864256425367, "learning_rate": 0.0001, "loss": 0.9839, "step": 1361 }, { "epoch": 0.07264, "grad_norm": 0.029576091811344383, "learning_rate": 0.0001, "loss": 1.0913, "step": 1362 }, { "epoch": 0.07269333333333333, "grad_norm": 0.02680199230351138, "learning_rate": 0.0001, "loss": 1.0011, "step": 1363 }, { "epoch": 0.07274666666666667, "grad_norm": 0.03076291724760087, "learning_rate": 0.0001, "loss": 0.9773, "step": 1364 }, { "epoch": 0.0728, "grad_norm": 0.027447185061334273, "learning_rate": 0.0001, "loss": 1.0173, "step": 1365 }, { "epoch": 0.07285333333333334, "grad_norm": 0.025651937082384075, "learning_rate": 0.0001, "loss": 0.9922, "step": 1366 }, { "epoch": 0.07290666666666666, "grad_norm": 0.028266820143522123, "learning_rate": 0.0001, "loss": 1.0693, "step": 1367 }, { "epoch": 0.07296, "grad_norm": 0.029851111110083737, "learning_rate": 0.0001, "loss": 1.0445, "step": 1368 }, { "epoch": 0.07301333333333333, "grad_norm": 0.027108955431101544, "learning_rate": 0.0001, "loss": 1.0179, "step": 1369 }, { "epoch": 0.07306666666666667, "grad_norm": 0.024594783784580555, "learning_rate": 0.0001, "loss": 1.0076, "step": 1370 }, { "epoch": 0.07312, "grad_norm": 0.03135498974097117, "learning_rate": 0.0001, "loss": 1.0062, "step": 1371 }, { "epoch": 0.07317333333333334, "grad_norm": 0.024414977381463615, "learning_rate": 0.0001, "loss": 1.0319, "step": 1372 }, { "epoch": 0.07322666666666666, "grad_norm": 0.026957727828609862, "learning_rate": 0.0001, "loss": 0.9862, "step": 1373 }, { "epoch": 0.07328, "grad_norm": 0.027665378230717186, "learning_rate": 0.0001, "loss": 1.0081, "step": 1374 }, { "epoch": 0.07333333333333333, "grad_norm": 0.0246563662375451, "learning_rate": 0.0001, "loss": 0.9823, "step": 1375 }, { "epoch": 0.07338666666666667, "grad_norm": 0.025401436666538456, "learning_rate": 0.0001, "loss": 1.0278, "step": 1376 }, { "epoch": 0.07344, "grad_norm": 0.027730107961576014, "learning_rate": 0.0001, "loss": 1.032, "step": 1377 }, { "epoch": 0.07349333333333333, "grad_norm": 0.026594856690591563, "learning_rate": 0.0001, "loss": 1.0027, "step": 1378 }, { "epoch": 0.07354666666666666, "grad_norm": 0.029101882243459404, "learning_rate": 0.0001, "loss": 1.0838, "step": 1379 }, { "epoch": 0.0736, "grad_norm": 0.02706048643050515, "learning_rate": 0.0001, "loss": 1.0021, "step": 1380 }, { "epoch": 0.07365333333333333, "grad_norm": 0.03435964672147377, "learning_rate": 0.0001, "loss": 1.0348, "step": 1381 }, { "epoch": 0.07370666666666667, "grad_norm": 0.02714609464766141, "learning_rate": 0.0001, "loss": 1.0032, "step": 1382 }, { "epoch": 0.07376, "grad_norm": 0.029611157348967725, "learning_rate": 0.0001, "loss": 1.0355, "step": 1383 }, { "epoch": 0.07381333333333333, "grad_norm": 0.032337982504664575, "learning_rate": 0.0001, "loss": 1.0303, "step": 1384 }, { "epoch": 0.07386666666666666, "grad_norm": 0.028218474796060152, "learning_rate": 0.0001, "loss": 1.0068, "step": 1385 }, { "epoch": 0.07392, "grad_norm": 0.032564381119096444, "learning_rate": 0.0001, "loss": 0.9846, "step": 1386 }, { "epoch": 0.07397333333333334, "grad_norm": 0.029059849146736663, "learning_rate": 0.0001, "loss": 1.0355, "step": 1387 }, { "epoch": 0.07402666666666667, "grad_norm": 0.02351801503151605, "learning_rate": 0.0001, "loss": 0.9927, "step": 1388 }, { "epoch": 0.07408, "grad_norm": 0.02846830098577435, "learning_rate": 0.0001, "loss": 1.0577, "step": 1389 }, { "epoch": 0.07413333333333333, "grad_norm": 0.02580114042583524, "learning_rate": 0.0001, "loss": 0.9868, "step": 1390 }, { "epoch": 0.07418666666666666, "grad_norm": 0.02445854163584432, "learning_rate": 0.0001, "loss": 0.9973, "step": 1391 }, { "epoch": 0.07424, "grad_norm": 0.030414908626434572, "learning_rate": 0.0001, "loss": 1.0046, "step": 1392 }, { "epoch": 0.07429333333333334, "grad_norm": 0.025382475624449848, "learning_rate": 0.0001, "loss": 1.0461, "step": 1393 }, { "epoch": 0.07434666666666667, "grad_norm": 0.026000771015036336, "learning_rate": 0.0001, "loss": 1.049, "step": 1394 }, { "epoch": 0.0744, "grad_norm": 0.02513105909117264, "learning_rate": 0.0001, "loss": 1.0067, "step": 1395 }, { "epoch": 0.07445333333333333, "grad_norm": 0.02475762404862143, "learning_rate": 0.0001, "loss": 0.971, "step": 1396 }, { "epoch": 0.07450666666666667, "grad_norm": 0.023635728950784002, "learning_rate": 0.0001, "loss": 1.0061, "step": 1397 }, { "epoch": 0.07456, "grad_norm": 0.025219994648708905, "learning_rate": 0.0001, "loss": 1.1169, "step": 1398 }, { "epoch": 0.07461333333333334, "grad_norm": 0.02491988761612225, "learning_rate": 0.0001, "loss": 0.9936, "step": 1399 }, { "epoch": 0.07466666666666667, "grad_norm": 0.02535005376728199, "learning_rate": 0.0001, "loss": 1.0154, "step": 1400 }, { "epoch": 0.07466666666666667, "eval_accuracy": 0.6103045881533959, "eval_loss": 1.4095321893692017, "eval_runtime": 62.6217, "eval_samples_per_second": 15.969, "eval_steps_per_second": 0.511, "step": 1400 }, { "epoch": 0.07472, "grad_norm": 0.026012314129310727, "learning_rate": 0.0001, "loss": 1.037, "step": 1401 }, { "epoch": 0.07477333333333333, "grad_norm": 0.025893976851029836, "learning_rate": 0.0001, "loss": 0.9855, "step": 1402 }, { "epoch": 0.07482666666666667, "grad_norm": 0.0240110593160091, "learning_rate": 0.0001, "loss": 1.002, "step": 1403 }, { "epoch": 0.07488, "grad_norm": 0.02635510786734542, "learning_rate": 0.0001, "loss": 1.0408, "step": 1404 }, { "epoch": 0.07493333333333334, "grad_norm": 0.02570373517723136, "learning_rate": 0.0001, "loss": 1.0116, "step": 1405 }, { "epoch": 0.07498666666666666, "grad_norm": 0.02807055488409623, "learning_rate": 0.0001, "loss": 0.9782, "step": 1406 }, { "epoch": 0.07504, "grad_norm": 0.027513771531304517, "learning_rate": 0.0001, "loss": 1.0178, "step": 1407 }, { "epoch": 0.07509333333333333, "grad_norm": 0.023814227361889467, "learning_rate": 0.0001, "loss": 1.0371, "step": 1408 }, { "epoch": 0.07514666666666667, "grad_norm": 0.02606023315631416, "learning_rate": 0.0001, "loss": 1.0387, "step": 1409 }, { "epoch": 0.0752, "grad_norm": 0.027546984043710514, "learning_rate": 0.0001, "loss": 1.0219, "step": 1410 }, { "epoch": 0.07525333333333334, "grad_norm": 0.024336004197795247, "learning_rate": 0.0001, "loss": 1.0797, "step": 1411 }, { "epoch": 0.07530666666666666, "grad_norm": 0.02732908658398586, "learning_rate": 0.0001, "loss": 1.0113, "step": 1412 }, { "epoch": 0.07536, "grad_norm": 0.029369861039019982, "learning_rate": 0.0001, "loss": 1.0147, "step": 1413 }, { "epoch": 0.07541333333333333, "grad_norm": 0.023923676279976172, "learning_rate": 0.0001, "loss": 0.9858, "step": 1414 }, { "epoch": 0.07546666666666667, "grad_norm": 0.025057306517821884, "learning_rate": 0.0001, "loss": 1.0305, "step": 1415 }, { "epoch": 0.07552, "grad_norm": 0.02505682546189634, "learning_rate": 0.0001, "loss": 0.9953, "step": 1416 }, { "epoch": 0.07557333333333334, "grad_norm": 0.028840599211460146, "learning_rate": 0.0001, "loss": 0.9481, "step": 1417 }, { "epoch": 0.07562666666666666, "grad_norm": 0.027448751401812473, "learning_rate": 0.0001, "loss": 1.0208, "step": 1418 }, { "epoch": 0.07568, "grad_norm": 0.02966017862930943, "learning_rate": 0.0001, "loss": 0.9963, "step": 1419 }, { "epoch": 0.07573333333333333, "grad_norm": 0.02492399847816971, "learning_rate": 0.0001, "loss": 1.0185, "step": 1420 }, { "epoch": 0.07578666666666667, "grad_norm": 0.03006725059252591, "learning_rate": 0.0001, "loss": 1.0441, "step": 1421 }, { "epoch": 0.07584, "grad_norm": 0.029537479497250448, "learning_rate": 0.0001, "loss": 1.0237, "step": 1422 }, { "epoch": 0.07589333333333333, "grad_norm": 0.02901613302495655, "learning_rate": 0.0001, "loss": 0.9903, "step": 1423 }, { "epoch": 0.07594666666666666, "grad_norm": 0.027508144351500705, "learning_rate": 0.0001, "loss": 1.0039, "step": 1424 }, { "epoch": 0.076, "grad_norm": 0.029702143386262387, "learning_rate": 0.0001, "loss": 1.053, "step": 1425 }, { "epoch": 0.07605333333333333, "grad_norm": 0.024736993225071932, "learning_rate": 0.0001, "loss": 0.9985, "step": 1426 }, { "epoch": 0.07610666666666667, "grad_norm": 0.028122174663138173, "learning_rate": 0.0001, "loss": 1.0268, "step": 1427 }, { "epoch": 0.07616, "grad_norm": 0.02450585206675225, "learning_rate": 0.0001, "loss": 1.0202, "step": 1428 }, { "epoch": 0.07621333333333333, "grad_norm": 0.028577388551303356, "learning_rate": 0.0001, "loss": 1.0424, "step": 1429 }, { "epoch": 0.07626666666666666, "grad_norm": 0.02768082714758481, "learning_rate": 0.0001, "loss": 1.03, "step": 1430 }, { "epoch": 0.07632, "grad_norm": 0.02655409131128702, "learning_rate": 0.0001, "loss": 1.0251, "step": 1431 }, { "epoch": 0.07637333333333333, "grad_norm": 0.024870560940262604, "learning_rate": 0.0001, "loss": 1.0009, "step": 1432 }, { "epoch": 0.07642666666666667, "grad_norm": 0.0260458776490873, "learning_rate": 0.0001, "loss": 1.0243, "step": 1433 }, { "epoch": 0.07648, "grad_norm": 0.02727453220768935, "learning_rate": 0.0001, "loss": 1.0024, "step": 1434 }, { "epoch": 0.07653333333333333, "grad_norm": 0.026650986431354766, "learning_rate": 0.0001, "loss": 1.0141, "step": 1435 }, { "epoch": 0.07658666666666666, "grad_norm": 0.024925818619230045, "learning_rate": 0.0001, "loss": 0.9445, "step": 1436 }, { "epoch": 0.07664, "grad_norm": 0.025676772012487956, "learning_rate": 0.0001, "loss": 0.9981, "step": 1437 }, { "epoch": 0.07669333333333334, "grad_norm": 0.0287086981294998, "learning_rate": 0.0001, "loss": 1.0298, "step": 1438 }, { "epoch": 0.07674666666666667, "grad_norm": 0.027871399354941827, "learning_rate": 0.0001, "loss": 1.0668, "step": 1439 }, { "epoch": 0.0768, "grad_norm": 0.027132265004396344, "learning_rate": 0.0001, "loss": 0.9929, "step": 1440 }, { "epoch": 0.07685333333333333, "grad_norm": 0.02605179277427003, "learning_rate": 0.0001, "loss": 1.0169, "step": 1441 }, { "epoch": 0.07690666666666666, "grad_norm": 0.025758097401796392, "learning_rate": 0.0001, "loss": 0.9875, "step": 1442 }, { "epoch": 0.07696, "grad_norm": 0.024996659133176984, "learning_rate": 0.0001, "loss": 1.0656, "step": 1443 }, { "epoch": 0.07701333333333334, "grad_norm": 0.02442899087787655, "learning_rate": 0.0001, "loss": 0.9489, "step": 1444 }, { "epoch": 0.07706666666666667, "grad_norm": 0.02443430176445531, "learning_rate": 0.0001, "loss": 0.9598, "step": 1445 }, { "epoch": 0.07712, "grad_norm": 0.025650934020766233, "learning_rate": 0.0001, "loss": 1.0197, "step": 1446 }, { "epoch": 0.07717333333333333, "grad_norm": 0.025306222577944112, "learning_rate": 0.0001, "loss": 1.0177, "step": 1447 }, { "epoch": 0.07722666666666667, "grad_norm": 0.0262292774417146, "learning_rate": 0.0001, "loss": 1.0197, "step": 1448 }, { "epoch": 0.07728, "grad_norm": 0.02423715147115418, "learning_rate": 0.0001, "loss": 1.0075, "step": 1449 }, { "epoch": 0.07733333333333334, "grad_norm": 0.0269984285530036, "learning_rate": 0.0001, "loss": 0.9424, "step": 1450 }, { "epoch": 0.07738666666666667, "grad_norm": 0.027126665281884288, "learning_rate": 0.0001, "loss": 0.9674, "step": 1451 }, { "epoch": 0.07744, "grad_norm": 0.03138624637334413, "learning_rate": 0.0001, "loss": 1.0467, "step": 1452 }, { "epoch": 0.07749333333333333, "grad_norm": 0.025883858553079165, "learning_rate": 0.0001, "loss": 1.0151, "step": 1453 }, { "epoch": 0.07754666666666667, "grad_norm": 0.026621442764872598, "learning_rate": 0.0001, "loss": 1.0041, "step": 1454 }, { "epoch": 0.0776, "grad_norm": 0.026600035609405836, "learning_rate": 0.0001, "loss": 0.9669, "step": 1455 }, { "epoch": 0.07765333333333334, "grad_norm": 0.026979302471470228, "learning_rate": 0.0001, "loss": 1.0647, "step": 1456 }, { "epoch": 0.07770666666666666, "grad_norm": 0.02832302052740779, "learning_rate": 0.0001, "loss": 0.9959, "step": 1457 }, { "epoch": 0.07776, "grad_norm": 0.025659184067769677, "learning_rate": 0.0001, "loss": 1.0264, "step": 1458 }, { "epoch": 0.07781333333333333, "grad_norm": 0.026696425896964915, "learning_rate": 0.0001, "loss": 1.0047, "step": 1459 }, { "epoch": 0.07786666666666667, "grad_norm": 0.033841330665127324, "learning_rate": 0.0001, "loss": 1.0042, "step": 1460 }, { "epoch": 0.07792, "grad_norm": 0.024588383268653955, "learning_rate": 0.0001, "loss": 1.0513, "step": 1461 }, { "epoch": 0.07797333333333334, "grad_norm": 0.026325632962495075, "learning_rate": 0.0001, "loss": 0.9982, "step": 1462 }, { "epoch": 0.07802666666666666, "grad_norm": 0.028131952107641987, "learning_rate": 0.0001, "loss": 0.8988, "step": 1463 }, { "epoch": 0.07808, "grad_norm": 0.026376107430261902, "learning_rate": 0.0001, "loss": 1.017, "step": 1464 }, { "epoch": 0.07813333333333333, "grad_norm": 0.027021427412766336, "learning_rate": 0.0001, "loss": 1.0823, "step": 1465 }, { "epoch": 0.07818666666666667, "grad_norm": 0.027418039478907977, "learning_rate": 0.0001, "loss": 1.0127, "step": 1466 }, { "epoch": 0.07824, "grad_norm": 0.027859472592700236, "learning_rate": 0.0001, "loss": 0.995, "step": 1467 }, { "epoch": 0.07829333333333334, "grad_norm": 0.03220011750691752, "learning_rate": 0.0001, "loss": 0.9895, "step": 1468 }, { "epoch": 0.07834666666666666, "grad_norm": 0.024319311801535546, "learning_rate": 0.0001, "loss": 0.9695, "step": 1469 }, { "epoch": 0.0784, "grad_norm": 0.030228615758626582, "learning_rate": 0.0001, "loss": 0.9871, "step": 1470 }, { "epoch": 0.07845333333333333, "grad_norm": 0.027359424539138564, "learning_rate": 0.0001, "loss": 1.0395, "step": 1471 }, { "epoch": 0.07850666666666667, "grad_norm": 0.024168730979594863, "learning_rate": 0.0001, "loss": 1.0692, "step": 1472 }, { "epoch": 0.07856, "grad_norm": 0.031135867672891226, "learning_rate": 0.0001, "loss": 1.0535, "step": 1473 }, { "epoch": 0.07861333333333333, "grad_norm": 0.026926637428491038, "learning_rate": 0.0001, "loss": 1.0062, "step": 1474 }, { "epoch": 0.07866666666666666, "grad_norm": 0.028662341515440545, "learning_rate": 0.0001, "loss": 1.0566, "step": 1475 }, { "epoch": 0.07872, "grad_norm": 0.02555852851103561, "learning_rate": 0.0001, "loss": 1.005, "step": 1476 }, { "epoch": 0.07877333333333333, "grad_norm": 0.02769242082125727, "learning_rate": 0.0001, "loss": 1.0038, "step": 1477 }, { "epoch": 0.07882666666666667, "grad_norm": 0.02592877474854719, "learning_rate": 0.0001, "loss": 1.0497, "step": 1478 }, { "epoch": 0.07888, "grad_norm": 0.028511490914730733, "learning_rate": 0.0001, "loss": 1.0497, "step": 1479 }, { "epoch": 0.07893333333333333, "grad_norm": 0.026296129709602985, "learning_rate": 0.0001, "loss": 0.974, "step": 1480 }, { "epoch": 0.07898666666666666, "grad_norm": 0.027506558456873793, "learning_rate": 0.0001, "loss": 1.0138, "step": 1481 }, { "epoch": 0.07904, "grad_norm": 0.026816889738867387, "learning_rate": 0.0001, "loss": 1.0429, "step": 1482 }, { "epoch": 0.07909333333333333, "grad_norm": 0.027649549516000096, "learning_rate": 0.0001, "loss": 1.0511, "step": 1483 }, { "epoch": 0.07914666666666667, "grad_norm": 0.024826594992913453, "learning_rate": 0.0001, "loss": 1.0643, "step": 1484 }, { "epoch": 0.0792, "grad_norm": 0.025550258031028415, "learning_rate": 0.0001, "loss": 1.0211, "step": 1485 }, { "epoch": 0.07925333333333333, "grad_norm": 0.026068139579292438, "learning_rate": 0.0001, "loss": 1.023, "step": 1486 }, { "epoch": 0.07930666666666666, "grad_norm": 0.027987411085139444, "learning_rate": 0.0001, "loss": 0.976, "step": 1487 }, { "epoch": 0.07936, "grad_norm": 0.025995164818431924, "learning_rate": 0.0001, "loss": 0.9762, "step": 1488 }, { "epoch": 0.07941333333333334, "grad_norm": 0.02833540118368808, "learning_rate": 0.0001, "loss": 1.0298, "step": 1489 }, { "epoch": 0.07946666666666667, "grad_norm": 0.024665815224698122, "learning_rate": 0.0001, "loss": 0.9892, "step": 1490 }, { "epoch": 0.07952, "grad_norm": 0.02639763830876645, "learning_rate": 0.0001, "loss": 0.9728, "step": 1491 }, { "epoch": 0.07957333333333333, "grad_norm": 0.027083752830472714, "learning_rate": 0.0001, "loss": 1.0421, "step": 1492 }, { "epoch": 0.07962666666666667, "grad_norm": 0.02655411754022525, "learning_rate": 0.0001, "loss": 0.9814, "step": 1493 }, { "epoch": 0.07968, "grad_norm": 0.02745146655196488, "learning_rate": 0.0001, "loss": 1.0033, "step": 1494 }, { "epoch": 0.07973333333333334, "grad_norm": 0.02445296371406402, "learning_rate": 0.0001, "loss": 1.0289, "step": 1495 }, { "epoch": 0.07978666666666667, "grad_norm": 0.028516743813376516, "learning_rate": 0.0001, "loss": 0.9617, "step": 1496 }, { "epoch": 0.07984, "grad_norm": 0.026085156464398792, "learning_rate": 0.0001, "loss": 0.9817, "step": 1497 }, { "epoch": 0.07989333333333333, "grad_norm": 0.025448896990108355, "learning_rate": 0.0001, "loss": 1.0075, "step": 1498 }, { "epoch": 0.07994666666666667, "grad_norm": 0.02560201252372325, "learning_rate": 0.0001, "loss": 1.0032, "step": 1499 }, { "epoch": 0.08, "grad_norm": 0.024802506952111763, "learning_rate": 0.0001, "loss": 1.0071, "step": 1500 }, { "epoch": 0.08005333333333334, "grad_norm": 0.025672595426071608, "learning_rate": 0.0001, "loss": 1.077, "step": 1501 }, { "epoch": 0.08010666666666667, "grad_norm": 0.028329502075389344, "learning_rate": 0.0001, "loss": 0.9638, "step": 1502 }, { "epoch": 0.08016, "grad_norm": 0.023923861830010384, "learning_rate": 0.0001, "loss": 1.0004, "step": 1503 }, { "epoch": 0.08021333333333333, "grad_norm": 0.024630270212932286, "learning_rate": 0.0001, "loss": 0.9656, "step": 1504 }, { "epoch": 0.08026666666666667, "grad_norm": 0.02704844848805633, "learning_rate": 0.0001, "loss": 1.0289, "step": 1505 }, { "epoch": 0.08032, "grad_norm": 0.02428959008146988, "learning_rate": 0.0001, "loss": 1.0621, "step": 1506 }, { "epoch": 0.08037333333333334, "grad_norm": 0.025446428535003868, "learning_rate": 0.0001, "loss": 1.0303, "step": 1507 }, { "epoch": 0.08042666666666666, "grad_norm": 0.02839200885346731, "learning_rate": 0.0001, "loss": 1.0285, "step": 1508 }, { "epoch": 0.08048, "grad_norm": 0.028788849504164264, "learning_rate": 0.0001, "loss": 1.0599, "step": 1509 }, { "epoch": 0.08053333333333333, "grad_norm": 0.025207757095997815, "learning_rate": 0.0001, "loss": 1.016, "step": 1510 }, { "epoch": 0.08058666666666667, "grad_norm": 0.02677842090881838, "learning_rate": 0.0001, "loss": 1.0219, "step": 1511 }, { "epoch": 0.08064, "grad_norm": 0.02565301183102452, "learning_rate": 0.0001, "loss": 0.9566, "step": 1512 }, { "epoch": 0.08069333333333334, "grad_norm": 0.026226111553809998, "learning_rate": 0.0001, "loss": 0.9885, "step": 1513 }, { "epoch": 0.08074666666666666, "grad_norm": 0.024709652161331516, "learning_rate": 0.0001, "loss": 1.0323, "step": 1514 }, { "epoch": 0.0808, "grad_norm": 0.025894945681426577, "learning_rate": 0.0001, "loss": 1.1411, "step": 1515 }, { "epoch": 0.08085333333333333, "grad_norm": 0.024529750482093982, "learning_rate": 0.0001, "loss": 1.0636, "step": 1516 }, { "epoch": 0.08090666666666667, "grad_norm": 0.02589059582040195, "learning_rate": 0.0001, "loss": 0.9808, "step": 1517 }, { "epoch": 0.08096, "grad_norm": 0.02702135080489518, "learning_rate": 0.0001, "loss": 0.9766, "step": 1518 }, { "epoch": 0.08101333333333334, "grad_norm": 0.026967181331547917, "learning_rate": 0.0001, "loss": 0.993, "step": 1519 }, { "epoch": 0.08106666666666666, "grad_norm": 0.025877032261151345, "learning_rate": 0.0001, "loss": 1.0639, "step": 1520 }, { "epoch": 0.08112, "grad_norm": 0.027165801429333742, "learning_rate": 0.0001, "loss": 0.974, "step": 1521 }, { "epoch": 0.08117333333333333, "grad_norm": 0.027568306939459185, "learning_rate": 0.0001, "loss": 0.9603, "step": 1522 }, { "epoch": 0.08122666666666667, "grad_norm": 0.025450710661348158, "learning_rate": 0.0001, "loss": 1.0379, "step": 1523 }, { "epoch": 0.08128, "grad_norm": 0.02512198460412537, "learning_rate": 0.0001, "loss": 1.037, "step": 1524 }, { "epoch": 0.08133333333333333, "grad_norm": 0.028772551346375894, "learning_rate": 0.0001, "loss": 1.0438, "step": 1525 }, { "epoch": 0.08138666666666666, "grad_norm": 0.026460648715757405, "learning_rate": 0.0001, "loss": 1.0365, "step": 1526 }, { "epoch": 0.08144, "grad_norm": 0.031349379049980426, "learning_rate": 0.0001, "loss": 1.0278, "step": 1527 }, { "epoch": 0.08149333333333333, "grad_norm": 0.02852689662496742, "learning_rate": 0.0001, "loss": 1.0098, "step": 1528 }, { "epoch": 0.08154666666666667, "grad_norm": 0.03016885115287303, "learning_rate": 0.0001, "loss": 1.0338, "step": 1529 }, { "epoch": 0.0816, "grad_norm": 0.02881736964158352, "learning_rate": 0.0001, "loss": 1.0535, "step": 1530 }, { "epoch": 0.08165333333333333, "grad_norm": 0.03129168134587699, "learning_rate": 0.0001, "loss": 1.0309, "step": 1531 }, { "epoch": 0.08170666666666666, "grad_norm": 0.03395029571148873, "learning_rate": 0.0001, "loss": 0.9953, "step": 1532 }, { "epoch": 0.08176, "grad_norm": 0.0284696254799978, "learning_rate": 0.0001, "loss": 1.0066, "step": 1533 }, { "epoch": 0.08181333333333334, "grad_norm": 0.031141181179036713, "learning_rate": 0.0001, "loss": 1.0188, "step": 1534 }, { "epoch": 0.08186666666666667, "grad_norm": 0.028889959278568304, "learning_rate": 0.0001, "loss": 1.013, "step": 1535 }, { "epoch": 0.08192, "grad_norm": 0.02923687668874673, "learning_rate": 0.0001, "loss": 1.0117, "step": 1536 }, { "epoch": 0.08197333333333333, "grad_norm": 0.03243264624480576, "learning_rate": 0.0001, "loss": 1.0265, "step": 1537 }, { "epoch": 0.08202666666666666, "grad_norm": 0.031751486896107274, "learning_rate": 0.0001, "loss": 1.0302, "step": 1538 }, { "epoch": 0.08208, "grad_norm": 0.026908536628659552, "learning_rate": 0.0001, "loss": 1.0122, "step": 1539 }, { "epoch": 0.08213333333333334, "grad_norm": 0.026452865475235277, "learning_rate": 0.0001, "loss": 1.0276, "step": 1540 }, { "epoch": 0.08218666666666667, "grad_norm": 0.02634122758876933, "learning_rate": 0.0001, "loss": 1.0399, "step": 1541 }, { "epoch": 0.08224, "grad_norm": 0.024462032214949813, "learning_rate": 0.0001, "loss": 1.042, "step": 1542 }, { "epoch": 0.08229333333333333, "grad_norm": 0.02886855025762443, "learning_rate": 0.0001, "loss": 1.0143, "step": 1543 }, { "epoch": 0.08234666666666667, "grad_norm": 0.024844432162052593, "learning_rate": 0.0001, "loss": 0.9774, "step": 1544 }, { "epoch": 0.0824, "grad_norm": 0.02667694241083205, "learning_rate": 0.0001, "loss": 1.0122, "step": 1545 }, { "epoch": 0.08245333333333334, "grad_norm": 0.027217021282552198, "learning_rate": 0.0001, "loss": 0.9581, "step": 1546 }, { "epoch": 0.08250666666666667, "grad_norm": 0.027402348497841726, "learning_rate": 0.0001, "loss": 1.004, "step": 1547 }, { "epoch": 0.08256, "grad_norm": 0.025271742904781912, "learning_rate": 0.0001, "loss": 1.0422, "step": 1548 }, { "epoch": 0.08261333333333333, "grad_norm": 0.028853498860755052, "learning_rate": 0.0001, "loss": 1.0393, "step": 1549 }, { "epoch": 0.08266666666666667, "grad_norm": 0.02637818554629524, "learning_rate": 0.0001, "loss": 0.9892, "step": 1550 }, { "epoch": 0.08272, "grad_norm": 0.027152391497240597, "learning_rate": 0.0001, "loss": 1.0197, "step": 1551 }, { "epoch": 0.08277333333333334, "grad_norm": 0.030990156635862773, "learning_rate": 0.0001, "loss": 0.9979, "step": 1552 }, { "epoch": 0.08282666666666667, "grad_norm": 0.027535614654092034, "learning_rate": 0.0001, "loss": 0.9746, "step": 1553 }, { "epoch": 0.08288, "grad_norm": 0.02923735550935302, "learning_rate": 0.0001, "loss": 1.0031, "step": 1554 }, { "epoch": 0.08293333333333333, "grad_norm": 0.02625690829483926, "learning_rate": 0.0001, "loss": 1.0894, "step": 1555 }, { "epoch": 0.08298666666666667, "grad_norm": 0.025239970946088996, "learning_rate": 0.0001, "loss": 1.0199, "step": 1556 }, { "epoch": 0.08304, "grad_norm": 0.02633667201976562, "learning_rate": 0.0001, "loss": 0.9639, "step": 1557 }, { "epoch": 0.08309333333333334, "grad_norm": 0.02729809787232353, "learning_rate": 0.0001, "loss": 1.0513, "step": 1558 }, { "epoch": 0.08314666666666666, "grad_norm": 0.029699752635502195, "learning_rate": 0.0001, "loss": 0.9995, "step": 1559 }, { "epoch": 0.0832, "grad_norm": 0.02481791339729372, "learning_rate": 0.0001, "loss": 1.0139, "step": 1560 }, { "epoch": 0.08325333333333333, "grad_norm": 0.027365490445984048, "learning_rate": 0.0001, "loss": 0.9835, "step": 1561 }, { "epoch": 0.08330666666666667, "grad_norm": 0.02472597973698374, "learning_rate": 0.0001, "loss": 1.0375, "step": 1562 }, { "epoch": 0.08336, "grad_norm": 0.027768346048782602, "learning_rate": 0.0001, "loss": 1.0305, "step": 1563 }, { "epoch": 0.08341333333333334, "grad_norm": 0.025728658318964568, "learning_rate": 0.0001, "loss": 0.9488, "step": 1564 }, { "epoch": 0.08346666666666666, "grad_norm": 0.02586553781614546, "learning_rate": 0.0001, "loss": 0.979, "step": 1565 }, { "epoch": 0.08352, "grad_norm": 0.02553693242261939, "learning_rate": 0.0001, "loss": 1.0683, "step": 1566 }, { "epoch": 0.08357333333333333, "grad_norm": 0.026735360596725873, "learning_rate": 0.0001, "loss": 0.9717, "step": 1567 }, { "epoch": 0.08362666666666667, "grad_norm": 0.026995346702144832, "learning_rate": 0.0001, "loss": 0.9823, "step": 1568 }, { "epoch": 0.08368, "grad_norm": 0.02578036468245732, "learning_rate": 0.0001, "loss": 1.1003, "step": 1569 }, { "epoch": 0.08373333333333334, "grad_norm": 0.02664008019348427, "learning_rate": 0.0001, "loss": 0.9939, "step": 1570 }, { "epoch": 0.08378666666666666, "grad_norm": 0.029823983044379082, "learning_rate": 0.0001, "loss": 1.0035, "step": 1571 }, { "epoch": 0.08384, "grad_norm": 0.023818900662485383, "learning_rate": 0.0001, "loss": 1.0078, "step": 1572 }, { "epoch": 0.08389333333333333, "grad_norm": 0.02435022822384678, "learning_rate": 0.0001, "loss": 1.0192, "step": 1573 }, { "epoch": 0.08394666666666667, "grad_norm": 0.02507708371610949, "learning_rate": 0.0001, "loss": 1.0177, "step": 1574 }, { "epoch": 0.084, "grad_norm": 0.023913553638367026, "learning_rate": 0.0001, "loss": 0.9483, "step": 1575 }, { "epoch": 0.08405333333333333, "grad_norm": 0.02568587703158502, "learning_rate": 0.0001, "loss": 1.0717, "step": 1576 }, { "epoch": 0.08410666666666666, "grad_norm": 0.025944895421864032, "learning_rate": 0.0001, "loss": 1.0526, "step": 1577 }, { "epoch": 0.08416, "grad_norm": 0.02646828619855901, "learning_rate": 0.0001, "loss": 0.9812, "step": 1578 }, { "epoch": 0.08421333333333333, "grad_norm": 0.025017327459500173, "learning_rate": 0.0001, "loss": 1.0247, "step": 1579 }, { "epoch": 0.08426666666666667, "grad_norm": 0.025283419385447873, "learning_rate": 0.0001, "loss": 1.0028, "step": 1580 }, { "epoch": 0.08432, "grad_norm": 0.027223075998950373, "learning_rate": 0.0001, "loss": 1.0855, "step": 1581 }, { "epoch": 0.08437333333333333, "grad_norm": 0.023793914633807686, "learning_rate": 0.0001, "loss": 1.0072, "step": 1582 }, { "epoch": 0.08442666666666666, "grad_norm": 0.02710413380255237, "learning_rate": 0.0001, "loss": 1.0395, "step": 1583 }, { "epoch": 0.08448, "grad_norm": 0.025049181167726087, "learning_rate": 0.0001, "loss": 0.97, "step": 1584 }, { "epoch": 0.08453333333333334, "grad_norm": 0.02629292705725318, "learning_rate": 0.0001, "loss": 1.0031, "step": 1585 }, { "epoch": 0.08458666666666667, "grad_norm": 0.02520748871995693, "learning_rate": 0.0001, "loss": 1.0103, "step": 1586 }, { "epoch": 0.08464, "grad_norm": 0.02843349929480919, "learning_rate": 0.0001, "loss": 1.0619, "step": 1587 }, { "epoch": 0.08469333333333333, "grad_norm": 0.026836174255504115, "learning_rate": 0.0001, "loss": 1.0073, "step": 1588 }, { "epoch": 0.08474666666666666, "grad_norm": 0.024843639483892115, "learning_rate": 0.0001, "loss": 1.0837, "step": 1589 }, { "epoch": 0.0848, "grad_norm": 0.030244325504555757, "learning_rate": 0.0001, "loss": 0.9761, "step": 1590 }, { "epoch": 0.08485333333333334, "grad_norm": 0.02657709651189101, "learning_rate": 0.0001, "loss": 1.0237, "step": 1591 }, { "epoch": 0.08490666666666667, "grad_norm": 0.02763528265193033, "learning_rate": 0.0001, "loss": 0.9971, "step": 1592 }, { "epoch": 0.08496, "grad_norm": 0.02706134080795604, "learning_rate": 0.0001, "loss": 1.0058, "step": 1593 }, { "epoch": 0.08501333333333333, "grad_norm": 0.026873050487400754, "learning_rate": 0.0001, "loss": 1.0049, "step": 1594 }, { "epoch": 0.08506666666666667, "grad_norm": 0.02625830900610149, "learning_rate": 0.0001, "loss": 1.0174, "step": 1595 }, { "epoch": 0.08512, "grad_norm": 0.025403924046330264, "learning_rate": 0.0001, "loss": 1.0057, "step": 1596 }, { "epoch": 0.08517333333333334, "grad_norm": 0.027074432906036717, "learning_rate": 0.0001, "loss": 0.9804, "step": 1597 }, { "epoch": 0.08522666666666667, "grad_norm": 0.02364806341704116, "learning_rate": 0.0001, "loss": 0.9883, "step": 1598 }, { "epoch": 0.08528, "grad_norm": 0.02643864527379029, "learning_rate": 0.0001, "loss": 1.0002, "step": 1599 }, { "epoch": 0.08533333333333333, "grad_norm": 0.027524541238944548, "learning_rate": 0.0001, "loss": 1.0438, "step": 1600 }, { "epoch": 0.08533333333333333, "eval_accuracy": 0.6111164200630435, "eval_loss": 1.4051686525344849, "eval_runtime": 62.3124, "eval_samples_per_second": 16.048, "eval_steps_per_second": 0.514, "step": 1600 }, { "epoch": 0.08538666666666667, "grad_norm": 0.024333860457797122, "learning_rate": 0.0001, "loss": 1.0056, "step": 1601 }, { "epoch": 0.08544, "grad_norm": 0.028871405646871996, "learning_rate": 0.0001, "loss": 0.996, "step": 1602 }, { "epoch": 0.08549333333333334, "grad_norm": 0.025524074282346144, "learning_rate": 0.0001, "loss": 1.0397, "step": 1603 }, { "epoch": 0.08554666666666666, "grad_norm": 0.027338458430915938, "learning_rate": 0.0001, "loss": 1.0328, "step": 1604 }, { "epoch": 0.0856, "grad_norm": 0.02718197945014735, "learning_rate": 0.0001, "loss": 1.0049, "step": 1605 }, { "epoch": 0.08565333333333333, "grad_norm": 0.027048704369950827, "learning_rate": 0.0001, "loss": 1.0459, "step": 1606 }, { "epoch": 0.08570666666666667, "grad_norm": 0.02761106787873851, "learning_rate": 0.0001, "loss": 1.0458, "step": 1607 }, { "epoch": 0.08576, "grad_norm": 0.02878431664877957, "learning_rate": 0.0001, "loss": 0.9668, "step": 1608 }, { "epoch": 0.08581333333333334, "grad_norm": 0.026939563731929548, "learning_rate": 0.0001, "loss": 1.0254, "step": 1609 }, { "epoch": 0.08586666666666666, "grad_norm": 0.025351258581296547, "learning_rate": 0.0001, "loss": 0.982, "step": 1610 }, { "epoch": 0.08592, "grad_norm": 0.025921022097349863, "learning_rate": 0.0001, "loss": 1.074, "step": 1611 }, { "epoch": 0.08597333333333333, "grad_norm": 0.026906411444533228, "learning_rate": 0.0001, "loss": 1.0487, "step": 1612 }, { "epoch": 0.08602666666666667, "grad_norm": 0.027938239313429567, "learning_rate": 0.0001, "loss": 1.0296, "step": 1613 }, { "epoch": 0.08608, "grad_norm": 0.03104342664970851, "learning_rate": 0.0001, "loss": 1.0354, "step": 1614 }, { "epoch": 0.08613333333333334, "grad_norm": 0.023911488479491448, "learning_rate": 0.0001, "loss": 1.0023, "step": 1615 }, { "epoch": 0.08618666666666666, "grad_norm": 0.02748881469877469, "learning_rate": 0.0001, "loss": 1.0316, "step": 1616 }, { "epoch": 0.08624, "grad_norm": 0.027981382134354804, "learning_rate": 0.0001, "loss": 0.9672, "step": 1617 }, { "epoch": 0.08629333333333333, "grad_norm": 0.02384819178907592, "learning_rate": 0.0001, "loss": 1.0193, "step": 1618 }, { "epoch": 0.08634666666666667, "grad_norm": 0.02682580440277934, "learning_rate": 0.0001, "loss": 1.058, "step": 1619 }, { "epoch": 0.0864, "grad_norm": 0.027393850021443702, "learning_rate": 0.0001, "loss": 1.0155, "step": 1620 }, { "epoch": 0.08645333333333333, "grad_norm": 0.025514055877307703, "learning_rate": 0.0001, "loss": 1.0987, "step": 1621 }, { "epoch": 0.08650666666666666, "grad_norm": 0.03246291050599303, "learning_rate": 0.0001, "loss": 0.9447, "step": 1622 }, { "epoch": 0.08656, "grad_norm": 0.03116930717625424, "learning_rate": 0.0001, "loss": 0.9727, "step": 1623 }, { "epoch": 0.08661333333333333, "grad_norm": 0.027942244165248268, "learning_rate": 0.0001, "loss": 0.994, "step": 1624 }, { "epoch": 0.08666666666666667, "grad_norm": 0.029544866859618355, "learning_rate": 0.0001, "loss": 0.9821, "step": 1625 }, { "epoch": 0.08672, "grad_norm": 0.027719445613050512, "learning_rate": 0.0001, "loss": 0.9928, "step": 1626 }, { "epoch": 0.08677333333333333, "grad_norm": 0.029063922189782414, "learning_rate": 0.0001, "loss": 0.9914, "step": 1627 }, { "epoch": 0.08682666666666666, "grad_norm": 0.026125284237836527, "learning_rate": 0.0001, "loss": 1.0221, "step": 1628 }, { "epoch": 0.08688, "grad_norm": 0.028649155519534477, "learning_rate": 0.0001, "loss": 0.9485, "step": 1629 }, { "epoch": 0.08693333333333333, "grad_norm": 0.02514183244715916, "learning_rate": 0.0001, "loss": 1.0246, "step": 1630 }, { "epoch": 0.08698666666666667, "grad_norm": 0.026914914148138295, "learning_rate": 0.0001, "loss": 1.0659, "step": 1631 }, { "epoch": 0.08704, "grad_norm": 0.026892289746215037, "learning_rate": 0.0001, "loss": 1.0238, "step": 1632 }, { "epoch": 0.08709333333333333, "grad_norm": 0.02780507037563323, "learning_rate": 0.0001, "loss": 1.0442, "step": 1633 }, { "epoch": 0.08714666666666666, "grad_norm": 0.02725497993423547, "learning_rate": 0.0001, "loss": 1.0028, "step": 1634 }, { "epoch": 0.0872, "grad_norm": 0.02454640770351659, "learning_rate": 0.0001, "loss": 1.0028, "step": 1635 }, { "epoch": 0.08725333333333334, "grad_norm": 0.02873437278170768, "learning_rate": 0.0001, "loss": 1.015, "step": 1636 }, { "epoch": 0.08730666666666667, "grad_norm": 0.02428603185801352, "learning_rate": 0.0001, "loss": 1.0086, "step": 1637 }, { "epoch": 0.08736, "grad_norm": 0.02395485818679434, "learning_rate": 0.0001, "loss": 1.0654, "step": 1638 }, { "epoch": 0.08741333333333333, "grad_norm": 0.025068727051273523, "learning_rate": 0.0001, "loss": 0.995, "step": 1639 }, { "epoch": 0.08746666666666666, "grad_norm": 0.02764220420059766, "learning_rate": 0.0001, "loss": 1.0253, "step": 1640 }, { "epoch": 0.08752, "grad_norm": 0.027516404586483915, "learning_rate": 0.0001, "loss": 1.0075, "step": 1641 }, { "epoch": 0.08757333333333334, "grad_norm": 0.027620191736511365, "learning_rate": 0.0001, "loss": 1.0056, "step": 1642 }, { "epoch": 0.08762666666666667, "grad_norm": 0.024105948224103578, "learning_rate": 0.0001, "loss": 1.025, "step": 1643 }, { "epoch": 0.08768, "grad_norm": 0.024704928453450233, "learning_rate": 0.0001, "loss": 0.9796, "step": 1644 }, { "epoch": 0.08773333333333333, "grad_norm": 0.02587444906541705, "learning_rate": 0.0001, "loss": 1.0034, "step": 1645 }, { "epoch": 0.08778666666666667, "grad_norm": 0.029882130682068617, "learning_rate": 0.0001, "loss": 1.0498, "step": 1646 }, { "epoch": 0.08784, "grad_norm": 0.023523680702732513, "learning_rate": 0.0001, "loss": 1.0134, "step": 1647 }, { "epoch": 0.08789333333333334, "grad_norm": 0.03161279412790102, "learning_rate": 0.0001, "loss": 0.9855, "step": 1648 }, { "epoch": 0.08794666666666667, "grad_norm": 0.026111464804400124, "learning_rate": 0.0001, "loss": 0.9874, "step": 1649 }, { "epoch": 0.088, "grad_norm": 0.02369524085610575, "learning_rate": 0.0001, "loss": 0.9638, "step": 1650 }, { "epoch": 0.08805333333333333, "grad_norm": 0.026724448795401586, "learning_rate": 0.0001, "loss": 0.993, "step": 1651 }, { "epoch": 0.08810666666666667, "grad_norm": 0.02434652811431213, "learning_rate": 0.0001, "loss": 1.0375, "step": 1652 }, { "epoch": 0.08816, "grad_norm": 0.02641802642256993, "learning_rate": 0.0001, "loss": 0.9669, "step": 1653 }, { "epoch": 0.08821333333333334, "grad_norm": 0.02704088025815972, "learning_rate": 0.0001, "loss": 1.0674, "step": 1654 }, { "epoch": 0.08826666666666666, "grad_norm": 0.026580655933756088, "learning_rate": 0.0001, "loss": 1.0324, "step": 1655 }, { "epoch": 0.08832, "grad_norm": 0.025541002932235494, "learning_rate": 0.0001, "loss": 0.9957, "step": 1656 }, { "epoch": 0.08837333333333333, "grad_norm": 0.02425335744978024, "learning_rate": 0.0001, "loss": 1.0396, "step": 1657 }, { "epoch": 0.08842666666666667, "grad_norm": 0.025029864562193624, "learning_rate": 0.0001, "loss": 0.9733, "step": 1658 }, { "epoch": 0.08848, "grad_norm": 0.0258564929170752, "learning_rate": 0.0001, "loss": 0.9763, "step": 1659 }, { "epoch": 0.08853333333333334, "grad_norm": 0.02532436277157024, "learning_rate": 0.0001, "loss": 1.0376, "step": 1660 }, { "epoch": 0.08858666666666666, "grad_norm": 0.02331636109425414, "learning_rate": 0.0001, "loss": 1.0454, "step": 1661 }, { "epoch": 0.08864, "grad_norm": 0.026312235223190022, "learning_rate": 0.0001, "loss": 1.0128, "step": 1662 }, { "epoch": 0.08869333333333333, "grad_norm": 0.02491033015725192, "learning_rate": 0.0001, "loss": 0.9808, "step": 1663 }, { "epoch": 0.08874666666666667, "grad_norm": 0.02454194957278418, "learning_rate": 0.0001, "loss": 1.0142, "step": 1664 }, { "epoch": 0.0888, "grad_norm": 0.02576786164535435, "learning_rate": 0.0001, "loss": 1.0284, "step": 1665 }, { "epoch": 0.08885333333333334, "grad_norm": 0.024897808986337595, "learning_rate": 0.0001, "loss": 1.0102, "step": 1666 }, { "epoch": 0.08890666666666666, "grad_norm": 0.027395751137081897, "learning_rate": 0.0001, "loss": 0.9939, "step": 1667 }, { "epoch": 0.08896, "grad_norm": 0.023969278879351286, "learning_rate": 0.0001, "loss": 0.9943, "step": 1668 }, { "epoch": 0.08901333333333333, "grad_norm": 0.028213584504482914, "learning_rate": 0.0001, "loss": 1.0293, "step": 1669 }, { "epoch": 0.08906666666666667, "grad_norm": 0.0262724947876903, "learning_rate": 0.0001, "loss": 0.9801, "step": 1670 }, { "epoch": 0.08912, "grad_norm": 0.02819361528058505, "learning_rate": 0.0001, "loss": 1.0, "step": 1671 }, { "epoch": 0.08917333333333333, "grad_norm": 0.026433207744932123, "learning_rate": 0.0001, "loss": 1.0716, "step": 1672 }, { "epoch": 0.08922666666666666, "grad_norm": 0.027583189213461916, "learning_rate": 0.0001, "loss": 0.9633, "step": 1673 }, { "epoch": 0.08928, "grad_norm": 0.03334037978148873, "learning_rate": 0.0001, "loss": 1.0258, "step": 1674 }, { "epoch": 0.08933333333333333, "grad_norm": 0.025799672207011414, "learning_rate": 0.0001, "loss": 0.9964, "step": 1675 }, { "epoch": 0.08938666666666667, "grad_norm": 0.030178915478207755, "learning_rate": 0.0001, "loss": 1.0152, "step": 1676 }, { "epoch": 0.08944, "grad_norm": 0.031286293077241574, "learning_rate": 0.0001, "loss": 1.0411, "step": 1677 }, { "epoch": 0.08949333333333333, "grad_norm": 0.026584444541368858, "learning_rate": 0.0001, "loss": 0.9999, "step": 1678 }, { "epoch": 0.08954666666666666, "grad_norm": 0.026960636323574913, "learning_rate": 0.0001, "loss": 0.9764, "step": 1679 }, { "epoch": 0.0896, "grad_norm": 0.027705183975991404, "learning_rate": 0.0001, "loss": 1.0469, "step": 1680 }, { "epoch": 0.08965333333333333, "grad_norm": 0.025136739959075987, "learning_rate": 0.0001, "loss": 1.0311, "step": 1681 }, { "epoch": 0.08970666666666667, "grad_norm": 0.026736461705802014, "learning_rate": 0.0001, "loss": 1.0173, "step": 1682 }, { "epoch": 0.08976, "grad_norm": 0.028525250848681818, "learning_rate": 0.0001, "loss": 1.0228, "step": 1683 }, { "epoch": 0.08981333333333333, "grad_norm": 0.02676341902486581, "learning_rate": 0.0001, "loss": 1.047, "step": 1684 }, { "epoch": 0.08986666666666666, "grad_norm": 0.024986884908375157, "learning_rate": 0.0001, "loss": 1.0229, "step": 1685 }, { "epoch": 0.08992, "grad_norm": 0.0271127230468846, "learning_rate": 0.0001, "loss": 0.9274, "step": 1686 }, { "epoch": 0.08997333333333334, "grad_norm": 0.02432142211509463, "learning_rate": 0.0001, "loss": 0.9596, "step": 1687 }, { "epoch": 0.09002666666666667, "grad_norm": 0.023718455176784132, "learning_rate": 0.0001, "loss": 1.0163, "step": 1688 }, { "epoch": 0.09008, "grad_norm": 0.025190807199383432, "learning_rate": 0.0001, "loss": 1.0467, "step": 1689 }, { "epoch": 0.09013333333333333, "grad_norm": 0.02679934260588532, "learning_rate": 0.0001, "loss": 1.0625, "step": 1690 }, { "epoch": 0.09018666666666666, "grad_norm": 0.02499328437889648, "learning_rate": 0.0001, "loss": 0.9813, "step": 1691 }, { "epoch": 0.09024, "grad_norm": 0.026114553358626526, "learning_rate": 0.0001, "loss": 0.9858, "step": 1692 }, { "epoch": 0.09029333333333334, "grad_norm": 0.02759223264635291, "learning_rate": 0.0001, "loss": 1.0597, "step": 1693 }, { "epoch": 0.09034666666666667, "grad_norm": 0.02477337762464771, "learning_rate": 0.0001, "loss": 0.9722, "step": 1694 }, { "epoch": 0.0904, "grad_norm": 0.030597370145696044, "learning_rate": 0.0001, "loss": 1.0009, "step": 1695 }, { "epoch": 0.09045333333333333, "grad_norm": 0.0269802342504588, "learning_rate": 0.0001, "loss": 1.0182, "step": 1696 }, { "epoch": 0.09050666666666667, "grad_norm": 0.028398027754227593, "learning_rate": 0.0001, "loss": 0.9681, "step": 1697 }, { "epoch": 0.09056, "grad_norm": 0.02632898383592627, "learning_rate": 0.0001, "loss": 1.0317, "step": 1698 }, { "epoch": 0.09061333333333334, "grad_norm": 0.026515849132896733, "learning_rate": 0.0001, "loss": 0.9844, "step": 1699 }, { "epoch": 0.09066666666666667, "grad_norm": 0.025155368958244148, "learning_rate": 0.0001, "loss": 1.0638, "step": 1700 }, { "epoch": 0.09072, "grad_norm": 0.027698319155554787, "learning_rate": 0.0001, "loss": 1.0095, "step": 1701 }, { "epoch": 0.09077333333333333, "grad_norm": 0.02797775958278094, "learning_rate": 0.0001, "loss": 1.0786, "step": 1702 }, { "epoch": 0.09082666666666667, "grad_norm": 0.024382992456232475, "learning_rate": 0.0001, "loss": 0.9912, "step": 1703 }, { "epoch": 0.09088, "grad_norm": 0.02952066494495971, "learning_rate": 0.0001, "loss": 0.9821, "step": 1704 }, { "epoch": 0.09093333333333334, "grad_norm": 0.02899875864966753, "learning_rate": 0.0001, "loss": 1.0077, "step": 1705 }, { "epoch": 0.09098666666666666, "grad_norm": 0.026592968723358867, "learning_rate": 0.0001, "loss": 1.0005, "step": 1706 }, { "epoch": 0.09104, "grad_norm": 0.030095527237822748, "learning_rate": 0.0001, "loss": 1.0524, "step": 1707 }, { "epoch": 0.09109333333333333, "grad_norm": 0.02715821974390595, "learning_rate": 0.0001, "loss": 1.0011, "step": 1708 }, { "epoch": 0.09114666666666667, "grad_norm": 0.027274376064868367, "learning_rate": 0.0001, "loss": 1.0054, "step": 1709 }, { "epoch": 0.0912, "grad_norm": 0.030510571714560775, "learning_rate": 0.0001, "loss": 0.9756, "step": 1710 }, { "epoch": 0.09125333333333334, "grad_norm": 0.026075248117775816, "learning_rate": 0.0001, "loss": 0.9185, "step": 1711 }, { "epoch": 0.09130666666666666, "grad_norm": 0.02689173076707366, "learning_rate": 0.0001, "loss": 1.0624, "step": 1712 }, { "epoch": 0.09136, "grad_norm": 0.024428361835030922, "learning_rate": 0.0001, "loss": 0.9844, "step": 1713 }, { "epoch": 0.09141333333333333, "grad_norm": 0.02846834767866163, "learning_rate": 0.0001, "loss": 0.9807, "step": 1714 }, { "epoch": 0.09146666666666667, "grad_norm": 0.027712228909874643, "learning_rate": 0.0001, "loss": 0.9749, "step": 1715 }, { "epoch": 0.09152, "grad_norm": 0.029249827378259485, "learning_rate": 0.0001, "loss": 0.9665, "step": 1716 }, { "epoch": 0.09157333333333334, "grad_norm": 0.02676265195772794, "learning_rate": 0.0001, "loss": 1.0787, "step": 1717 }, { "epoch": 0.09162666666666666, "grad_norm": 0.026417364972317784, "learning_rate": 0.0001, "loss": 1.0017, "step": 1718 }, { "epoch": 0.09168, "grad_norm": 0.02616057926094756, "learning_rate": 0.0001, "loss": 1.0432, "step": 1719 }, { "epoch": 0.09173333333333333, "grad_norm": 0.026234734860853134, "learning_rate": 0.0001, "loss": 0.9905, "step": 1720 }, { "epoch": 0.09178666666666667, "grad_norm": 0.02740101369343298, "learning_rate": 0.0001, "loss": 0.982, "step": 1721 }, { "epoch": 0.09184, "grad_norm": 0.024539701504416735, "learning_rate": 0.0001, "loss": 0.9917, "step": 1722 }, { "epoch": 0.09189333333333333, "grad_norm": 0.026474563542769735, "learning_rate": 0.0001, "loss": 0.9442, "step": 1723 }, { "epoch": 0.09194666666666666, "grad_norm": 0.024552329386387097, "learning_rate": 0.0001, "loss": 0.9935, "step": 1724 }, { "epoch": 0.092, "grad_norm": 0.023491981119751097, "learning_rate": 0.0001, "loss": 1.0291, "step": 1725 }, { "epoch": 0.09205333333333333, "grad_norm": 0.025442738392128725, "learning_rate": 0.0001, "loss": 1.0475, "step": 1726 }, { "epoch": 0.09210666666666667, "grad_norm": 0.02894522853190607, "learning_rate": 0.0001, "loss": 1.0067, "step": 1727 }, { "epoch": 0.09216, "grad_norm": 0.02563683882378615, "learning_rate": 0.0001, "loss": 1.0071, "step": 1728 }, { "epoch": 0.09221333333333333, "grad_norm": 0.025999817213072776, "learning_rate": 0.0001, "loss": 0.9715, "step": 1729 }, { "epoch": 0.09226666666666666, "grad_norm": 0.028409682757899516, "learning_rate": 0.0001, "loss": 1.0014, "step": 1730 }, { "epoch": 0.09232, "grad_norm": 0.025394641858095045, "learning_rate": 0.0001, "loss": 0.9869, "step": 1731 }, { "epoch": 0.09237333333333334, "grad_norm": 0.02526101493891038, "learning_rate": 0.0001, "loss": 0.9533, "step": 1732 }, { "epoch": 0.09242666666666667, "grad_norm": 0.028404987165490607, "learning_rate": 0.0001, "loss": 0.9978, "step": 1733 }, { "epoch": 0.09248, "grad_norm": 0.025651584142426888, "learning_rate": 0.0001, "loss": 1.0245, "step": 1734 }, { "epoch": 0.09253333333333333, "grad_norm": 0.02437145064307925, "learning_rate": 0.0001, "loss": 0.9909, "step": 1735 }, { "epoch": 0.09258666666666666, "grad_norm": 0.026212105608985792, "learning_rate": 0.0001, "loss": 1.0524, "step": 1736 }, { "epoch": 0.09264, "grad_norm": 0.027990822097352142, "learning_rate": 0.0001, "loss": 1.0271, "step": 1737 }, { "epoch": 0.09269333333333334, "grad_norm": 0.024368786657260787, "learning_rate": 0.0001, "loss": 1.033, "step": 1738 }, { "epoch": 0.09274666666666667, "grad_norm": 0.026037695697492907, "learning_rate": 0.0001, "loss": 0.9692, "step": 1739 }, { "epoch": 0.0928, "grad_norm": 0.027122951737729564, "learning_rate": 0.0001, "loss": 1.0466, "step": 1740 }, { "epoch": 0.09285333333333333, "grad_norm": 0.023528733016336824, "learning_rate": 0.0001, "loss": 1.0546, "step": 1741 }, { "epoch": 0.09290666666666667, "grad_norm": 0.02716075871002687, "learning_rate": 0.0001, "loss": 0.9757, "step": 1742 }, { "epoch": 0.09296, "grad_norm": 0.026061910702890774, "learning_rate": 0.0001, "loss": 1.0185, "step": 1743 }, { "epoch": 0.09301333333333334, "grad_norm": 0.025498591143851043, "learning_rate": 0.0001, "loss": 1.0075, "step": 1744 }, { "epoch": 0.09306666666666667, "grad_norm": 0.02753189620518896, "learning_rate": 0.0001, "loss": 0.9778, "step": 1745 }, { "epoch": 0.09312, "grad_norm": 0.026410139711493787, "learning_rate": 0.0001, "loss": 0.9939, "step": 1746 }, { "epoch": 0.09317333333333333, "grad_norm": 0.02352162010348392, "learning_rate": 0.0001, "loss": 0.9638, "step": 1747 }, { "epoch": 0.09322666666666667, "grad_norm": 0.025293605198432895, "learning_rate": 0.0001, "loss": 1.0098, "step": 1748 }, { "epoch": 0.09328, "grad_norm": 0.026499699243056417, "learning_rate": 0.0001, "loss": 0.9988, "step": 1749 }, { "epoch": 0.09333333333333334, "grad_norm": 0.024018577571171568, "learning_rate": 0.0001, "loss": 0.9883, "step": 1750 }, { "epoch": 0.09338666666666667, "grad_norm": 0.0258354690331234, "learning_rate": 0.0001, "loss": 0.9998, "step": 1751 }, { "epoch": 0.09344, "grad_norm": 0.027881464814561805, "learning_rate": 0.0001, "loss": 1.0046, "step": 1752 }, { "epoch": 0.09349333333333333, "grad_norm": 0.02734276690280944, "learning_rate": 0.0001, "loss": 0.9858, "step": 1753 }, { "epoch": 0.09354666666666667, "grad_norm": 0.023597517684438688, "learning_rate": 0.0001, "loss": 1.0529, "step": 1754 }, { "epoch": 0.0936, "grad_norm": 0.02523499115527569, "learning_rate": 0.0001, "loss": 0.9891, "step": 1755 }, { "epoch": 0.09365333333333334, "grad_norm": 0.026698421265167332, "learning_rate": 0.0001, "loss": 1.0022, "step": 1756 }, { "epoch": 0.09370666666666666, "grad_norm": 0.02572376629924787, "learning_rate": 0.0001, "loss": 1.0202, "step": 1757 }, { "epoch": 0.09376, "grad_norm": 0.026939146007016586, "learning_rate": 0.0001, "loss": 0.9981, "step": 1758 }, { "epoch": 0.09381333333333333, "grad_norm": 0.02469809148471521, "learning_rate": 0.0001, "loss": 1.0729, "step": 1759 }, { "epoch": 0.09386666666666667, "grad_norm": 0.024083144609128162, "learning_rate": 0.0001, "loss": 0.9581, "step": 1760 }, { "epoch": 0.09392, "grad_norm": 0.03286444010305604, "learning_rate": 0.0001, "loss": 0.9607, "step": 1761 }, { "epoch": 0.09397333333333334, "grad_norm": 0.02535318325816316, "learning_rate": 0.0001, "loss": 1.0391, "step": 1762 }, { "epoch": 0.09402666666666666, "grad_norm": 0.02609278320812464, "learning_rate": 0.0001, "loss": 0.9832, "step": 1763 }, { "epoch": 0.09408, "grad_norm": 0.0301802693528634, "learning_rate": 0.0001, "loss": 0.9418, "step": 1764 }, { "epoch": 0.09413333333333333, "grad_norm": 0.02674836627990494, "learning_rate": 0.0001, "loss": 0.9741, "step": 1765 }, { "epoch": 0.09418666666666667, "grad_norm": 0.02862390419340115, "learning_rate": 0.0001, "loss": 1.0038, "step": 1766 }, { "epoch": 0.09424, "grad_norm": 0.032028635798749795, "learning_rate": 0.0001, "loss": 1.0522, "step": 1767 }, { "epoch": 0.09429333333333334, "grad_norm": 0.02919962683289195, "learning_rate": 0.0001, "loss": 1.0422, "step": 1768 }, { "epoch": 0.09434666666666666, "grad_norm": 0.029720593006157026, "learning_rate": 0.0001, "loss": 0.9749, "step": 1769 }, { "epoch": 0.0944, "grad_norm": 0.028929824526491132, "learning_rate": 0.0001, "loss": 1.0072, "step": 1770 }, { "epoch": 0.09445333333333333, "grad_norm": 0.02551252284860104, "learning_rate": 0.0001, "loss": 0.9661, "step": 1771 }, { "epoch": 0.09450666666666667, "grad_norm": 0.02791962427811782, "learning_rate": 0.0001, "loss": 1.0586, "step": 1772 }, { "epoch": 0.09456, "grad_norm": 0.026555815047303703, "learning_rate": 0.0001, "loss": 0.9625, "step": 1773 }, { "epoch": 0.09461333333333333, "grad_norm": 0.029418712513713204, "learning_rate": 0.0001, "loss": 0.9615, "step": 1774 }, { "epoch": 0.09466666666666666, "grad_norm": 0.03439212182632328, "learning_rate": 0.0001, "loss": 1.0457, "step": 1775 }, { "epoch": 0.09472, "grad_norm": 0.027321044234176778, "learning_rate": 0.0001, "loss": 1.078, "step": 1776 }, { "epoch": 0.09477333333333333, "grad_norm": 0.030670738780217758, "learning_rate": 0.0001, "loss": 1.1129, "step": 1777 }, { "epoch": 0.09482666666666667, "grad_norm": 0.029383832265691454, "learning_rate": 0.0001, "loss": 0.9938, "step": 1778 }, { "epoch": 0.09488, "grad_norm": 0.02720325300478246, "learning_rate": 0.0001, "loss": 1.0402, "step": 1779 }, { "epoch": 0.09493333333333333, "grad_norm": 0.028869254098936505, "learning_rate": 0.0001, "loss": 0.9943, "step": 1780 }, { "epoch": 0.09498666666666666, "grad_norm": 0.031482732271876396, "learning_rate": 0.0001, "loss": 1.043, "step": 1781 }, { "epoch": 0.09504, "grad_norm": 0.027812352464561867, "learning_rate": 0.0001, "loss": 1.0623, "step": 1782 }, { "epoch": 0.09509333333333334, "grad_norm": 0.02795522155764562, "learning_rate": 0.0001, "loss": 0.9707, "step": 1783 }, { "epoch": 0.09514666666666667, "grad_norm": 0.027468503020127197, "learning_rate": 0.0001, "loss": 0.9858, "step": 1784 }, { "epoch": 0.0952, "grad_norm": 0.024921094476944523, "learning_rate": 0.0001, "loss": 0.9838, "step": 1785 }, { "epoch": 0.09525333333333333, "grad_norm": 0.027751712130999067, "learning_rate": 0.0001, "loss": 1.0585, "step": 1786 }, { "epoch": 0.09530666666666666, "grad_norm": 0.02837704226553712, "learning_rate": 0.0001, "loss": 0.9754, "step": 1787 }, { "epoch": 0.09536, "grad_norm": 0.02693760585726541, "learning_rate": 0.0001, "loss": 1.0319, "step": 1788 }, { "epoch": 0.09541333333333334, "grad_norm": 0.024990361247057558, "learning_rate": 0.0001, "loss": 1.0216, "step": 1789 }, { "epoch": 0.09546666666666667, "grad_norm": 0.028547143362786735, "learning_rate": 0.0001, "loss": 1.0228, "step": 1790 }, { "epoch": 0.09552, "grad_norm": 0.025239653871196078, "learning_rate": 0.0001, "loss": 0.9934, "step": 1791 }, { "epoch": 0.09557333333333333, "grad_norm": 0.03229651057235325, "learning_rate": 0.0001, "loss": 1.0224, "step": 1792 }, { "epoch": 0.09562666666666667, "grad_norm": 0.02750077221088778, "learning_rate": 0.0001, "loss": 1.0267, "step": 1793 }, { "epoch": 0.09568, "grad_norm": 0.02558573558556958, "learning_rate": 0.0001, "loss": 1.0002, "step": 1794 }, { "epoch": 0.09573333333333334, "grad_norm": 0.028222107457715147, "learning_rate": 0.0001, "loss": 0.9911, "step": 1795 }, { "epoch": 0.09578666666666667, "grad_norm": 0.027468523254279027, "learning_rate": 0.0001, "loss": 0.9948, "step": 1796 }, { "epoch": 0.09584, "grad_norm": 0.025223288196050308, "learning_rate": 0.0001, "loss": 1.0172, "step": 1797 }, { "epoch": 0.09589333333333333, "grad_norm": 0.026517673595087225, "learning_rate": 0.0001, "loss": 1.0282, "step": 1798 }, { "epoch": 0.09594666666666667, "grad_norm": 0.02647175800062843, "learning_rate": 0.0001, "loss": 0.9687, "step": 1799 }, { "epoch": 0.096, "grad_norm": 0.02717602330948198, "learning_rate": 0.0001, "loss": 1.0288, "step": 1800 }, { "epoch": 0.096, "eval_accuracy": 0.6117149061834115, "eval_loss": 1.4017579555511475, "eval_runtime": 63.9275, "eval_samples_per_second": 15.643, "eval_steps_per_second": 0.501, "step": 1800 }, { "epoch": 0.09605333333333334, "grad_norm": 0.026474170603097015, "learning_rate": 0.0001, "loss": 1.0126, "step": 1801 }, { "epoch": 0.09610666666666667, "grad_norm": 0.024332581358247896, "learning_rate": 0.0001, "loss": 0.9759, "step": 1802 }, { "epoch": 0.09616, "grad_norm": 0.027823690981710756, "learning_rate": 0.0001, "loss": 0.9734, "step": 1803 }, { "epoch": 0.09621333333333333, "grad_norm": 0.025689156649572973, "learning_rate": 0.0001, "loss": 1.0184, "step": 1804 }, { "epoch": 0.09626666666666667, "grad_norm": 0.028318192894736794, "learning_rate": 0.0001, "loss": 1.0668, "step": 1805 }, { "epoch": 0.09632, "grad_norm": 0.024948618317884128, "learning_rate": 0.0001, "loss": 0.9993, "step": 1806 }, { "epoch": 0.09637333333333334, "grad_norm": 0.025092836099335887, "learning_rate": 0.0001, "loss": 1.0153, "step": 1807 }, { "epoch": 0.09642666666666666, "grad_norm": 0.02868225498337703, "learning_rate": 0.0001, "loss": 1.059, "step": 1808 }, { "epoch": 0.09648, "grad_norm": 0.027579504013672918, "learning_rate": 0.0001, "loss": 1.0522, "step": 1809 }, { "epoch": 0.09653333333333333, "grad_norm": 0.023955397764145323, "learning_rate": 0.0001, "loss": 1.0164, "step": 1810 }, { "epoch": 0.09658666666666667, "grad_norm": 0.027131767205174347, "learning_rate": 0.0001, "loss": 1.0027, "step": 1811 }, { "epoch": 0.09664, "grad_norm": 0.02637946898112252, "learning_rate": 0.0001, "loss": 0.9864, "step": 1812 }, { "epoch": 0.09669333333333334, "grad_norm": 0.0249877761111989, "learning_rate": 0.0001, "loss": 0.9751, "step": 1813 }, { "epoch": 0.09674666666666666, "grad_norm": 0.02435569218021375, "learning_rate": 0.0001, "loss": 1.0086, "step": 1814 }, { "epoch": 0.0968, "grad_norm": 0.026471375545286908, "learning_rate": 0.0001, "loss": 0.9889, "step": 1815 }, { "epoch": 0.09685333333333333, "grad_norm": 0.02705057781996632, "learning_rate": 0.0001, "loss": 1.0217, "step": 1816 }, { "epoch": 0.09690666666666667, "grad_norm": 0.024508447914617214, "learning_rate": 0.0001, "loss": 1.0135, "step": 1817 }, { "epoch": 0.09696, "grad_norm": 0.02471515119382699, "learning_rate": 0.0001, "loss": 1.0235, "step": 1818 }, { "epoch": 0.09701333333333333, "grad_norm": 0.02519809349355615, "learning_rate": 0.0001, "loss": 0.9898, "step": 1819 }, { "epoch": 0.09706666666666666, "grad_norm": 0.027894246158050605, "learning_rate": 0.0001, "loss": 1.0288, "step": 1820 }, { "epoch": 0.09712, "grad_norm": 0.02650671061756029, "learning_rate": 0.0001, "loss": 1.0679, "step": 1821 }, { "epoch": 0.09717333333333333, "grad_norm": 0.026982299988329017, "learning_rate": 0.0001, "loss": 1.0334, "step": 1822 }, { "epoch": 0.09722666666666667, "grad_norm": 0.027720655944704537, "learning_rate": 0.0001, "loss": 1.04, "step": 1823 }, { "epoch": 0.09728, "grad_norm": 0.028951348718284337, "learning_rate": 0.0001, "loss": 1.0055, "step": 1824 }, { "epoch": 0.09733333333333333, "grad_norm": 0.026756757646060433, "learning_rate": 0.0001, "loss": 1.0684, "step": 1825 }, { "epoch": 0.09738666666666666, "grad_norm": 0.028343509352317667, "learning_rate": 0.0001, "loss": 0.9862, "step": 1826 }, { "epoch": 0.09744, "grad_norm": 0.028011296921425913, "learning_rate": 0.0001, "loss": 0.9897, "step": 1827 }, { "epoch": 0.09749333333333333, "grad_norm": 0.02820925690620987, "learning_rate": 0.0001, "loss": 0.9548, "step": 1828 }, { "epoch": 0.09754666666666667, "grad_norm": 0.029122488372928138, "learning_rate": 0.0001, "loss": 1.0019, "step": 1829 }, { "epoch": 0.0976, "grad_norm": 0.029938284161811022, "learning_rate": 0.0001, "loss": 1.0387, "step": 1830 }, { "epoch": 0.09765333333333333, "grad_norm": 0.026110081154672758, "learning_rate": 0.0001, "loss": 1.0171, "step": 1831 }, { "epoch": 0.09770666666666666, "grad_norm": 0.03180641510840036, "learning_rate": 0.0001, "loss": 1.0626, "step": 1832 }, { "epoch": 0.09776, "grad_norm": 0.031391791359206146, "learning_rate": 0.0001, "loss": 0.9944, "step": 1833 }, { "epoch": 0.09781333333333334, "grad_norm": 0.03036022022416799, "learning_rate": 0.0001, "loss": 1.0262, "step": 1834 }, { "epoch": 0.09786666666666667, "grad_norm": 0.030569257426462083, "learning_rate": 0.0001, "loss": 1.0132, "step": 1835 }, { "epoch": 0.09792, "grad_norm": 0.029279558116151655, "learning_rate": 0.0001, "loss": 1.0221, "step": 1836 }, { "epoch": 0.09797333333333333, "grad_norm": 0.025776614016403392, "learning_rate": 0.0001, "loss": 0.978, "step": 1837 }, { "epoch": 0.09802666666666666, "grad_norm": 0.027116568659026848, "learning_rate": 0.0001, "loss": 1.0044, "step": 1838 }, { "epoch": 0.09808, "grad_norm": 0.02862946957222765, "learning_rate": 0.0001, "loss": 1.0068, "step": 1839 }, { "epoch": 0.09813333333333334, "grad_norm": 0.026582030847286064, "learning_rate": 0.0001, "loss": 1.0898, "step": 1840 }, { "epoch": 0.09818666666666667, "grad_norm": 0.027558736708423723, "learning_rate": 0.0001, "loss": 0.9958, "step": 1841 }, { "epoch": 0.09824, "grad_norm": 0.026918146332382112, "learning_rate": 0.0001, "loss": 1.0365, "step": 1842 }, { "epoch": 0.09829333333333333, "grad_norm": 0.026220423836761764, "learning_rate": 0.0001, "loss": 1.0427, "step": 1843 }, { "epoch": 0.09834666666666667, "grad_norm": 0.027341757737839867, "learning_rate": 0.0001, "loss": 1.0327, "step": 1844 }, { "epoch": 0.0984, "grad_norm": 0.03077203941912083, "learning_rate": 0.0001, "loss": 1.0647, "step": 1845 }, { "epoch": 0.09845333333333334, "grad_norm": 0.024721607580795137, "learning_rate": 0.0001, "loss": 0.9791, "step": 1846 }, { "epoch": 0.09850666666666667, "grad_norm": 0.026722780123306807, "learning_rate": 0.0001, "loss": 0.9718, "step": 1847 }, { "epoch": 0.09856, "grad_norm": 0.02822684111347732, "learning_rate": 0.0001, "loss": 1.0117, "step": 1848 }, { "epoch": 0.09861333333333333, "grad_norm": 0.02546732186006609, "learning_rate": 0.0001, "loss": 0.9597, "step": 1849 }, { "epoch": 0.09866666666666667, "grad_norm": 0.02769913557590931, "learning_rate": 0.0001, "loss": 1.0134, "step": 1850 }, { "epoch": 0.09872, "grad_norm": 0.025367627036535854, "learning_rate": 0.0001, "loss": 1.0284, "step": 1851 }, { "epoch": 0.09877333333333334, "grad_norm": 0.025516870154589193, "learning_rate": 0.0001, "loss": 1.0267, "step": 1852 }, { "epoch": 0.09882666666666666, "grad_norm": 0.02850170173129112, "learning_rate": 0.0001, "loss": 1.0197, "step": 1853 }, { "epoch": 0.09888, "grad_norm": 0.024316710862384343, "learning_rate": 0.0001, "loss": 0.9934, "step": 1854 }, { "epoch": 0.09893333333333333, "grad_norm": 0.027704142445614345, "learning_rate": 0.0001, "loss": 1.0285, "step": 1855 }, { "epoch": 0.09898666666666667, "grad_norm": 0.026212797075420326, "learning_rate": 0.0001, "loss": 1.0365, "step": 1856 }, { "epoch": 0.09904, "grad_norm": 0.02655944895114864, "learning_rate": 0.0001, "loss": 0.9826, "step": 1857 }, { "epoch": 0.09909333333333334, "grad_norm": 0.024671669543793826, "learning_rate": 0.0001, "loss": 0.9688, "step": 1858 }, { "epoch": 0.09914666666666666, "grad_norm": 0.024421498576460532, "learning_rate": 0.0001, "loss": 0.9964, "step": 1859 }, { "epoch": 0.0992, "grad_norm": 0.023854420082805937, "learning_rate": 0.0001, "loss": 1.0023, "step": 1860 }, { "epoch": 0.09925333333333333, "grad_norm": 0.02428955736881184, "learning_rate": 0.0001, "loss": 0.9708, "step": 1861 }, { "epoch": 0.09930666666666667, "grad_norm": 0.026649005740785735, "learning_rate": 0.0001, "loss": 0.9576, "step": 1862 }, { "epoch": 0.09936, "grad_norm": 0.027735739310567723, "learning_rate": 0.0001, "loss": 1.0374, "step": 1863 }, { "epoch": 0.09941333333333334, "grad_norm": 0.024455062062683542, "learning_rate": 0.0001, "loss": 1.0154, "step": 1864 }, { "epoch": 0.09946666666666666, "grad_norm": 0.024040579326079864, "learning_rate": 0.0001, "loss": 1.0439, "step": 1865 }, { "epoch": 0.09952, "grad_norm": 0.026970134807268998, "learning_rate": 0.0001, "loss": 1.0242, "step": 1866 }, { "epoch": 0.09957333333333333, "grad_norm": 0.025892452018809558, "learning_rate": 0.0001, "loss": 0.9627, "step": 1867 }, { "epoch": 0.09962666666666667, "grad_norm": 0.027867194156961827, "learning_rate": 0.0001, "loss": 1.0216, "step": 1868 }, { "epoch": 0.09968, "grad_norm": 0.0243704870711029, "learning_rate": 0.0001, "loss": 0.9606, "step": 1869 }, { "epoch": 0.09973333333333333, "grad_norm": 0.028308412592797896, "learning_rate": 0.0001, "loss": 1.0777, "step": 1870 }, { "epoch": 0.09978666666666666, "grad_norm": 0.027009309904881117, "learning_rate": 0.0001, "loss": 1.0945, "step": 1871 }, { "epoch": 0.09984, "grad_norm": 0.02863369094801097, "learning_rate": 0.0001, "loss": 0.9993, "step": 1872 }, { "epoch": 0.09989333333333333, "grad_norm": 0.025717993922258098, "learning_rate": 0.0001, "loss": 1.0429, "step": 1873 }, { "epoch": 0.09994666666666667, "grad_norm": 0.026863420998601537, "learning_rate": 0.0001, "loss": 1.0125, "step": 1874 }, { "epoch": 0.1, "grad_norm": 0.02583073216285001, "learning_rate": 0.0001, "loss": 0.9977, "step": 1875 }, { "epoch": 0.10005333333333333, "grad_norm": 0.0276424618591933, "learning_rate": 0.0001, "loss": 1.0497, "step": 1876 }, { "epoch": 0.10010666666666666, "grad_norm": 0.024954585680697965, "learning_rate": 0.0001, "loss": 0.9936, "step": 1877 }, { "epoch": 0.10016, "grad_norm": 0.025946171754408123, "learning_rate": 0.0001, "loss": 1.0016, "step": 1878 }, { "epoch": 0.10021333333333333, "grad_norm": 0.02709503114111363, "learning_rate": 0.0001, "loss": 1.0261, "step": 1879 }, { "epoch": 0.10026666666666667, "grad_norm": 0.02563694793596819, "learning_rate": 0.0001, "loss": 1.0654, "step": 1880 }, { "epoch": 0.10032, "grad_norm": 0.02477156782106925, "learning_rate": 0.0001, "loss": 1.0201, "step": 1881 }, { "epoch": 0.10037333333333333, "grad_norm": 0.02551557701433031, "learning_rate": 0.0001, "loss": 0.9832, "step": 1882 }, { "epoch": 0.10042666666666666, "grad_norm": 0.02570531366445619, "learning_rate": 0.0001, "loss": 1.0165, "step": 1883 }, { "epoch": 0.10048, "grad_norm": 0.02399273575370972, "learning_rate": 0.0001, "loss": 1.0362, "step": 1884 }, { "epoch": 0.10053333333333334, "grad_norm": 0.024072758475031313, "learning_rate": 0.0001, "loss": 0.9879, "step": 1885 }, { "epoch": 0.10058666666666667, "grad_norm": 0.02433747128627947, "learning_rate": 0.0001, "loss": 1.1223, "step": 1886 }, { "epoch": 0.10064, "grad_norm": 0.03303525614659945, "learning_rate": 0.0001, "loss": 1.0714, "step": 1887 }, { "epoch": 0.10069333333333333, "grad_norm": 0.02332029137483146, "learning_rate": 0.0001, "loss": 1.0364, "step": 1888 }, { "epoch": 0.10074666666666666, "grad_norm": 0.02777416592039625, "learning_rate": 0.0001, "loss": 0.9786, "step": 1889 }, { "epoch": 0.1008, "grad_norm": 0.025270277818516276, "learning_rate": 0.0001, "loss": 1.0121, "step": 1890 }, { "epoch": 0.10085333333333334, "grad_norm": 0.025404611992190868, "learning_rate": 0.0001, "loss": 0.9427, "step": 1891 }, { "epoch": 0.10090666666666667, "grad_norm": 0.026128368207249158, "learning_rate": 0.0001, "loss": 0.9763, "step": 1892 }, { "epoch": 0.10096, "grad_norm": 0.02442779372121171, "learning_rate": 0.0001, "loss": 0.9795, "step": 1893 }, { "epoch": 0.10101333333333333, "grad_norm": 0.02487319894098852, "learning_rate": 0.0001, "loss": 1.0199, "step": 1894 }, { "epoch": 0.10106666666666667, "grad_norm": 0.023395152764658922, "learning_rate": 0.0001, "loss": 0.9748, "step": 1895 }, { "epoch": 0.10112, "grad_norm": 0.02510831742104269, "learning_rate": 0.0001, "loss": 1.0951, "step": 1896 }, { "epoch": 0.10117333333333334, "grad_norm": 0.024851943473627423, "learning_rate": 0.0001, "loss": 0.9566, "step": 1897 }, { "epoch": 0.10122666666666667, "grad_norm": 0.024322109316710198, "learning_rate": 0.0001, "loss": 1.028, "step": 1898 }, { "epoch": 0.10128, "grad_norm": 0.02333669161288907, "learning_rate": 0.0001, "loss": 1.0325, "step": 1899 }, { "epoch": 0.10133333333333333, "grad_norm": 0.024147932672948177, "learning_rate": 0.0001, "loss": 0.9924, "step": 1900 }, { "epoch": 0.10138666666666667, "grad_norm": 0.024903475437280883, "learning_rate": 0.0001, "loss": 0.9794, "step": 1901 }, { "epoch": 0.10144, "grad_norm": 0.026711218139195605, "learning_rate": 0.0001, "loss": 1.0366, "step": 1902 }, { "epoch": 0.10149333333333334, "grad_norm": 0.02484719580986286, "learning_rate": 0.0001, "loss": 1.0002, "step": 1903 }, { "epoch": 0.10154666666666666, "grad_norm": 0.02906016147654106, "learning_rate": 0.0001, "loss": 1.0155, "step": 1904 }, { "epoch": 0.1016, "grad_norm": 0.02614413787796812, "learning_rate": 0.0001, "loss": 1.0569, "step": 1905 }, { "epoch": 0.10165333333333333, "grad_norm": 0.027502067753524612, "learning_rate": 0.0001, "loss": 1.0825, "step": 1906 }, { "epoch": 0.10170666666666667, "grad_norm": 0.025413807720129338, "learning_rate": 0.0001, "loss": 1.0558, "step": 1907 }, { "epoch": 0.10176, "grad_norm": 0.026141474564551452, "learning_rate": 0.0001, "loss": 0.9856, "step": 1908 }, { "epoch": 0.10181333333333334, "grad_norm": 0.024715573803985463, "learning_rate": 0.0001, "loss": 1.0171, "step": 1909 }, { "epoch": 0.10186666666666666, "grad_norm": 0.029804406447989595, "learning_rate": 0.0001, "loss": 1.0213, "step": 1910 }, { "epoch": 0.10192, "grad_norm": 0.027504463726386142, "learning_rate": 0.0001, "loss": 0.9805, "step": 1911 }, { "epoch": 0.10197333333333333, "grad_norm": 0.025145610773627345, "learning_rate": 0.0001, "loss": 1.0126, "step": 1912 }, { "epoch": 0.10202666666666667, "grad_norm": 0.03093082703882014, "learning_rate": 0.0001, "loss": 1.0231, "step": 1913 }, { "epoch": 0.10208, "grad_norm": 0.02851026308543958, "learning_rate": 0.0001, "loss": 1.053, "step": 1914 }, { "epoch": 0.10213333333333334, "grad_norm": 0.027187190166202586, "learning_rate": 0.0001, "loss": 0.972, "step": 1915 }, { "epoch": 0.10218666666666666, "grad_norm": 0.02791952218613602, "learning_rate": 0.0001, "loss": 0.9744, "step": 1916 }, { "epoch": 0.10224, "grad_norm": 0.031260068552164115, "learning_rate": 0.0001, "loss": 1.0133, "step": 1917 }, { "epoch": 0.10229333333333333, "grad_norm": 0.024601403397165423, "learning_rate": 0.0001, "loss": 1.014, "step": 1918 }, { "epoch": 0.10234666666666667, "grad_norm": 0.029228849255080486, "learning_rate": 0.0001, "loss": 0.9682, "step": 1919 }, { "epoch": 0.1024, "grad_norm": 0.029265121470891196, "learning_rate": 0.0001, "loss": 1.0137, "step": 1920 }, { "epoch": 0.10245333333333333, "grad_norm": 0.026853127011340867, "learning_rate": 0.0001, "loss": 0.9647, "step": 1921 }, { "epoch": 0.10250666666666666, "grad_norm": 0.029246142836743927, "learning_rate": 0.0001, "loss": 1.0383, "step": 1922 }, { "epoch": 0.10256, "grad_norm": 0.025856190939471526, "learning_rate": 0.0001, "loss": 1.0007, "step": 1923 }, { "epoch": 0.10261333333333333, "grad_norm": 0.0267755548079927, "learning_rate": 0.0001, "loss": 0.9806, "step": 1924 }, { "epoch": 0.10266666666666667, "grad_norm": 0.026690684977771387, "learning_rate": 0.0001, "loss": 1.038, "step": 1925 }, { "epoch": 0.10272, "grad_norm": 0.026618639866638587, "learning_rate": 0.0001, "loss": 0.9954, "step": 1926 }, { "epoch": 0.10277333333333333, "grad_norm": 0.02596768822875572, "learning_rate": 0.0001, "loss": 0.9701, "step": 1927 }, { "epoch": 0.10282666666666666, "grad_norm": 0.028649441489260408, "learning_rate": 0.0001, "loss": 0.9695, "step": 1928 }, { "epoch": 0.10288, "grad_norm": 0.026475914507270742, "learning_rate": 0.0001, "loss": 1.0406, "step": 1929 }, { "epoch": 0.10293333333333334, "grad_norm": 0.027746107603944192, "learning_rate": 0.0001, "loss": 1.001, "step": 1930 }, { "epoch": 0.10298666666666667, "grad_norm": 0.02657877018326379, "learning_rate": 0.0001, "loss": 1.0202, "step": 1931 }, { "epoch": 0.10304, "grad_norm": 0.02999225571761472, "learning_rate": 0.0001, "loss": 0.9689, "step": 1932 }, { "epoch": 0.10309333333333333, "grad_norm": 0.02461548146482592, "learning_rate": 0.0001, "loss": 1.0252, "step": 1933 }, { "epoch": 0.10314666666666666, "grad_norm": 0.025478776721493405, "learning_rate": 0.0001, "loss": 1.0344, "step": 1934 }, { "epoch": 0.1032, "grad_norm": 0.027208605498652963, "learning_rate": 0.0001, "loss": 0.9965, "step": 1935 }, { "epoch": 0.10325333333333334, "grad_norm": 0.02392304188911514, "learning_rate": 0.0001, "loss": 1.0177, "step": 1936 }, { "epoch": 0.10330666666666667, "grad_norm": 0.026268404338796923, "learning_rate": 0.0001, "loss": 0.9459, "step": 1937 }, { "epoch": 0.10336, "grad_norm": 0.026412222358779425, "learning_rate": 0.0001, "loss": 1.0084, "step": 1938 }, { "epoch": 0.10341333333333333, "grad_norm": 0.025308864875314037, "learning_rate": 0.0001, "loss": 0.9879, "step": 1939 }, { "epoch": 0.10346666666666667, "grad_norm": 0.02683519855809526, "learning_rate": 0.0001, "loss": 0.9522, "step": 1940 }, { "epoch": 0.10352, "grad_norm": 0.02487007182962759, "learning_rate": 0.0001, "loss": 0.9756, "step": 1941 }, { "epoch": 0.10357333333333334, "grad_norm": 0.02548284013803566, "learning_rate": 0.0001, "loss": 1.0293, "step": 1942 }, { "epoch": 0.10362666666666667, "grad_norm": 0.027483480805573564, "learning_rate": 0.0001, "loss": 0.9829, "step": 1943 }, { "epoch": 0.10368, "grad_norm": 0.025357852215251633, "learning_rate": 0.0001, "loss": 1.02, "step": 1944 }, { "epoch": 0.10373333333333333, "grad_norm": 0.024417443712794525, "learning_rate": 0.0001, "loss": 1.0342, "step": 1945 }, { "epoch": 0.10378666666666667, "grad_norm": 0.025212515050863245, "learning_rate": 0.0001, "loss": 1.0261, "step": 1946 }, { "epoch": 0.10384, "grad_norm": 0.02715287927450849, "learning_rate": 0.0001, "loss": 1.0888, "step": 1947 }, { "epoch": 0.10389333333333334, "grad_norm": 0.02464481080682214, "learning_rate": 0.0001, "loss": 0.9871, "step": 1948 }, { "epoch": 0.10394666666666667, "grad_norm": 0.025267557867188442, "learning_rate": 0.0001, "loss": 1.0083, "step": 1949 }, { "epoch": 0.104, "grad_norm": 0.026403671552678303, "learning_rate": 0.0001, "loss": 0.9942, "step": 1950 }, { "epoch": 0.10405333333333333, "grad_norm": 0.02660930428931585, "learning_rate": 0.0001, "loss": 0.993, "step": 1951 }, { "epoch": 0.10410666666666667, "grad_norm": 0.02559204134810665, "learning_rate": 0.0001, "loss": 0.9865, "step": 1952 }, { "epoch": 0.10416, "grad_norm": 0.02833656163479924, "learning_rate": 0.0001, "loss": 0.9698, "step": 1953 }, { "epoch": 0.10421333333333334, "grad_norm": 0.025026132686761626, "learning_rate": 0.0001, "loss": 1.0321, "step": 1954 }, { "epoch": 0.10426666666666666, "grad_norm": 0.027099366214257754, "learning_rate": 0.0001, "loss": 1.0077, "step": 1955 }, { "epoch": 0.10432, "grad_norm": 0.026555571292262853, "learning_rate": 0.0001, "loss": 0.975, "step": 1956 }, { "epoch": 0.10437333333333333, "grad_norm": 0.02766922898797857, "learning_rate": 0.0001, "loss": 0.9683, "step": 1957 }, { "epoch": 0.10442666666666667, "grad_norm": 0.027884693599386702, "learning_rate": 0.0001, "loss": 1.0072, "step": 1958 }, { "epoch": 0.10448, "grad_norm": 0.02750964309412206, "learning_rate": 0.0001, "loss": 1.0463, "step": 1959 }, { "epoch": 0.10453333333333334, "grad_norm": 0.027391580582628857, "learning_rate": 0.0001, "loss": 1.0194, "step": 1960 }, { "epoch": 0.10458666666666666, "grad_norm": 0.028291123470079015, "learning_rate": 0.0001, "loss": 1.0661, "step": 1961 }, { "epoch": 0.10464, "grad_norm": 0.024367357579490802, "learning_rate": 0.0001, "loss": 1.0243, "step": 1962 }, { "epoch": 0.10469333333333333, "grad_norm": 0.026896705245996903, "learning_rate": 0.0001, "loss": 1.048, "step": 1963 }, { "epoch": 0.10474666666666667, "grad_norm": 0.024014784925605673, "learning_rate": 0.0001, "loss": 0.9792, "step": 1964 }, { "epoch": 0.1048, "grad_norm": 0.02624009237364406, "learning_rate": 0.0001, "loss": 0.9993, "step": 1965 }, { "epoch": 0.10485333333333334, "grad_norm": 0.026485778716663005, "learning_rate": 0.0001, "loss": 1.0184, "step": 1966 }, { "epoch": 0.10490666666666666, "grad_norm": 0.02696097436545561, "learning_rate": 0.0001, "loss": 0.9764, "step": 1967 }, { "epoch": 0.10496, "grad_norm": 0.025456156688193687, "learning_rate": 0.0001, "loss": 1.0692, "step": 1968 }, { "epoch": 0.10501333333333333, "grad_norm": 0.025841252224660004, "learning_rate": 0.0001, "loss": 0.9954, "step": 1969 }, { "epoch": 0.10506666666666667, "grad_norm": 0.026600776297318815, "learning_rate": 0.0001, "loss": 1.03, "step": 1970 }, { "epoch": 0.10512, "grad_norm": 0.024445464919730178, "learning_rate": 0.0001, "loss": 1.0116, "step": 1971 }, { "epoch": 0.10517333333333333, "grad_norm": 0.027320711199589585, "learning_rate": 0.0001, "loss": 1.0304, "step": 1972 }, { "epoch": 0.10522666666666666, "grad_norm": 0.0271909061216866, "learning_rate": 0.0001, "loss": 0.9916, "step": 1973 }, { "epoch": 0.10528, "grad_norm": 0.02668642502060246, "learning_rate": 0.0001, "loss": 0.9963, "step": 1974 }, { "epoch": 0.10533333333333333, "grad_norm": 0.02692076832247553, "learning_rate": 0.0001, "loss": 1.0576, "step": 1975 }, { "epoch": 0.10538666666666667, "grad_norm": 0.02911911198221922, "learning_rate": 0.0001, "loss": 0.9963, "step": 1976 }, { "epoch": 0.10544, "grad_norm": 0.026305641868667337, "learning_rate": 0.0001, "loss": 1.0539, "step": 1977 }, { "epoch": 0.10549333333333333, "grad_norm": 0.027819519887910694, "learning_rate": 0.0001, "loss": 1.0299, "step": 1978 }, { "epoch": 0.10554666666666666, "grad_norm": 0.028878339990009338, "learning_rate": 0.0001, "loss": 1.0267, "step": 1979 }, { "epoch": 0.1056, "grad_norm": 0.024715884763626402, "learning_rate": 0.0001, "loss": 0.9883, "step": 1980 }, { "epoch": 0.10565333333333334, "grad_norm": 0.026698224581276256, "learning_rate": 0.0001, "loss": 1.0324, "step": 1981 }, { "epoch": 0.10570666666666667, "grad_norm": 0.026797746759935723, "learning_rate": 0.0001, "loss": 1.0273, "step": 1982 }, { "epoch": 0.10576, "grad_norm": 0.02637697289529258, "learning_rate": 0.0001, "loss": 1.036, "step": 1983 }, { "epoch": 0.10581333333333333, "grad_norm": 0.027490889894038525, "learning_rate": 0.0001, "loss": 1.0662, "step": 1984 }, { "epoch": 0.10586666666666666, "grad_norm": 0.028784755916305305, "learning_rate": 0.0001, "loss": 1.0738, "step": 1985 }, { "epoch": 0.10592, "grad_norm": 0.026430533461847344, "learning_rate": 0.0001, "loss": 1.0255, "step": 1986 }, { "epoch": 0.10597333333333334, "grad_norm": 0.02771385361866348, "learning_rate": 0.0001, "loss": 0.9523, "step": 1987 }, { "epoch": 0.10602666666666667, "grad_norm": 0.025820626387133817, "learning_rate": 0.0001, "loss": 1.0057, "step": 1988 }, { "epoch": 0.10608, "grad_norm": 0.02501093499965385, "learning_rate": 0.0001, "loss": 0.956, "step": 1989 }, { "epoch": 0.10613333333333333, "grad_norm": 0.025393065878287234, "learning_rate": 0.0001, "loss": 0.9771, "step": 1990 }, { "epoch": 0.10618666666666667, "grad_norm": 0.02433525861005163, "learning_rate": 0.0001, "loss": 1.0222, "step": 1991 }, { "epoch": 0.10624, "grad_norm": 0.025743988477036673, "learning_rate": 0.0001, "loss": 1.0, "step": 1992 }, { "epoch": 0.10629333333333334, "grad_norm": 0.024186730462006176, "learning_rate": 0.0001, "loss": 1.0019, "step": 1993 }, { "epoch": 0.10634666666666667, "grad_norm": 0.024408849496376284, "learning_rate": 0.0001, "loss": 0.9596, "step": 1994 }, { "epoch": 0.1064, "grad_norm": 0.02531392651852765, "learning_rate": 0.0001, "loss": 1.0181, "step": 1995 }, { "epoch": 0.10645333333333333, "grad_norm": 0.02397712578046048, "learning_rate": 0.0001, "loss": 0.9416, "step": 1996 }, { "epoch": 0.10650666666666667, "grad_norm": 0.0249083873345864, "learning_rate": 0.0001, "loss": 0.9916, "step": 1997 }, { "epoch": 0.10656, "grad_norm": 0.02596409446287122, "learning_rate": 0.0001, "loss": 0.9965, "step": 1998 }, { "epoch": 0.10661333333333334, "grad_norm": 0.02387360256428351, "learning_rate": 0.0001, "loss": 0.9894, "step": 1999 }, { "epoch": 0.10666666666666667, "grad_norm": 0.027009784346743636, "learning_rate": 0.0001, "loss": 0.9834, "step": 2000 }, { "epoch": 0.10666666666666667, "eval_accuracy": 0.6123432930393983, "eval_loss": 1.3981534242630005, "eval_runtime": 63.8076, "eval_samples_per_second": 15.672, "eval_steps_per_second": 0.502, "step": 2000 }, { "epoch": 0.10672, "grad_norm": 0.027742784353426045, "learning_rate": 0.0001, "loss": 1.0317, "step": 2001 }, { "epoch": 0.10677333333333333, "grad_norm": 0.027769249333219316, "learning_rate": 0.0001, "loss": 1.0201, "step": 2002 }, { "epoch": 0.10682666666666667, "grad_norm": 0.026781943052861093, "learning_rate": 0.0001, "loss": 1.055, "step": 2003 }, { "epoch": 0.10688, "grad_norm": 0.02779960157225846, "learning_rate": 0.0001, "loss": 1.0161, "step": 2004 }, { "epoch": 0.10693333333333334, "grad_norm": 0.025469473704442438, "learning_rate": 0.0001, "loss": 0.9938, "step": 2005 }, { "epoch": 0.10698666666666666, "grad_norm": 0.023461746510397025, "learning_rate": 0.0001, "loss": 0.9738, "step": 2006 }, { "epoch": 0.10704, "grad_norm": 0.02535358148092865, "learning_rate": 0.0001, "loss": 1.0215, "step": 2007 }, { "epoch": 0.10709333333333333, "grad_norm": 0.024463807766439652, "learning_rate": 0.0001, "loss": 0.9905, "step": 2008 }, { "epoch": 0.10714666666666667, "grad_norm": 0.025121991933841827, "learning_rate": 0.0001, "loss": 1.0117, "step": 2009 }, { "epoch": 0.1072, "grad_norm": 0.025142435222194854, "learning_rate": 0.0001, "loss": 0.9703, "step": 2010 }, { "epoch": 0.10725333333333334, "grad_norm": 0.026532337434997024, "learning_rate": 0.0001, "loss": 0.9579, "step": 2011 }, { "epoch": 0.10730666666666666, "grad_norm": 0.025678967032873416, "learning_rate": 0.0001, "loss": 1.0187, "step": 2012 }, { "epoch": 0.10736, "grad_norm": 0.02638969883814826, "learning_rate": 0.0001, "loss": 1.0282, "step": 2013 }, { "epoch": 0.10741333333333333, "grad_norm": 0.027287102957817756, "learning_rate": 0.0001, "loss": 1.0369, "step": 2014 }, { "epoch": 0.10746666666666667, "grad_norm": 0.02433789329818884, "learning_rate": 0.0001, "loss": 1.0052, "step": 2015 }, { "epoch": 0.10752, "grad_norm": 0.026432855369620846, "learning_rate": 0.0001, "loss": 0.9944, "step": 2016 }, { "epoch": 0.10757333333333334, "grad_norm": 0.0250285047702418, "learning_rate": 0.0001, "loss": 1.0139, "step": 2017 }, { "epoch": 0.10762666666666666, "grad_norm": 0.025969295652722393, "learning_rate": 0.0001, "loss": 1.0158, "step": 2018 }, { "epoch": 0.10768, "grad_norm": 0.026765351775885002, "learning_rate": 0.0001, "loss": 0.9992, "step": 2019 }, { "epoch": 0.10773333333333333, "grad_norm": 0.028706935050714335, "learning_rate": 0.0001, "loss": 1.0171, "step": 2020 }, { "epoch": 0.10778666666666667, "grad_norm": 0.02514746546500298, "learning_rate": 0.0001, "loss": 1.0394, "step": 2021 }, { "epoch": 0.10784, "grad_norm": 0.0276558051163848, "learning_rate": 0.0001, "loss": 1.0834, "step": 2022 }, { "epoch": 0.10789333333333333, "grad_norm": 0.029356735832268208, "learning_rate": 0.0001, "loss": 1.0651, "step": 2023 }, { "epoch": 0.10794666666666666, "grad_norm": 0.02426845761695361, "learning_rate": 0.0001, "loss": 0.9704, "step": 2024 }, { "epoch": 0.108, "grad_norm": 0.025014991705868496, "learning_rate": 0.0001, "loss": 0.9445, "step": 2025 }, { "epoch": 0.10805333333333333, "grad_norm": 0.024023155685142905, "learning_rate": 0.0001, "loss": 1.0757, "step": 2026 }, { "epoch": 0.10810666666666667, "grad_norm": 0.023053028889462587, "learning_rate": 0.0001, "loss": 0.9697, "step": 2027 }, { "epoch": 0.10816, "grad_norm": 0.025082387792870926, "learning_rate": 0.0001, "loss": 1.0642, "step": 2028 }, { "epoch": 0.10821333333333333, "grad_norm": 0.024912207721723933, "learning_rate": 0.0001, "loss": 1.0268, "step": 2029 }, { "epoch": 0.10826666666666666, "grad_norm": 0.027902969002500187, "learning_rate": 0.0001, "loss": 1.0534, "step": 2030 }, { "epoch": 0.10832, "grad_norm": 0.025225899202238954, "learning_rate": 0.0001, "loss": 1.0273, "step": 2031 }, { "epoch": 0.10837333333333334, "grad_norm": 0.028384338649014844, "learning_rate": 0.0001, "loss": 1.0325, "step": 2032 }, { "epoch": 0.10842666666666667, "grad_norm": 0.02722072073030891, "learning_rate": 0.0001, "loss": 0.9999, "step": 2033 }, { "epoch": 0.10848, "grad_norm": 0.02491788083447504, "learning_rate": 0.0001, "loss": 1.0347, "step": 2034 }, { "epoch": 0.10853333333333333, "grad_norm": 0.027438717639746334, "learning_rate": 0.0001, "loss": 0.9803, "step": 2035 }, { "epoch": 0.10858666666666666, "grad_norm": 0.027217281258194913, "learning_rate": 0.0001, "loss": 0.9943, "step": 2036 }, { "epoch": 0.10864, "grad_norm": 0.02860720024638957, "learning_rate": 0.0001, "loss": 1.0149, "step": 2037 }, { "epoch": 0.10869333333333334, "grad_norm": 0.028686436736618588, "learning_rate": 0.0001, "loss": 1.0185, "step": 2038 }, { "epoch": 0.10874666666666667, "grad_norm": 0.027651875297500104, "learning_rate": 0.0001, "loss": 1.0512, "step": 2039 }, { "epoch": 0.1088, "grad_norm": 0.029419184242827155, "learning_rate": 0.0001, "loss": 0.9836, "step": 2040 }, { "epoch": 0.10885333333333333, "grad_norm": 0.028633842914572116, "learning_rate": 0.0001, "loss": 0.9793, "step": 2041 }, { "epoch": 0.10890666666666667, "grad_norm": 0.02608425873008601, "learning_rate": 0.0001, "loss": 1.0022, "step": 2042 }, { "epoch": 0.10896, "grad_norm": 0.02848020612327443, "learning_rate": 0.0001, "loss": 0.9612, "step": 2043 }, { "epoch": 0.10901333333333334, "grad_norm": 0.025439913900451142, "learning_rate": 0.0001, "loss": 1.0482, "step": 2044 }, { "epoch": 0.10906666666666667, "grad_norm": 0.027209960957807634, "learning_rate": 0.0001, "loss": 0.9895, "step": 2045 }, { "epoch": 0.10912, "grad_norm": 0.02957948621369767, "learning_rate": 0.0001, "loss": 0.9869, "step": 2046 }, { "epoch": 0.10917333333333333, "grad_norm": 0.02719346865932927, "learning_rate": 0.0001, "loss": 0.9945, "step": 2047 }, { "epoch": 0.10922666666666667, "grad_norm": 0.026246616476969225, "learning_rate": 0.0001, "loss": 0.9828, "step": 2048 }, { "epoch": 0.10928, "grad_norm": 0.030369343364549398, "learning_rate": 0.0001, "loss": 1.0008, "step": 2049 }, { "epoch": 0.10933333333333334, "grad_norm": 0.027175235093055555, "learning_rate": 0.0001, "loss": 1.071, "step": 2050 }, { "epoch": 0.10938666666666666, "grad_norm": 0.026846670429355204, "learning_rate": 0.0001, "loss": 1.0316, "step": 2051 }, { "epoch": 0.10944, "grad_norm": 0.026511130866680003, "learning_rate": 0.0001, "loss": 1.0199, "step": 2052 }, { "epoch": 0.10949333333333333, "grad_norm": 0.031949039533228495, "learning_rate": 0.0001, "loss": 1.0403, "step": 2053 }, { "epoch": 0.10954666666666667, "grad_norm": 0.02557427169446271, "learning_rate": 0.0001, "loss": 0.9929, "step": 2054 }, { "epoch": 0.1096, "grad_norm": 0.02604242031391767, "learning_rate": 0.0001, "loss": 0.9868, "step": 2055 }, { "epoch": 0.10965333333333334, "grad_norm": 0.028615658723816117, "learning_rate": 0.0001, "loss": 1.0614, "step": 2056 }, { "epoch": 0.10970666666666666, "grad_norm": 0.024816087769466352, "learning_rate": 0.0001, "loss": 0.964, "step": 2057 }, { "epoch": 0.10976, "grad_norm": 0.026815582701237864, "learning_rate": 0.0001, "loss": 0.9889, "step": 2058 }, { "epoch": 0.10981333333333333, "grad_norm": 0.0262103891548872, "learning_rate": 0.0001, "loss": 1.064, "step": 2059 }, { "epoch": 0.10986666666666667, "grad_norm": 0.025708121771794955, "learning_rate": 0.0001, "loss": 1.021, "step": 2060 }, { "epoch": 0.10992, "grad_norm": 0.027747267004105354, "learning_rate": 0.0001, "loss": 1.0043, "step": 2061 }, { "epoch": 0.10997333333333334, "grad_norm": 0.02484047787658274, "learning_rate": 0.0001, "loss": 1.0267, "step": 2062 }, { "epoch": 0.11002666666666666, "grad_norm": 0.027922309626286668, "learning_rate": 0.0001, "loss": 1.0056, "step": 2063 }, { "epoch": 0.11008, "grad_norm": 0.025017010434681238, "learning_rate": 0.0001, "loss": 0.9845, "step": 2064 }, { "epoch": 0.11013333333333333, "grad_norm": 0.0248505692191287, "learning_rate": 0.0001, "loss": 0.9815, "step": 2065 }, { "epoch": 0.11018666666666667, "grad_norm": 0.029069271241668932, "learning_rate": 0.0001, "loss": 0.9557, "step": 2066 }, { "epoch": 0.11024, "grad_norm": 0.02548443556454319, "learning_rate": 0.0001, "loss": 1.0262, "step": 2067 }, { "epoch": 0.11029333333333333, "grad_norm": 0.028869277951330336, "learning_rate": 0.0001, "loss": 1.0355, "step": 2068 }, { "epoch": 0.11034666666666666, "grad_norm": 0.02637719041733675, "learning_rate": 0.0001, "loss": 0.9955, "step": 2069 }, { "epoch": 0.1104, "grad_norm": 0.025214657186896777, "learning_rate": 0.0001, "loss": 1.0306, "step": 2070 }, { "epoch": 0.11045333333333333, "grad_norm": 0.0275084818588604, "learning_rate": 0.0001, "loss": 1.0145, "step": 2071 }, { "epoch": 0.11050666666666667, "grad_norm": 0.025966631301063817, "learning_rate": 0.0001, "loss": 1.0139, "step": 2072 }, { "epoch": 0.11056, "grad_norm": 0.024043813656554454, "learning_rate": 0.0001, "loss": 1.0357, "step": 2073 }, { "epoch": 0.11061333333333333, "grad_norm": 0.026358396195291314, "learning_rate": 0.0001, "loss": 1.0868, "step": 2074 }, { "epoch": 0.11066666666666666, "grad_norm": 0.02733722459492818, "learning_rate": 0.0001, "loss": 1.0452, "step": 2075 }, { "epoch": 0.11072, "grad_norm": 0.026535197720730642, "learning_rate": 0.0001, "loss": 1.0739, "step": 2076 }, { "epoch": 0.11077333333333333, "grad_norm": 0.02685990440864437, "learning_rate": 0.0001, "loss": 1.0622, "step": 2077 }, { "epoch": 0.11082666666666667, "grad_norm": 0.026634582996653902, "learning_rate": 0.0001, "loss": 0.9661, "step": 2078 }, { "epoch": 0.11088, "grad_norm": 0.027176844352423287, "learning_rate": 0.0001, "loss": 1.0066, "step": 2079 }, { "epoch": 0.11093333333333333, "grad_norm": 0.02575597278270332, "learning_rate": 0.0001, "loss": 1.043, "step": 2080 }, { "epoch": 0.11098666666666666, "grad_norm": 0.024559954273952165, "learning_rate": 0.0001, "loss": 0.9954, "step": 2081 }, { "epoch": 0.11104, "grad_norm": 0.024950386761133706, "learning_rate": 0.0001, "loss": 1.0307, "step": 2082 }, { "epoch": 0.11109333333333334, "grad_norm": 0.023868522128561987, "learning_rate": 0.0001, "loss": 1.0059, "step": 2083 }, { "epoch": 0.11114666666666667, "grad_norm": 0.026421875590016245, "learning_rate": 0.0001, "loss": 0.991, "step": 2084 }, { "epoch": 0.1112, "grad_norm": 0.023669395488374222, "learning_rate": 0.0001, "loss": 1.0959, "step": 2085 }, { "epoch": 0.11125333333333333, "grad_norm": 0.024661938863483116, "learning_rate": 0.0001, "loss": 0.9973, "step": 2086 }, { "epoch": 0.11130666666666666, "grad_norm": 0.023881553735706013, "learning_rate": 0.0001, "loss": 1.0164, "step": 2087 }, { "epoch": 0.11136, "grad_norm": 0.02488575308248183, "learning_rate": 0.0001, "loss": 1.0158, "step": 2088 }, { "epoch": 0.11141333333333334, "grad_norm": 0.02443067274307477, "learning_rate": 0.0001, "loss": 1.0233, "step": 2089 }, { "epoch": 0.11146666666666667, "grad_norm": 0.02393087303245719, "learning_rate": 0.0001, "loss": 1.071, "step": 2090 }, { "epoch": 0.11152, "grad_norm": 0.02510129848522317, "learning_rate": 0.0001, "loss": 0.9475, "step": 2091 }, { "epoch": 0.11157333333333333, "grad_norm": 0.024360672155185965, "learning_rate": 0.0001, "loss": 1.0372, "step": 2092 }, { "epoch": 0.11162666666666667, "grad_norm": 0.027495095082865333, "learning_rate": 0.0001, "loss": 1.0217, "step": 2093 }, { "epoch": 0.11168, "grad_norm": 0.024597163069599224, "learning_rate": 0.0001, "loss": 1.0061, "step": 2094 }, { "epoch": 0.11173333333333334, "grad_norm": 0.02548759606357906, "learning_rate": 0.0001, "loss": 0.9649, "step": 2095 }, { "epoch": 0.11178666666666667, "grad_norm": 0.02388532768351436, "learning_rate": 0.0001, "loss": 1.0662, "step": 2096 }, { "epoch": 0.11184, "grad_norm": 0.025241366364395747, "learning_rate": 0.0001, "loss": 1.0156, "step": 2097 }, { "epoch": 0.11189333333333333, "grad_norm": 0.024283780621253408, "learning_rate": 0.0001, "loss": 1.0131, "step": 2098 }, { "epoch": 0.11194666666666667, "grad_norm": 0.02397924849142294, "learning_rate": 0.0001, "loss": 1.0048, "step": 2099 }, { "epoch": 0.112, "grad_norm": 0.02394590902714468, "learning_rate": 0.0001, "loss": 1.0271, "step": 2100 }, { "epoch": 0.11205333333333334, "grad_norm": 0.026508119620060958, "learning_rate": 0.0001, "loss": 1.031, "step": 2101 }, { "epoch": 0.11210666666666666, "grad_norm": 0.023689860835280314, "learning_rate": 0.0001, "loss": 0.9904, "step": 2102 }, { "epoch": 0.11216, "grad_norm": 0.024299791428500254, "learning_rate": 0.0001, "loss": 1.0448, "step": 2103 }, { "epoch": 0.11221333333333333, "grad_norm": 0.024697222950058634, "learning_rate": 0.0001, "loss": 1.0385, "step": 2104 }, { "epoch": 0.11226666666666667, "grad_norm": 0.025070019023772858, "learning_rate": 0.0001, "loss": 1.0007, "step": 2105 }, { "epoch": 0.11232, "grad_norm": 0.024426040661199272, "learning_rate": 0.0001, "loss": 0.9113, "step": 2106 }, { "epoch": 0.11237333333333334, "grad_norm": 0.025437384340030518, "learning_rate": 0.0001, "loss": 0.9971, "step": 2107 }, { "epoch": 0.11242666666666666, "grad_norm": 0.024405281651730414, "learning_rate": 0.0001, "loss": 0.9844, "step": 2108 }, { "epoch": 0.11248, "grad_norm": 0.026111820242574746, "learning_rate": 0.0001, "loss": 1.0253, "step": 2109 }, { "epoch": 0.11253333333333333, "grad_norm": 0.025403810037248894, "learning_rate": 0.0001, "loss": 0.9857, "step": 2110 }, { "epoch": 0.11258666666666667, "grad_norm": 0.02344339304681239, "learning_rate": 0.0001, "loss": 1.0136, "step": 2111 }, { "epoch": 0.11264, "grad_norm": 0.02547941289802202, "learning_rate": 0.0001, "loss": 1.0168, "step": 2112 }, { "epoch": 0.11269333333333334, "grad_norm": 0.02653567149376508, "learning_rate": 0.0001, "loss": 0.9623, "step": 2113 }, { "epoch": 0.11274666666666666, "grad_norm": 0.025806705609436546, "learning_rate": 0.0001, "loss": 1.015, "step": 2114 }, { "epoch": 0.1128, "grad_norm": 0.02632978171864206, "learning_rate": 0.0001, "loss": 1.0087, "step": 2115 }, { "epoch": 0.11285333333333333, "grad_norm": 0.028726545421277293, "learning_rate": 0.0001, "loss": 0.9882, "step": 2116 }, { "epoch": 0.11290666666666667, "grad_norm": 0.029537317447038802, "learning_rate": 0.0001, "loss": 0.9521, "step": 2117 }, { "epoch": 0.11296, "grad_norm": 0.025566935821927088, "learning_rate": 0.0001, "loss": 1.0387, "step": 2118 }, { "epoch": 0.11301333333333333, "grad_norm": 0.026348353325164157, "learning_rate": 0.0001, "loss": 0.9907, "step": 2119 }, { "epoch": 0.11306666666666666, "grad_norm": 0.028456596938348695, "learning_rate": 0.0001, "loss": 1.0282, "step": 2120 }, { "epoch": 0.11312, "grad_norm": 0.025711155782399922, "learning_rate": 0.0001, "loss": 1.019, "step": 2121 }, { "epoch": 0.11317333333333333, "grad_norm": 0.026831048992979282, "learning_rate": 0.0001, "loss": 1.0554, "step": 2122 }, { "epoch": 0.11322666666666667, "grad_norm": 0.026519774545114165, "learning_rate": 0.0001, "loss": 1.0441, "step": 2123 }, { "epoch": 0.11328, "grad_norm": 0.02561187419602871, "learning_rate": 0.0001, "loss": 1.0174, "step": 2124 }, { "epoch": 0.11333333333333333, "grad_norm": 0.02499713023744051, "learning_rate": 0.0001, "loss": 1.0321, "step": 2125 }, { "epoch": 0.11338666666666666, "grad_norm": 0.027188142557324994, "learning_rate": 0.0001, "loss": 0.9944, "step": 2126 }, { "epoch": 0.11344, "grad_norm": 0.025829479945882833, "learning_rate": 0.0001, "loss": 0.9972, "step": 2127 }, { "epoch": 0.11349333333333333, "grad_norm": 0.025590529280256548, "learning_rate": 0.0001, "loss": 1.0417, "step": 2128 }, { "epoch": 0.11354666666666667, "grad_norm": 0.025105861896526208, "learning_rate": 0.0001, "loss": 0.978, "step": 2129 }, { "epoch": 0.1136, "grad_norm": 0.02478240323442967, "learning_rate": 0.0001, "loss": 0.9708, "step": 2130 }, { "epoch": 0.11365333333333333, "grad_norm": 0.026729487245765175, "learning_rate": 0.0001, "loss": 1.0075, "step": 2131 }, { "epoch": 0.11370666666666666, "grad_norm": 0.024163514705901116, "learning_rate": 0.0001, "loss": 1.0083, "step": 2132 }, { "epoch": 0.11376, "grad_norm": 0.0251970161349959, "learning_rate": 0.0001, "loss": 1.0404, "step": 2133 }, { "epoch": 0.11381333333333334, "grad_norm": 0.025548084977616705, "learning_rate": 0.0001, "loss": 1.0042, "step": 2134 }, { "epoch": 0.11386666666666667, "grad_norm": 0.02558494837667576, "learning_rate": 0.0001, "loss": 1.0269, "step": 2135 }, { "epoch": 0.11392, "grad_norm": 0.026479998889485264, "learning_rate": 0.0001, "loss": 1.0671, "step": 2136 }, { "epoch": 0.11397333333333333, "grad_norm": 0.02669569326000752, "learning_rate": 0.0001, "loss": 0.9815, "step": 2137 }, { "epoch": 0.11402666666666667, "grad_norm": 0.028505811579913533, "learning_rate": 0.0001, "loss": 1.0154, "step": 2138 }, { "epoch": 0.11408, "grad_norm": 0.025834098851613738, "learning_rate": 0.0001, "loss": 0.9873, "step": 2139 }, { "epoch": 0.11413333333333334, "grad_norm": 0.028263465436620748, "learning_rate": 0.0001, "loss": 0.96, "step": 2140 }, { "epoch": 0.11418666666666667, "grad_norm": 0.025028575761081327, "learning_rate": 0.0001, "loss": 1.0014, "step": 2141 }, { "epoch": 0.11424, "grad_norm": 0.02491420736179301, "learning_rate": 0.0001, "loss": 0.9812, "step": 2142 }, { "epoch": 0.11429333333333333, "grad_norm": 0.025524255050032047, "learning_rate": 0.0001, "loss": 1.0304, "step": 2143 }, { "epoch": 0.11434666666666667, "grad_norm": 0.023813079788056524, "learning_rate": 0.0001, "loss": 1.0042, "step": 2144 }, { "epoch": 0.1144, "grad_norm": 0.02582461420766471, "learning_rate": 0.0001, "loss": 0.9673, "step": 2145 }, { "epoch": 0.11445333333333334, "grad_norm": 0.025470043529205722, "learning_rate": 0.0001, "loss": 1.0124, "step": 2146 }, { "epoch": 0.11450666666666667, "grad_norm": 0.024923656566735803, "learning_rate": 0.0001, "loss": 1.0498, "step": 2147 }, { "epoch": 0.11456, "grad_norm": 0.025511512300976848, "learning_rate": 0.0001, "loss": 1.0023, "step": 2148 }, { "epoch": 0.11461333333333333, "grad_norm": 0.02640557009199673, "learning_rate": 0.0001, "loss": 0.9841, "step": 2149 }, { "epoch": 0.11466666666666667, "grad_norm": 0.02408924397605639, "learning_rate": 0.0001, "loss": 0.9482, "step": 2150 }, { "epoch": 0.11472, "grad_norm": 0.02631311666127592, "learning_rate": 0.0001, "loss": 1.0472, "step": 2151 }, { "epoch": 0.11477333333333334, "grad_norm": 0.024600700473147004, "learning_rate": 0.0001, "loss": 0.9527, "step": 2152 }, { "epoch": 0.11482666666666666, "grad_norm": 0.02501648714994939, "learning_rate": 0.0001, "loss": 0.9861, "step": 2153 }, { "epoch": 0.11488, "grad_norm": 0.02395526142938342, "learning_rate": 0.0001, "loss": 0.9243, "step": 2154 }, { "epoch": 0.11493333333333333, "grad_norm": 0.024870331139526258, "learning_rate": 0.0001, "loss": 1.0109, "step": 2155 }, { "epoch": 0.11498666666666667, "grad_norm": 0.023881387043714664, "learning_rate": 0.0001, "loss": 1.0023, "step": 2156 }, { "epoch": 0.11504, "grad_norm": 0.027182444619142862, "learning_rate": 0.0001, "loss": 1.0313, "step": 2157 }, { "epoch": 0.11509333333333334, "grad_norm": 0.026538848672725667, "learning_rate": 0.0001, "loss": 0.9611, "step": 2158 }, { "epoch": 0.11514666666666666, "grad_norm": 0.029701252435740746, "learning_rate": 0.0001, "loss": 0.9888, "step": 2159 }, { "epoch": 0.1152, "grad_norm": 0.025367714095643784, "learning_rate": 0.0001, "loss": 1.0036, "step": 2160 }, { "epoch": 0.11525333333333333, "grad_norm": 0.025827633540537614, "learning_rate": 0.0001, "loss": 0.9581, "step": 2161 }, { "epoch": 0.11530666666666667, "grad_norm": 0.026948062670853628, "learning_rate": 0.0001, "loss": 1.0023, "step": 2162 }, { "epoch": 0.11536, "grad_norm": 0.02699895684854266, "learning_rate": 0.0001, "loss": 0.9855, "step": 2163 }, { "epoch": 0.11541333333333334, "grad_norm": 0.028115170220504845, "learning_rate": 0.0001, "loss": 0.9797, "step": 2164 }, { "epoch": 0.11546666666666666, "grad_norm": 0.02346122533434368, "learning_rate": 0.0001, "loss": 0.9829, "step": 2165 }, { "epoch": 0.11552, "grad_norm": 0.024809099692921464, "learning_rate": 0.0001, "loss": 1.0042, "step": 2166 }, { "epoch": 0.11557333333333333, "grad_norm": 0.025255762490050567, "learning_rate": 0.0001, "loss": 0.9442, "step": 2167 }, { "epoch": 0.11562666666666667, "grad_norm": 0.025471629978375272, "learning_rate": 0.0001, "loss": 1.021, "step": 2168 }, { "epoch": 0.11568, "grad_norm": 0.026934947170753842, "learning_rate": 0.0001, "loss": 0.9774, "step": 2169 }, { "epoch": 0.11573333333333333, "grad_norm": 0.025141800537033892, "learning_rate": 0.0001, "loss": 1.028, "step": 2170 }, { "epoch": 0.11578666666666666, "grad_norm": 0.02587008193707526, "learning_rate": 0.0001, "loss": 1.0007, "step": 2171 }, { "epoch": 0.11584, "grad_norm": 0.023292921017200426, "learning_rate": 0.0001, "loss": 0.9763, "step": 2172 }, { "epoch": 0.11589333333333333, "grad_norm": 0.025524203599054412, "learning_rate": 0.0001, "loss": 0.9795, "step": 2173 }, { "epoch": 0.11594666666666667, "grad_norm": 0.028251193599291128, "learning_rate": 0.0001, "loss": 0.9732, "step": 2174 }, { "epoch": 0.116, "grad_norm": 0.027883744965098843, "learning_rate": 0.0001, "loss": 0.9561, "step": 2175 }, { "epoch": 0.11605333333333333, "grad_norm": 0.025414836198772932, "learning_rate": 0.0001, "loss": 1.0082, "step": 2176 }, { "epoch": 0.11610666666666666, "grad_norm": 0.02749178847621007, "learning_rate": 0.0001, "loss": 1.0059, "step": 2177 }, { "epoch": 0.11616, "grad_norm": 0.02900638392204523, "learning_rate": 0.0001, "loss": 1.0424, "step": 2178 }, { "epoch": 0.11621333333333334, "grad_norm": 0.026942494721799375, "learning_rate": 0.0001, "loss": 1.013, "step": 2179 }, { "epoch": 0.11626666666666667, "grad_norm": 0.03020466338435861, "learning_rate": 0.0001, "loss": 0.9889, "step": 2180 }, { "epoch": 0.11632, "grad_norm": 0.026672907941511715, "learning_rate": 0.0001, "loss": 0.9656, "step": 2181 }, { "epoch": 0.11637333333333333, "grad_norm": 0.02585952896216991, "learning_rate": 0.0001, "loss": 1.0623, "step": 2182 }, { "epoch": 0.11642666666666666, "grad_norm": 0.031111452523205397, "learning_rate": 0.0001, "loss": 0.9991, "step": 2183 }, { "epoch": 0.11648, "grad_norm": 0.027303613813678938, "learning_rate": 0.0001, "loss": 1.035, "step": 2184 }, { "epoch": 0.11653333333333334, "grad_norm": 0.02607216215240182, "learning_rate": 0.0001, "loss": 0.9989, "step": 2185 }, { "epoch": 0.11658666666666667, "grad_norm": 0.0252004913760288, "learning_rate": 0.0001, "loss": 1.0527, "step": 2186 }, { "epoch": 0.11664, "grad_norm": 0.025978245350445496, "learning_rate": 0.0001, "loss": 0.9638, "step": 2187 }, { "epoch": 0.11669333333333333, "grad_norm": 0.0249562201003815, "learning_rate": 0.0001, "loss": 0.9882, "step": 2188 }, { "epoch": 0.11674666666666667, "grad_norm": 0.02659815952995092, "learning_rate": 0.0001, "loss": 1.0304, "step": 2189 }, { "epoch": 0.1168, "grad_norm": 0.023313342383045953, "learning_rate": 0.0001, "loss": 1.0035, "step": 2190 }, { "epoch": 0.11685333333333334, "grad_norm": 0.024586920277902588, "learning_rate": 0.0001, "loss": 0.9589, "step": 2191 }, { "epoch": 0.11690666666666667, "grad_norm": 0.02635315315740599, "learning_rate": 0.0001, "loss": 1.0201, "step": 2192 }, { "epoch": 0.11696, "grad_norm": 0.026663139144916567, "learning_rate": 0.0001, "loss": 1.0715, "step": 2193 }, { "epoch": 0.11701333333333333, "grad_norm": 0.029163529836532632, "learning_rate": 0.0001, "loss": 1.0636, "step": 2194 }, { "epoch": 0.11706666666666667, "grad_norm": 0.02375087992844998, "learning_rate": 0.0001, "loss": 0.9803, "step": 2195 }, { "epoch": 0.11712, "grad_norm": 0.02704762426529672, "learning_rate": 0.0001, "loss": 1.0226, "step": 2196 }, { "epoch": 0.11717333333333334, "grad_norm": 0.025275270574401557, "learning_rate": 0.0001, "loss": 1.0103, "step": 2197 }, { "epoch": 0.11722666666666667, "grad_norm": 0.025901552150734145, "learning_rate": 0.0001, "loss": 1.0115, "step": 2198 }, { "epoch": 0.11728, "grad_norm": 0.024033233245106006, "learning_rate": 0.0001, "loss": 1.0179, "step": 2199 }, { "epoch": 0.11733333333333333, "grad_norm": 0.027105058366041383, "learning_rate": 0.0001, "loss": 1.0077, "step": 2200 }, { "epoch": 0.11733333333333333, "eval_accuracy": 0.6128739637526313, "eval_loss": 1.395006537437439, "eval_runtime": 63.1586, "eval_samples_per_second": 15.833, "eval_steps_per_second": 0.507, "step": 2200 }, { "epoch": 0.11738666666666667, "grad_norm": 0.02478482517119919, "learning_rate": 0.0001, "loss": 0.9975, "step": 2201 }, { "epoch": 0.11744, "grad_norm": 0.027570169184380912, "learning_rate": 0.0001, "loss": 1.0282, "step": 2202 }, { "epoch": 0.11749333333333334, "grad_norm": 0.02711610687161766, "learning_rate": 0.0001, "loss": 1.0015, "step": 2203 }, { "epoch": 0.11754666666666666, "grad_norm": 0.024089632198276825, "learning_rate": 0.0001, "loss": 1.0084, "step": 2204 }, { "epoch": 0.1176, "grad_norm": 0.029024347408009934, "learning_rate": 0.0001, "loss": 0.9369, "step": 2205 }, { "epoch": 0.11765333333333333, "grad_norm": 0.023486078775297677, "learning_rate": 0.0001, "loss": 0.9883, "step": 2206 }, { "epoch": 0.11770666666666667, "grad_norm": 0.02488725243225441, "learning_rate": 0.0001, "loss": 0.9727, "step": 2207 }, { "epoch": 0.11776, "grad_norm": 0.028135197386752013, "learning_rate": 0.0001, "loss": 1.0393, "step": 2208 }, { "epoch": 0.11781333333333334, "grad_norm": 0.02409954318468765, "learning_rate": 0.0001, "loss": 0.9908, "step": 2209 }, { "epoch": 0.11786666666666666, "grad_norm": 0.028528765087592327, "learning_rate": 0.0001, "loss": 0.9544, "step": 2210 }, { "epoch": 0.11792, "grad_norm": 0.02638979909472164, "learning_rate": 0.0001, "loss": 1.0691, "step": 2211 }, { "epoch": 0.11797333333333333, "grad_norm": 0.026060209929790926, "learning_rate": 0.0001, "loss": 1.0652, "step": 2212 }, { "epoch": 0.11802666666666667, "grad_norm": 0.025195091875581544, "learning_rate": 0.0001, "loss": 1.0031, "step": 2213 }, { "epoch": 0.11808, "grad_norm": 0.024691992479500754, "learning_rate": 0.0001, "loss": 1.0054, "step": 2214 }, { "epoch": 0.11813333333333334, "grad_norm": 0.025585358124083066, "learning_rate": 0.0001, "loss": 0.9625, "step": 2215 }, { "epoch": 0.11818666666666666, "grad_norm": 0.02671291736365302, "learning_rate": 0.0001, "loss": 0.9465, "step": 2216 }, { "epoch": 0.11824, "grad_norm": 0.02659700390525089, "learning_rate": 0.0001, "loss": 0.993, "step": 2217 }, { "epoch": 0.11829333333333333, "grad_norm": 0.027240987325132637, "learning_rate": 0.0001, "loss": 0.9908, "step": 2218 }, { "epoch": 0.11834666666666667, "grad_norm": 0.027643460931971717, "learning_rate": 0.0001, "loss": 1.0124, "step": 2219 }, { "epoch": 0.1184, "grad_norm": 0.027329912138762465, "learning_rate": 0.0001, "loss": 1.0077, "step": 2220 }, { "epoch": 0.11845333333333333, "grad_norm": 0.024115136954137383, "learning_rate": 0.0001, "loss": 0.9857, "step": 2221 }, { "epoch": 0.11850666666666666, "grad_norm": 0.026424180147690456, "learning_rate": 0.0001, "loss": 0.9906, "step": 2222 }, { "epoch": 0.11856, "grad_norm": 0.025253483946143088, "learning_rate": 0.0001, "loss": 1.0554, "step": 2223 }, { "epoch": 0.11861333333333333, "grad_norm": 0.024878362585387635, "learning_rate": 0.0001, "loss": 1.014, "step": 2224 }, { "epoch": 0.11866666666666667, "grad_norm": 0.024217331106613057, "learning_rate": 0.0001, "loss": 1.0225, "step": 2225 }, { "epoch": 0.11872, "grad_norm": 0.026135317848791136, "learning_rate": 0.0001, "loss": 1.0087, "step": 2226 }, { "epoch": 0.11877333333333333, "grad_norm": 0.022600537355349896, "learning_rate": 0.0001, "loss": 1.0272, "step": 2227 }, { "epoch": 0.11882666666666666, "grad_norm": 0.024101452305747527, "learning_rate": 0.0001, "loss": 1.017, "step": 2228 }, { "epoch": 0.11888, "grad_norm": 0.02909712696665901, "learning_rate": 0.0001, "loss": 1.0234, "step": 2229 }, { "epoch": 0.11893333333333334, "grad_norm": 0.024348529252693325, "learning_rate": 0.0001, "loss": 1.0327, "step": 2230 }, { "epoch": 0.11898666666666667, "grad_norm": 0.023139462152396536, "learning_rate": 0.0001, "loss": 0.986, "step": 2231 }, { "epoch": 0.11904, "grad_norm": 0.025573246889224053, "learning_rate": 0.0001, "loss": 1.0592, "step": 2232 }, { "epoch": 0.11909333333333333, "grad_norm": 0.0265533180260822, "learning_rate": 0.0001, "loss": 1.0191, "step": 2233 }, { "epoch": 0.11914666666666666, "grad_norm": 0.024775480491924913, "learning_rate": 0.0001, "loss": 1.0192, "step": 2234 }, { "epoch": 0.1192, "grad_norm": 0.02791296818461633, "learning_rate": 0.0001, "loss": 1.0347, "step": 2235 }, { "epoch": 0.11925333333333334, "grad_norm": 0.02493075563355415, "learning_rate": 0.0001, "loss": 0.9142, "step": 2236 }, { "epoch": 0.11930666666666667, "grad_norm": 0.025385716218320677, "learning_rate": 0.0001, "loss": 0.9618, "step": 2237 }, { "epoch": 0.11936, "grad_norm": 0.025235061425476768, "learning_rate": 0.0001, "loss": 0.9713, "step": 2238 }, { "epoch": 0.11941333333333333, "grad_norm": 0.02716148586099377, "learning_rate": 0.0001, "loss": 1.0275, "step": 2239 }, { "epoch": 0.11946666666666667, "grad_norm": 0.023903046714259843, "learning_rate": 0.0001, "loss": 0.9956, "step": 2240 }, { "epoch": 0.11952, "grad_norm": 0.028375828560216327, "learning_rate": 0.0001, "loss": 1.0178, "step": 2241 }, { "epoch": 0.11957333333333334, "grad_norm": 0.02474316461667185, "learning_rate": 0.0001, "loss": 0.9881, "step": 2242 }, { "epoch": 0.11962666666666667, "grad_norm": 0.024792544225092108, "learning_rate": 0.0001, "loss": 0.9467, "step": 2243 }, { "epoch": 0.11968, "grad_norm": 0.0266972827166745, "learning_rate": 0.0001, "loss": 1.038, "step": 2244 }, { "epoch": 0.11973333333333333, "grad_norm": 0.02460394153459942, "learning_rate": 0.0001, "loss": 1.0418, "step": 2245 }, { "epoch": 0.11978666666666667, "grad_norm": 0.025426073009645486, "learning_rate": 0.0001, "loss": 0.9792, "step": 2246 }, { "epoch": 0.11984, "grad_norm": 0.024972036172600902, "learning_rate": 0.0001, "loss": 0.9873, "step": 2247 }, { "epoch": 0.11989333333333334, "grad_norm": 0.026952260205288056, "learning_rate": 0.0001, "loss": 0.9612, "step": 2248 }, { "epoch": 0.11994666666666666, "grad_norm": 0.024526908562663072, "learning_rate": 0.0001, "loss": 0.9869, "step": 2249 }, { "epoch": 0.12, "grad_norm": 0.024264137688234287, "learning_rate": 0.0001, "loss": 1.0641, "step": 2250 }, { "epoch": 0.12005333333333333, "grad_norm": 0.02683594638712846, "learning_rate": 0.0001, "loss": 0.9903, "step": 2251 }, { "epoch": 0.12010666666666667, "grad_norm": 0.02575785909783277, "learning_rate": 0.0001, "loss": 0.9716, "step": 2252 }, { "epoch": 0.12016, "grad_norm": 0.02507322268481655, "learning_rate": 0.0001, "loss": 0.9942, "step": 2253 }, { "epoch": 0.12021333333333334, "grad_norm": 0.025405427393187928, "learning_rate": 0.0001, "loss": 1.0095, "step": 2254 }, { "epoch": 0.12026666666666666, "grad_norm": 0.026983804964890206, "learning_rate": 0.0001, "loss": 1.0102, "step": 2255 }, { "epoch": 0.12032, "grad_norm": 0.02654267161033317, "learning_rate": 0.0001, "loss": 0.9906, "step": 2256 }, { "epoch": 0.12037333333333333, "grad_norm": 0.025841584251070332, "learning_rate": 0.0001, "loss": 1.0227, "step": 2257 }, { "epoch": 0.12042666666666667, "grad_norm": 0.024024897657589778, "learning_rate": 0.0001, "loss": 0.9975, "step": 2258 }, { "epoch": 0.12048, "grad_norm": 0.024679692467250734, "learning_rate": 0.0001, "loss": 1.0112, "step": 2259 }, { "epoch": 0.12053333333333334, "grad_norm": 0.023716317010130623, "learning_rate": 0.0001, "loss": 0.9831, "step": 2260 }, { "epoch": 0.12058666666666666, "grad_norm": 0.02545887553813254, "learning_rate": 0.0001, "loss": 1.0299, "step": 2261 }, { "epoch": 0.12064, "grad_norm": 0.02561845887876053, "learning_rate": 0.0001, "loss": 0.9929, "step": 2262 }, { "epoch": 0.12069333333333333, "grad_norm": 0.024059550123871877, "learning_rate": 0.0001, "loss": 1.0113, "step": 2263 }, { "epoch": 0.12074666666666667, "grad_norm": 0.025250166181388367, "learning_rate": 0.0001, "loss": 1.0552, "step": 2264 }, { "epoch": 0.1208, "grad_norm": 0.023607059496769445, "learning_rate": 0.0001, "loss": 1.0653, "step": 2265 }, { "epoch": 0.12085333333333333, "grad_norm": 0.02298476421905342, "learning_rate": 0.0001, "loss": 1.0059, "step": 2266 }, { "epoch": 0.12090666666666666, "grad_norm": 0.026655938457062683, "learning_rate": 0.0001, "loss": 0.9736, "step": 2267 }, { "epoch": 0.12096, "grad_norm": 0.024828170889288393, "learning_rate": 0.0001, "loss": 0.9526, "step": 2268 }, { "epoch": 0.12101333333333333, "grad_norm": 0.027899760042119085, "learning_rate": 0.0001, "loss": 0.9999, "step": 2269 }, { "epoch": 0.12106666666666667, "grad_norm": 0.025095891605177858, "learning_rate": 0.0001, "loss": 0.9644, "step": 2270 }, { "epoch": 0.12112, "grad_norm": 0.025537045908159202, "learning_rate": 0.0001, "loss": 0.9723, "step": 2271 }, { "epoch": 0.12117333333333333, "grad_norm": 0.03003173688453457, "learning_rate": 0.0001, "loss": 1.008, "step": 2272 }, { "epoch": 0.12122666666666666, "grad_norm": 0.024338157207714227, "learning_rate": 0.0001, "loss": 0.9803, "step": 2273 }, { "epoch": 0.12128, "grad_norm": 0.026393140026234618, "learning_rate": 0.0001, "loss": 1.0409, "step": 2274 }, { "epoch": 0.12133333333333333, "grad_norm": 0.025956432948580476, "learning_rate": 0.0001, "loss": 1.0518, "step": 2275 }, { "epoch": 0.12138666666666667, "grad_norm": 0.023792936063251446, "learning_rate": 0.0001, "loss": 1.0049, "step": 2276 }, { "epoch": 0.12144, "grad_norm": 0.02468068989357024, "learning_rate": 0.0001, "loss": 0.9802, "step": 2277 }, { "epoch": 0.12149333333333333, "grad_norm": 0.02673159107880864, "learning_rate": 0.0001, "loss": 1.0126, "step": 2278 }, { "epoch": 0.12154666666666666, "grad_norm": 0.02504438775151449, "learning_rate": 0.0001, "loss": 1.0537, "step": 2279 }, { "epoch": 0.1216, "grad_norm": 0.027277504793960152, "learning_rate": 0.0001, "loss": 0.9485, "step": 2280 }, { "epoch": 0.12165333333333334, "grad_norm": 0.026755016764954603, "learning_rate": 0.0001, "loss": 0.9844, "step": 2281 }, { "epoch": 0.12170666666666667, "grad_norm": 0.025003836238070818, "learning_rate": 0.0001, "loss": 0.9869, "step": 2282 }, { "epoch": 0.12176, "grad_norm": 0.02593767349932197, "learning_rate": 0.0001, "loss": 1.0158, "step": 2283 }, { "epoch": 0.12181333333333333, "grad_norm": 0.028582759107997076, "learning_rate": 0.0001, "loss": 0.9781, "step": 2284 }, { "epoch": 0.12186666666666666, "grad_norm": 0.025686488189980528, "learning_rate": 0.0001, "loss": 0.9911, "step": 2285 }, { "epoch": 0.12192, "grad_norm": 0.031207993823977556, "learning_rate": 0.0001, "loss": 1.0335, "step": 2286 }, { "epoch": 0.12197333333333334, "grad_norm": 0.025392439244568903, "learning_rate": 0.0001, "loss": 1.0645, "step": 2287 }, { "epoch": 0.12202666666666667, "grad_norm": 0.025445577594875923, "learning_rate": 0.0001, "loss": 1.0539, "step": 2288 }, { "epoch": 0.12208, "grad_norm": 0.026741925094306965, "learning_rate": 0.0001, "loss": 1.0001, "step": 2289 }, { "epoch": 0.12213333333333333, "grad_norm": 0.02667242735905432, "learning_rate": 0.0001, "loss": 0.9784, "step": 2290 }, { "epoch": 0.12218666666666667, "grad_norm": 0.0237866162073877, "learning_rate": 0.0001, "loss": 1.0508, "step": 2291 }, { "epoch": 0.12224, "grad_norm": 0.027056687542109464, "learning_rate": 0.0001, "loss": 1.0314, "step": 2292 }, { "epoch": 0.12229333333333334, "grad_norm": 0.02329431378207358, "learning_rate": 0.0001, "loss": 1.0126, "step": 2293 }, { "epoch": 0.12234666666666667, "grad_norm": 0.026644150280245225, "learning_rate": 0.0001, "loss": 1.0105, "step": 2294 }, { "epoch": 0.1224, "grad_norm": 0.02417354345914636, "learning_rate": 0.0001, "loss": 0.9799, "step": 2295 }, { "epoch": 0.12245333333333333, "grad_norm": 0.02706610783330873, "learning_rate": 0.0001, "loss": 1.0165, "step": 2296 }, { "epoch": 0.12250666666666667, "grad_norm": 0.026589492127304427, "learning_rate": 0.0001, "loss": 1.0362, "step": 2297 }, { "epoch": 0.12256, "grad_norm": 0.023102243852307632, "learning_rate": 0.0001, "loss": 1.0078, "step": 2298 }, { "epoch": 0.12261333333333334, "grad_norm": 0.025783684292017224, "learning_rate": 0.0001, "loss": 1.0221, "step": 2299 }, { "epoch": 0.12266666666666666, "grad_norm": 0.024287853394697745, "learning_rate": 0.0001, "loss": 1.0158, "step": 2300 }, { "epoch": 0.12272, "grad_norm": 0.02373041746419001, "learning_rate": 0.0001, "loss": 1.0406, "step": 2301 }, { "epoch": 0.12277333333333333, "grad_norm": 0.02412243536749563, "learning_rate": 0.0001, "loss": 1.0111, "step": 2302 }, { "epoch": 0.12282666666666667, "grad_norm": 0.02486951768026473, "learning_rate": 0.0001, "loss": 1.033, "step": 2303 }, { "epoch": 0.12288, "grad_norm": 0.02603473484554617, "learning_rate": 0.0001, "loss": 1.0522, "step": 2304 }, { "epoch": 0.12293333333333334, "grad_norm": 0.023719358418685714, "learning_rate": 0.0001, "loss": 0.9897, "step": 2305 }, { "epoch": 0.12298666666666666, "grad_norm": 0.026025718985220988, "learning_rate": 0.0001, "loss": 0.9446, "step": 2306 }, { "epoch": 0.12304, "grad_norm": 0.024908400459131515, "learning_rate": 0.0001, "loss": 0.9772, "step": 2307 }, { "epoch": 0.12309333333333333, "grad_norm": 0.025320953616971488, "learning_rate": 0.0001, "loss": 1.037, "step": 2308 }, { "epoch": 0.12314666666666667, "grad_norm": 0.02733710781460175, "learning_rate": 0.0001, "loss": 0.9801, "step": 2309 }, { "epoch": 0.1232, "grad_norm": 0.02622614362205955, "learning_rate": 0.0001, "loss": 1.0044, "step": 2310 }, { "epoch": 0.12325333333333334, "grad_norm": 0.026346971821382466, "learning_rate": 0.0001, "loss": 1.0285, "step": 2311 }, { "epoch": 0.12330666666666666, "grad_norm": 0.025951277406270068, "learning_rate": 0.0001, "loss": 1.0092, "step": 2312 }, { "epoch": 0.12336, "grad_norm": 0.025561704135771596, "learning_rate": 0.0001, "loss": 1.0111, "step": 2313 }, { "epoch": 0.12341333333333333, "grad_norm": 0.025299638498359915, "learning_rate": 0.0001, "loss": 0.9992, "step": 2314 }, { "epoch": 0.12346666666666667, "grad_norm": 0.02739093425398755, "learning_rate": 0.0001, "loss": 0.9688, "step": 2315 }, { "epoch": 0.12352, "grad_norm": 0.02521513628295191, "learning_rate": 0.0001, "loss": 1.0181, "step": 2316 }, { "epoch": 0.12357333333333333, "grad_norm": 0.026189532820918963, "learning_rate": 0.0001, "loss": 0.9809, "step": 2317 }, { "epoch": 0.12362666666666666, "grad_norm": 0.023910240059815624, "learning_rate": 0.0001, "loss": 1.0238, "step": 2318 }, { "epoch": 0.12368, "grad_norm": 0.02497478094878405, "learning_rate": 0.0001, "loss": 0.9476, "step": 2319 }, { "epoch": 0.12373333333333333, "grad_norm": 0.02656036491144507, "learning_rate": 0.0001, "loss": 1.03, "step": 2320 }, { "epoch": 0.12378666666666667, "grad_norm": 0.02779863671775531, "learning_rate": 0.0001, "loss": 1.0232, "step": 2321 }, { "epoch": 0.12384, "grad_norm": 0.026700532236986645, "learning_rate": 0.0001, "loss": 0.9981, "step": 2322 }, { "epoch": 0.12389333333333333, "grad_norm": 0.0296532015130582, "learning_rate": 0.0001, "loss": 0.9786, "step": 2323 }, { "epoch": 0.12394666666666666, "grad_norm": 0.02685835241122253, "learning_rate": 0.0001, "loss": 0.9927, "step": 2324 }, { "epoch": 0.124, "grad_norm": 0.02510581740354633, "learning_rate": 0.0001, "loss": 1.0165, "step": 2325 }, { "epoch": 0.12405333333333333, "grad_norm": 0.028857047104012896, "learning_rate": 0.0001, "loss": 1.013, "step": 2326 }, { "epoch": 0.12410666666666667, "grad_norm": 0.028185509569834233, "learning_rate": 0.0001, "loss": 0.9681, "step": 2327 }, { "epoch": 0.12416, "grad_norm": 0.02539353861850295, "learning_rate": 0.0001, "loss": 0.9855, "step": 2328 }, { "epoch": 0.12421333333333333, "grad_norm": 0.03108222333558156, "learning_rate": 0.0001, "loss": 1.0779, "step": 2329 }, { "epoch": 0.12426666666666666, "grad_norm": 0.027972158118336737, "learning_rate": 0.0001, "loss": 1.0016, "step": 2330 }, { "epoch": 0.12432, "grad_norm": 0.029512758317712467, "learning_rate": 0.0001, "loss": 1.023, "step": 2331 }, { "epoch": 0.12437333333333334, "grad_norm": 0.0297690540641671, "learning_rate": 0.0001, "loss": 0.9446, "step": 2332 }, { "epoch": 0.12442666666666667, "grad_norm": 0.02762344083258665, "learning_rate": 0.0001, "loss": 0.9767, "step": 2333 }, { "epoch": 0.12448, "grad_norm": 0.023923237192540314, "learning_rate": 0.0001, "loss": 0.9768, "step": 2334 }, { "epoch": 0.12453333333333333, "grad_norm": 0.03038605050438039, "learning_rate": 0.0001, "loss": 1.0062, "step": 2335 }, { "epoch": 0.12458666666666667, "grad_norm": 0.026178815528928676, "learning_rate": 0.0001, "loss": 0.9477, "step": 2336 }, { "epoch": 0.12464, "grad_norm": 0.024144204676639577, "learning_rate": 0.0001, "loss": 0.9378, "step": 2337 }, { "epoch": 0.12469333333333334, "grad_norm": 0.026133992423928703, "learning_rate": 0.0001, "loss": 1.0139, "step": 2338 }, { "epoch": 0.12474666666666667, "grad_norm": 0.024459517998669, "learning_rate": 0.0001, "loss": 1.0506, "step": 2339 }, { "epoch": 0.1248, "grad_norm": 0.027166214043406883, "learning_rate": 0.0001, "loss": 1.001, "step": 2340 }, { "epoch": 0.12485333333333333, "grad_norm": 0.024912182419569287, "learning_rate": 0.0001, "loss": 0.9979, "step": 2341 }, { "epoch": 0.12490666666666667, "grad_norm": 0.025082113393327596, "learning_rate": 0.0001, "loss": 0.9964, "step": 2342 }, { "epoch": 0.12496, "grad_norm": 0.025263949997530878, "learning_rate": 0.0001, "loss": 0.9516, "step": 2343 }, { "epoch": 0.12501333333333334, "grad_norm": 0.027570713139985187, "learning_rate": 0.0001, "loss": 1.004, "step": 2344 }, { "epoch": 0.12506666666666666, "grad_norm": 0.026262066231156855, "learning_rate": 0.0001, "loss": 1.0461, "step": 2345 }, { "epoch": 0.12512, "grad_norm": 0.024540365054332654, "learning_rate": 0.0001, "loss": 0.986, "step": 2346 }, { "epoch": 0.12517333333333333, "grad_norm": 0.026731365645079493, "learning_rate": 0.0001, "loss": 1.0051, "step": 2347 }, { "epoch": 0.12522666666666665, "grad_norm": 0.023640325089695546, "learning_rate": 0.0001, "loss": 1.0027, "step": 2348 }, { "epoch": 0.12528, "grad_norm": 0.02703555614219968, "learning_rate": 0.0001, "loss": 0.9859, "step": 2349 }, { "epoch": 0.12533333333333332, "grad_norm": 0.029079870961655145, "learning_rate": 0.0001, "loss": 1.0142, "step": 2350 }, { "epoch": 0.12538666666666667, "grad_norm": 0.02597254551271711, "learning_rate": 0.0001, "loss": 1.0317, "step": 2351 }, { "epoch": 0.12544, "grad_norm": 0.024751314155041865, "learning_rate": 0.0001, "loss": 0.967, "step": 2352 }, { "epoch": 0.12549333333333335, "grad_norm": 0.02448393101161119, "learning_rate": 0.0001, "loss": 1.0672, "step": 2353 }, { "epoch": 0.12554666666666667, "grad_norm": 0.026098804491193214, "learning_rate": 0.0001, "loss": 1.0209, "step": 2354 }, { "epoch": 0.1256, "grad_norm": 0.02620008497566, "learning_rate": 0.0001, "loss": 1.0027, "step": 2355 }, { "epoch": 0.12565333333333334, "grad_norm": 0.02450381694613561, "learning_rate": 0.0001, "loss": 0.9213, "step": 2356 }, { "epoch": 0.12570666666666666, "grad_norm": 0.025142600053837505, "learning_rate": 0.0001, "loss": 0.9906, "step": 2357 }, { "epoch": 0.12576, "grad_norm": 0.0251836775377677, "learning_rate": 0.0001, "loss": 1.0449, "step": 2358 }, { "epoch": 0.12581333333333333, "grad_norm": 0.025141950917241092, "learning_rate": 0.0001, "loss": 1.0472, "step": 2359 }, { "epoch": 0.12586666666666665, "grad_norm": 0.02767041615324229, "learning_rate": 0.0001, "loss": 1.0339, "step": 2360 }, { "epoch": 0.12592, "grad_norm": 0.02583453418140071, "learning_rate": 0.0001, "loss": 1.0328, "step": 2361 }, { "epoch": 0.12597333333333333, "grad_norm": 0.02474236197058599, "learning_rate": 0.0001, "loss": 0.9809, "step": 2362 }, { "epoch": 0.12602666666666668, "grad_norm": 0.02604301268899962, "learning_rate": 0.0001, "loss": 0.9326, "step": 2363 }, { "epoch": 0.12608, "grad_norm": 0.026472180865333858, "learning_rate": 0.0001, "loss": 0.974, "step": 2364 }, { "epoch": 0.12613333333333332, "grad_norm": 0.023995616953468194, "learning_rate": 0.0001, "loss": 0.9902, "step": 2365 }, { "epoch": 0.12618666666666667, "grad_norm": 0.027306594724428146, "learning_rate": 0.0001, "loss": 0.9853, "step": 2366 }, { "epoch": 0.12624, "grad_norm": 0.02485576147395608, "learning_rate": 0.0001, "loss": 0.9655, "step": 2367 }, { "epoch": 0.12629333333333334, "grad_norm": 0.02669452136723653, "learning_rate": 0.0001, "loss": 0.9937, "step": 2368 }, { "epoch": 0.12634666666666666, "grad_norm": 0.030182812358767585, "learning_rate": 0.0001, "loss": 1.0307, "step": 2369 }, { "epoch": 0.1264, "grad_norm": 0.027020314733657312, "learning_rate": 0.0001, "loss": 0.9864, "step": 2370 }, { "epoch": 0.12645333333333333, "grad_norm": 0.02728580794401608, "learning_rate": 0.0001, "loss": 1.0212, "step": 2371 }, { "epoch": 0.12650666666666666, "grad_norm": 0.02690873082005825, "learning_rate": 0.0001, "loss": 1.0189, "step": 2372 }, { "epoch": 0.12656, "grad_norm": 0.025090378054911683, "learning_rate": 0.0001, "loss": 1.0114, "step": 2373 }, { "epoch": 0.12661333333333333, "grad_norm": 0.025345502004403896, "learning_rate": 0.0001, "loss": 0.9142, "step": 2374 }, { "epoch": 0.12666666666666668, "grad_norm": 0.026061706156184413, "learning_rate": 0.0001, "loss": 0.9984, "step": 2375 }, { "epoch": 0.12672, "grad_norm": 0.02486405372653554, "learning_rate": 0.0001, "loss": 0.9842, "step": 2376 }, { "epoch": 0.12677333333333332, "grad_norm": 0.02568641379744047, "learning_rate": 0.0001, "loss": 1.0164, "step": 2377 }, { "epoch": 0.12682666666666667, "grad_norm": 0.025105387676051152, "learning_rate": 0.0001, "loss": 0.9729, "step": 2378 }, { "epoch": 0.12688, "grad_norm": 0.026173299716930904, "learning_rate": 0.0001, "loss": 0.9911, "step": 2379 }, { "epoch": 0.12693333333333334, "grad_norm": 0.02879403116005916, "learning_rate": 0.0001, "loss": 0.9653, "step": 2380 }, { "epoch": 0.12698666666666666, "grad_norm": 0.02704904926732383, "learning_rate": 0.0001, "loss": 0.9984, "step": 2381 }, { "epoch": 0.12704, "grad_norm": 0.025840035082245298, "learning_rate": 0.0001, "loss": 0.9997, "step": 2382 }, { "epoch": 0.12709333333333334, "grad_norm": 0.025967705431076987, "learning_rate": 0.0001, "loss": 0.9986, "step": 2383 }, { "epoch": 0.12714666666666666, "grad_norm": 0.025253734628724867, "learning_rate": 0.0001, "loss": 1.0262, "step": 2384 }, { "epoch": 0.1272, "grad_norm": 0.024618778932433166, "learning_rate": 0.0001, "loss": 1.0303, "step": 2385 }, { "epoch": 0.12725333333333333, "grad_norm": 0.02653231012833248, "learning_rate": 0.0001, "loss": 1.0342, "step": 2386 }, { "epoch": 0.12730666666666668, "grad_norm": 0.026717012718468894, "learning_rate": 0.0001, "loss": 1.0174, "step": 2387 }, { "epoch": 0.12736, "grad_norm": 0.025581640783423315, "learning_rate": 0.0001, "loss": 1.0115, "step": 2388 }, { "epoch": 0.12741333333333332, "grad_norm": 0.02548903571596071, "learning_rate": 0.0001, "loss": 0.9615, "step": 2389 }, { "epoch": 0.12746666666666667, "grad_norm": 0.02767852990118225, "learning_rate": 0.0001, "loss": 0.9637, "step": 2390 }, { "epoch": 0.12752, "grad_norm": 0.026052203453361452, "learning_rate": 0.0001, "loss": 1.0655, "step": 2391 }, { "epoch": 0.12757333333333334, "grad_norm": 0.02534168219379452, "learning_rate": 0.0001, "loss": 1.0008, "step": 2392 }, { "epoch": 0.12762666666666667, "grad_norm": 0.026221011247794405, "learning_rate": 0.0001, "loss": 0.9695, "step": 2393 }, { "epoch": 0.12768, "grad_norm": 0.02509062530441474, "learning_rate": 0.0001, "loss": 0.9786, "step": 2394 }, { "epoch": 0.12773333333333334, "grad_norm": 0.026097979084296764, "learning_rate": 0.0001, "loss": 0.9702, "step": 2395 }, { "epoch": 0.12778666666666666, "grad_norm": 0.02510367887266051, "learning_rate": 0.0001, "loss": 0.971, "step": 2396 }, { "epoch": 0.12784, "grad_norm": 0.026264658669516074, "learning_rate": 0.0001, "loss": 1.0723, "step": 2397 }, { "epoch": 0.12789333333333333, "grad_norm": 0.025529962480647414, "learning_rate": 0.0001, "loss": 1.0164, "step": 2398 }, { "epoch": 0.12794666666666665, "grad_norm": 0.025080028405239697, "learning_rate": 0.0001, "loss": 1.0031, "step": 2399 }, { "epoch": 0.128, "grad_norm": 0.025360113678051986, "learning_rate": 0.0001, "loss": 0.9544, "step": 2400 }, { "epoch": 0.128, "eval_accuracy": 0.6133737235702583, "eval_loss": 1.3925503492355347, "eval_runtime": 63.0259, "eval_samples_per_second": 15.866, "eval_steps_per_second": 0.508, "step": 2400 }, { "epoch": 0.12805333333333332, "grad_norm": 0.027075521786471598, "learning_rate": 0.0001, "loss": 0.9544, "step": 2401 }, { "epoch": 0.12810666666666667, "grad_norm": 0.02880467614813902, "learning_rate": 0.0001, "loss": 1.0078, "step": 2402 }, { "epoch": 0.12816, "grad_norm": 0.026650682993478503, "learning_rate": 0.0001, "loss": 1.0413, "step": 2403 }, { "epoch": 0.12821333333333335, "grad_norm": 0.02836891149328657, "learning_rate": 0.0001, "loss": 1.0255, "step": 2404 }, { "epoch": 0.12826666666666667, "grad_norm": 0.025603379514517327, "learning_rate": 0.0001, "loss": 1.0105, "step": 2405 }, { "epoch": 0.12832, "grad_norm": 0.02676535820608139, "learning_rate": 0.0001, "loss": 1.0618, "step": 2406 }, { "epoch": 0.12837333333333334, "grad_norm": 0.02599093536549144, "learning_rate": 0.0001, "loss": 1.0072, "step": 2407 }, { "epoch": 0.12842666666666666, "grad_norm": 0.0271121202558267, "learning_rate": 0.0001, "loss": 0.996, "step": 2408 }, { "epoch": 0.12848, "grad_norm": 0.025994231231715684, "learning_rate": 0.0001, "loss": 0.946, "step": 2409 }, { "epoch": 0.12853333333333333, "grad_norm": 0.025929592310601626, "learning_rate": 0.0001, "loss": 0.9998, "step": 2410 }, { "epoch": 0.12858666666666665, "grad_norm": 0.02707486312618192, "learning_rate": 0.0001, "loss": 1.0065, "step": 2411 }, { "epoch": 0.12864, "grad_norm": 0.026292993034618604, "learning_rate": 0.0001, "loss": 1.0041, "step": 2412 }, { "epoch": 0.12869333333333333, "grad_norm": 0.02755841232990589, "learning_rate": 0.0001, "loss": 0.9885, "step": 2413 }, { "epoch": 0.12874666666666668, "grad_norm": 0.02746351608929294, "learning_rate": 0.0001, "loss": 1.0076, "step": 2414 }, { "epoch": 0.1288, "grad_norm": 0.02498874824628734, "learning_rate": 0.0001, "loss": 1.0417, "step": 2415 }, { "epoch": 0.12885333333333332, "grad_norm": 0.025633893473424686, "learning_rate": 0.0001, "loss": 1.0186, "step": 2416 }, { "epoch": 0.12890666666666667, "grad_norm": 0.028261768738729338, "learning_rate": 0.0001, "loss": 1.0335, "step": 2417 }, { "epoch": 0.12896, "grad_norm": 0.024845765337774786, "learning_rate": 0.0001, "loss": 0.957, "step": 2418 }, { "epoch": 0.12901333333333334, "grad_norm": 0.0224777196916003, "learning_rate": 0.0001, "loss": 0.9524, "step": 2419 }, { "epoch": 0.12906666666666666, "grad_norm": 0.026297030714830142, "learning_rate": 0.0001, "loss": 0.9919, "step": 2420 }, { "epoch": 0.12912, "grad_norm": 0.02724522980083961, "learning_rate": 0.0001, "loss": 1.0338, "step": 2421 }, { "epoch": 0.12917333333333333, "grad_norm": 0.024700423410813105, "learning_rate": 0.0001, "loss": 0.9821, "step": 2422 }, { "epoch": 0.12922666666666666, "grad_norm": 0.024804525836374856, "learning_rate": 0.0001, "loss": 1.0137, "step": 2423 }, { "epoch": 0.12928, "grad_norm": 0.026964047831832507, "learning_rate": 0.0001, "loss": 1.0614, "step": 2424 }, { "epoch": 0.12933333333333333, "grad_norm": 0.026118136786538113, "learning_rate": 0.0001, "loss": 1.0277, "step": 2425 }, { "epoch": 0.12938666666666668, "grad_norm": 0.024866215486403047, "learning_rate": 0.0001, "loss": 1.0427, "step": 2426 }, { "epoch": 0.12944, "grad_norm": 0.02643360598580856, "learning_rate": 0.0001, "loss": 0.9999, "step": 2427 }, { "epoch": 0.12949333333333332, "grad_norm": 0.02572323700260064, "learning_rate": 0.0001, "loss": 0.9326, "step": 2428 }, { "epoch": 0.12954666666666667, "grad_norm": 0.02583573440614129, "learning_rate": 0.0001, "loss": 1.0143, "step": 2429 }, { "epoch": 0.1296, "grad_norm": 0.02578171477727797, "learning_rate": 0.0001, "loss": 0.9345, "step": 2430 }, { "epoch": 0.12965333333333334, "grad_norm": 0.02651372954792764, "learning_rate": 0.0001, "loss": 1.0121, "step": 2431 }, { "epoch": 0.12970666666666666, "grad_norm": 0.026432713056399652, "learning_rate": 0.0001, "loss": 1.0606, "step": 2432 }, { "epoch": 0.12976, "grad_norm": 0.027388267153690485, "learning_rate": 0.0001, "loss": 0.9845, "step": 2433 }, { "epoch": 0.12981333333333334, "grad_norm": 0.026174403976917855, "learning_rate": 0.0001, "loss": 0.8993, "step": 2434 }, { "epoch": 0.12986666666666666, "grad_norm": 0.024122930540919768, "learning_rate": 0.0001, "loss": 0.998, "step": 2435 }, { "epoch": 0.12992, "grad_norm": 0.025666486335540067, "learning_rate": 0.0001, "loss": 0.9619, "step": 2436 }, { "epoch": 0.12997333333333333, "grad_norm": 0.026066719904246246, "learning_rate": 0.0001, "loss": 1.0544, "step": 2437 }, { "epoch": 0.13002666666666668, "grad_norm": 0.025182112697953205, "learning_rate": 0.0001, "loss": 0.9711, "step": 2438 }, { "epoch": 0.13008, "grad_norm": 0.024535260762843913, "learning_rate": 0.0001, "loss": 1.0038, "step": 2439 }, { "epoch": 0.13013333333333332, "grad_norm": 0.024416571145252548, "learning_rate": 0.0001, "loss": 1.0117, "step": 2440 }, { "epoch": 0.13018666666666667, "grad_norm": 0.02391126898492755, "learning_rate": 0.0001, "loss": 0.9602, "step": 2441 }, { "epoch": 0.13024, "grad_norm": 0.024560959142077995, "learning_rate": 0.0001, "loss": 1.0028, "step": 2442 }, { "epoch": 0.13029333333333334, "grad_norm": 0.025998225500617603, "learning_rate": 0.0001, "loss": 0.9971, "step": 2443 }, { "epoch": 0.13034666666666667, "grad_norm": 0.024911989440932737, "learning_rate": 0.0001, "loss": 1.0243, "step": 2444 }, { "epoch": 0.1304, "grad_norm": 0.028004916357241998, "learning_rate": 0.0001, "loss": 1.0212, "step": 2445 }, { "epoch": 0.13045333333333334, "grad_norm": 0.024435807169905642, "learning_rate": 0.0001, "loss": 0.974, "step": 2446 }, { "epoch": 0.13050666666666666, "grad_norm": 0.02801550106551659, "learning_rate": 0.0001, "loss": 0.9884, "step": 2447 }, { "epoch": 0.13056, "grad_norm": 0.025119826258274178, "learning_rate": 0.0001, "loss": 1.0625, "step": 2448 }, { "epoch": 0.13061333333333333, "grad_norm": 0.02659907987405048, "learning_rate": 0.0001, "loss": 0.992, "step": 2449 }, { "epoch": 0.13066666666666665, "grad_norm": 0.025863118885475038, "learning_rate": 0.0001, "loss": 0.9806, "step": 2450 }, { "epoch": 0.13072, "grad_norm": 0.02472980560800673, "learning_rate": 0.0001, "loss": 0.9557, "step": 2451 }, { "epoch": 0.13077333333333332, "grad_norm": 0.02702333219902197, "learning_rate": 0.0001, "loss": 1.0346, "step": 2452 }, { "epoch": 0.13082666666666667, "grad_norm": 0.024930989847762798, "learning_rate": 0.0001, "loss": 1.0696, "step": 2453 }, { "epoch": 0.13088, "grad_norm": 0.024150482060243804, "learning_rate": 0.0001, "loss": 0.9613, "step": 2454 }, { "epoch": 0.13093333333333335, "grad_norm": 0.02364410166627155, "learning_rate": 0.0001, "loss": 0.9518, "step": 2455 }, { "epoch": 0.13098666666666667, "grad_norm": 0.023821035101190026, "learning_rate": 0.0001, "loss": 1.0161, "step": 2456 }, { "epoch": 0.13104, "grad_norm": 0.023923516597349252, "learning_rate": 0.0001, "loss": 1.0196, "step": 2457 }, { "epoch": 0.13109333333333334, "grad_norm": 0.02551790445893866, "learning_rate": 0.0001, "loss": 0.9964, "step": 2458 }, { "epoch": 0.13114666666666666, "grad_norm": 0.02483273971393887, "learning_rate": 0.0001, "loss": 1.0462, "step": 2459 }, { "epoch": 0.1312, "grad_norm": 0.02461865339019222, "learning_rate": 0.0001, "loss": 1.0473, "step": 2460 }, { "epoch": 0.13125333333333333, "grad_norm": 0.02455703558888106, "learning_rate": 0.0001, "loss": 0.9694, "step": 2461 }, { "epoch": 0.13130666666666665, "grad_norm": 0.02524383031581255, "learning_rate": 0.0001, "loss": 0.9789, "step": 2462 }, { "epoch": 0.13136, "grad_norm": 0.02522301412102058, "learning_rate": 0.0001, "loss": 1.027, "step": 2463 }, { "epoch": 0.13141333333333333, "grad_norm": 0.0268511384475676, "learning_rate": 0.0001, "loss": 1.0222, "step": 2464 }, { "epoch": 0.13146666666666668, "grad_norm": 0.029099604870096257, "learning_rate": 0.0001, "loss": 0.9893, "step": 2465 }, { "epoch": 0.13152, "grad_norm": 0.02741869701032861, "learning_rate": 0.0001, "loss": 1.0071, "step": 2466 }, { "epoch": 0.13157333333333332, "grad_norm": 0.029369066447517474, "learning_rate": 0.0001, "loss": 0.999, "step": 2467 }, { "epoch": 0.13162666666666667, "grad_norm": 0.02613223249688684, "learning_rate": 0.0001, "loss": 0.976, "step": 2468 }, { "epoch": 0.13168, "grad_norm": 0.02536596122007687, "learning_rate": 0.0001, "loss": 0.9657, "step": 2469 }, { "epoch": 0.13173333333333334, "grad_norm": 0.02719621566525172, "learning_rate": 0.0001, "loss": 1.0011, "step": 2470 }, { "epoch": 0.13178666666666666, "grad_norm": 0.028786361560080596, "learning_rate": 0.0001, "loss": 1.0154, "step": 2471 }, { "epoch": 0.13184, "grad_norm": 0.025602704222974653, "learning_rate": 0.0001, "loss": 1.0697, "step": 2472 }, { "epoch": 0.13189333333333333, "grad_norm": 0.02657073908728971, "learning_rate": 0.0001, "loss": 1.0201, "step": 2473 }, { "epoch": 0.13194666666666666, "grad_norm": 0.027510085222281606, "learning_rate": 0.0001, "loss": 1.0393, "step": 2474 }, { "epoch": 0.132, "grad_norm": 0.025618112335544518, "learning_rate": 0.0001, "loss": 0.996, "step": 2475 }, { "epoch": 0.13205333333333333, "grad_norm": 0.02570976419270122, "learning_rate": 0.0001, "loss": 1.0007, "step": 2476 }, { "epoch": 0.13210666666666668, "grad_norm": 0.0246319574090792, "learning_rate": 0.0001, "loss": 0.9883, "step": 2477 }, { "epoch": 0.13216, "grad_norm": 0.02920879760455919, "learning_rate": 0.0001, "loss": 1.0116, "step": 2478 }, { "epoch": 0.13221333333333332, "grad_norm": 0.024994654669793785, "learning_rate": 0.0001, "loss": 1.0503, "step": 2479 }, { "epoch": 0.13226666666666667, "grad_norm": 0.026068430444058675, "learning_rate": 0.0001, "loss": 1.0468, "step": 2480 }, { "epoch": 0.13232, "grad_norm": 0.026241739557376725, "learning_rate": 0.0001, "loss": 0.9419, "step": 2481 }, { "epoch": 0.13237333333333334, "grad_norm": 0.025162046115399465, "learning_rate": 0.0001, "loss": 1.0136, "step": 2482 }, { "epoch": 0.13242666666666666, "grad_norm": 0.024684821347290064, "learning_rate": 0.0001, "loss": 1.0087, "step": 2483 }, { "epoch": 0.13248, "grad_norm": 0.024299043851432795, "learning_rate": 0.0001, "loss": 0.9485, "step": 2484 }, { "epoch": 0.13253333333333334, "grad_norm": 0.024998497651999123, "learning_rate": 0.0001, "loss": 0.9694, "step": 2485 }, { "epoch": 0.13258666666666666, "grad_norm": 0.025150903811544202, "learning_rate": 0.0001, "loss": 1.046, "step": 2486 }, { "epoch": 0.13264, "grad_norm": 0.02344402529837302, "learning_rate": 0.0001, "loss": 1.0232, "step": 2487 }, { "epoch": 0.13269333333333333, "grad_norm": 0.02633707780924448, "learning_rate": 0.0001, "loss": 1.0824, "step": 2488 }, { "epoch": 0.13274666666666668, "grad_norm": 0.025922990723189404, "learning_rate": 0.0001, "loss": 0.9548, "step": 2489 }, { "epoch": 0.1328, "grad_norm": 0.02446600879368933, "learning_rate": 0.0001, "loss": 1.0314, "step": 2490 }, { "epoch": 0.13285333333333332, "grad_norm": 0.02783556649677125, "learning_rate": 0.0001, "loss": 0.9855, "step": 2491 }, { "epoch": 0.13290666666666667, "grad_norm": 0.02550965999156629, "learning_rate": 0.0001, "loss": 1.0015, "step": 2492 }, { "epoch": 0.13296, "grad_norm": 0.023626581358753104, "learning_rate": 0.0001, "loss": 0.8944, "step": 2493 }, { "epoch": 0.13301333333333334, "grad_norm": 0.0272380801041015, "learning_rate": 0.0001, "loss": 1.044, "step": 2494 }, { "epoch": 0.13306666666666667, "grad_norm": 0.024161819465906096, "learning_rate": 0.0001, "loss": 1.0131, "step": 2495 }, { "epoch": 0.13312, "grad_norm": 0.024038644659621713, "learning_rate": 0.0001, "loss": 0.9467, "step": 2496 }, { "epoch": 0.13317333333333334, "grad_norm": 0.025690120704842334, "learning_rate": 0.0001, "loss": 0.9662, "step": 2497 }, { "epoch": 0.13322666666666666, "grad_norm": 0.025481203037644857, "learning_rate": 0.0001, "loss": 0.9705, "step": 2498 }, { "epoch": 0.13328, "grad_norm": 0.025247965401708664, "learning_rate": 0.0001, "loss": 0.9938, "step": 2499 }, { "epoch": 0.13333333333333333, "grad_norm": 0.02604799015353619, "learning_rate": 0.0001, "loss": 1.002, "step": 2500 }, { "epoch": 0.13338666666666665, "grad_norm": 0.024398811532141393, "learning_rate": 0.0001, "loss": 0.9783, "step": 2501 }, { "epoch": 0.13344, "grad_norm": 0.025160226790277466, "learning_rate": 0.0001, "loss": 0.9602, "step": 2502 }, { "epoch": 0.13349333333333332, "grad_norm": 0.024851872008412525, "learning_rate": 0.0001, "loss": 1.0602, "step": 2503 }, { "epoch": 0.13354666666666667, "grad_norm": 0.024544597948660426, "learning_rate": 0.0001, "loss": 0.9674, "step": 2504 }, { "epoch": 0.1336, "grad_norm": 0.025356448408922747, "learning_rate": 0.0001, "loss": 0.9588, "step": 2505 }, { "epoch": 0.13365333333333335, "grad_norm": 0.023029183931546397, "learning_rate": 0.0001, "loss": 1.0049, "step": 2506 }, { "epoch": 0.13370666666666667, "grad_norm": 0.0255310565561867, "learning_rate": 0.0001, "loss": 0.962, "step": 2507 }, { "epoch": 0.13376, "grad_norm": 0.02506433148271178, "learning_rate": 0.0001, "loss": 0.9768, "step": 2508 }, { "epoch": 0.13381333333333334, "grad_norm": 0.024761488373354325, "learning_rate": 0.0001, "loss": 0.9689, "step": 2509 }, { "epoch": 0.13386666666666666, "grad_norm": 0.024240754115842023, "learning_rate": 0.0001, "loss": 1.0053, "step": 2510 }, { "epoch": 0.13392, "grad_norm": 0.026926926035797476, "learning_rate": 0.0001, "loss": 1.0487, "step": 2511 }, { "epoch": 0.13397333333333333, "grad_norm": 0.024576993638280722, "learning_rate": 0.0001, "loss": 1.0134, "step": 2512 }, { "epoch": 0.13402666666666666, "grad_norm": 0.025223425176094126, "learning_rate": 0.0001, "loss": 1.0073, "step": 2513 }, { "epoch": 0.13408, "grad_norm": 0.02520736421510069, "learning_rate": 0.0001, "loss": 0.9503, "step": 2514 }, { "epoch": 0.13413333333333333, "grad_norm": 0.027406228809847298, "learning_rate": 0.0001, "loss": 1.0219, "step": 2515 }, { "epoch": 0.13418666666666668, "grad_norm": 0.02670488124021878, "learning_rate": 0.0001, "loss": 1.0072, "step": 2516 }, { "epoch": 0.13424, "grad_norm": 0.025391527655479276, "learning_rate": 0.0001, "loss": 1.0098, "step": 2517 }, { "epoch": 0.13429333333333332, "grad_norm": 0.027439148170195233, "learning_rate": 0.0001, "loss": 1.0762, "step": 2518 }, { "epoch": 0.13434666666666667, "grad_norm": 0.024122146037374212, "learning_rate": 0.0001, "loss": 0.9981, "step": 2519 }, { "epoch": 0.1344, "grad_norm": 0.024898554608580033, "learning_rate": 0.0001, "loss": 1.0671, "step": 2520 }, { "epoch": 0.13445333333333334, "grad_norm": 0.024973639289104937, "learning_rate": 0.0001, "loss": 1.0387, "step": 2521 }, { "epoch": 0.13450666666666666, "grad_norm": 0.02670475542851642, "learning_rate": 0.0001, "loss": 0.9642, "step": 2522 }, { "epoch": 0.13456, "grad_norm": 0.025078268785836716, "learning_rate": 0.0001, "loss": 0.996, "step": 2523 }, { "epoch": 0.13461333333333333, "grad_norm": 0.024404365236869594, "learning_rate": 0.0001, "loss": 1.0138, "step": 2524 }, { "epoch": 0.13466666666666666, "grad_norm": 0.027738032727339195, "learning_rate": 0.0001, "loss": 1.0233, "step": 2525 }, { "epoch": 0.13472, "grad_norm": 0.027028164811448454, "learning_rate": 0.0001, "loss": 1.0334, "step": 2526 }, { "epoch": 0.13477333333333333, "grad_norm": 0.02546854523960517, "learning_rate": 0.0001, "loss": 1.0165, "step": 2527 }, { "epoch": 0.13482666666666668, "grad_norm": 0.026124650828617483, "learning_rate": 0.0001, "loss": 0.9671, "step": 2528 }, { "epoch": 0.13488, "grad_norm": 0.025627013974166914, "learning_rate": 0.0001, "loss": 0.9516, "step": 2529 }, { "epoch": 0.13493333333333332, "grad_norm": 0.02687073605553383, "learning_rate": 0.0001, "loss": 1.0164, "step": 2530 }, { "epoch": 0.13498666666666667, "grad_norm": 0.024829464592065177, "learning_rate": 0.0001, "loss": 0.977, "step": 2531 }, { "epoch": 0.13504, "grad_norm": 0.026850340576137458, "learning_rate": 0.0001, "loss": 0.9827, "step": 2532 }, { "epoch": 0.13509333333333334, "grad_norm": 0.026390952638277638, "learning_rate": 0.0001, "loss": 1.0385, "step": 2533 }, { "epoch": 0.13514666666666666, "grad_norm": 0.02844218782775634, "learning_rate": 0.0001, "loss": 0.9855, "step": 2534 }, { "epoch": 0.1352, "grad_norm": 0.02476326903400325, "learning_rate": 0.0001, "loss": 1.0468, "step": 2535 }, { "epoch": 0.13525333333333334, "grad_norm": 0.03186783148762189, "learning_rate": 0.0001, "loss": 0.9917, "step": 2536 }, { "epoch": 0.13530666666666666, "grad_norm": 0.02464017061223821, "learning_rate": 0.0001, "loss": 1.0638, "step": 2537 }, { "epoch": 0.13536, "grad_norm": 0.027282031428026442, "learning_rate": 0.0001, "loss": 0.9498, "step": 2538 }, { "epoch": 0.13541333333333333, "grad_norm": 0.02735323479130206, "learning_rate": 0.0001, "loss": 0.9623, "step": 2539 }, { "epoch": 0.13546666666666668, "grad_norm": 0.025104209436796966, "learning_rate": 0.0001, "loss": 0.9444, "step": 2540 }, { "epoch": 0.13552, "grad_norm": 0.025756674832892713, "learning_rate": 0.0001, "loss": 0.9681, "step": 2541 }, { "epoch": 0.13557333333333332, "grad_norm": 0.02657393036747659, "learning_rate": 0.0001, "loss": 1.0314, "step": 2542 }, { "epoch": 0.13562666666666667, "grad_norm": 0.024482143629784948, "learning_rate": 0.0001, "loss": 1.0235, "step": 2543 }, { "epoch": 0.13568, "grad_norm": 0.02838431289836272, "learning_rate": 0.0001, "loss": 1.0053, "step": 2544 }, { "epoch": 0.13573333333333334, "grad_norm": 0.02432841321590284, "learning_rate": 0.0001, "loss": 1.0281, "step": 2545 }, { "epoch": 0.13578666666666667, "grad_norm": 0.025037331336264592, "learning_rate": 0.0001, "loss": 0.9724, "step": 2546 }, { "epoch": 0.13584, "grad_norm": 0.028215491948489536, "learning_rate": 0.0001, "loss": 1.0036, "step": 2547 }, { "epoch": 0.13589333333333334, "grad_norm": 0.025759057998646064, "learning_rate": 0.0001, "loss": 1.0198, "step": 2548 }, { "epoch": 0.13594666666666666, "grad_norm": 0.024869386461811145, "learning_rate": 0.0001, "loss": 1.0125, "step": 2549 }, { "epoch": 0.136, "grad_norm": 0.026275333401595782, "learning_rate": 0.0001, "loss": 0.9317, "step": 2550 }, { "epoch": 0.13605333333333333, "grad_norm": 0.025140021533499927, "learning_rate": 0.0001, "loss": 1.0, "step": 2551 }, { "epoch": 0.13610666666666665, "grad_norm": 0.024816949849497998, "learning_rate": 0.0001, "loss": 0.9813, "step": 2552 }, { "epoch": 0.13616, "grad_norm": 0.024732592806981795, "learning_rate": 0.0001, "loss": 1.0159, "step": 2553 }, { "epoch": 0.13621333333333333, "grad_norm": 0.027276506592735904, "learning_rate": 0.0001, "loss": 0.9591, "step": 2554 }, { "epoch": 0.13626666666666667, "grad_norm": 0.026085535992041175, "learning_rate": 0.0001, "loss": 1.0244, "step": 2555 }, { "epoch": 0.13632, "grad_norm": 0.0248413515083484, "learning_rate": 0.0001, "loss": 1.0295, "step": 2556 }, { "epoch": 0.13637333333333335, "grad_norm": 0.027673867925348625, "learning_rate": 0.0001, "loss": 1.0091, "step": 2557 }, { "epoch": 0.13642666666666667, "grad_norm": 0.02695344144965508, "learning_rate": 0.0001, "loss": 1.0063, "step": 2558 }, { "epoch": 0.13648, "grad_norm": 0.027903411915496376, "learning_rate": 0.0001, "loss": 0.9785, "step": 2559 }, { "epoch": 0.13653333333333334, "grad_norm": 0.02546242200937013, "learning_rate": 0.0001, "loss": 1.0226, "step": 2560 }, { "epoch": 0.13658666666666666, "grad_norm": 0.026228288998459647, "learning_rate": 0.0001, "loss": 0.9775, "step": 2561 }, { "epoch": 0.13664, "grad_norm": 0.025721312026925434, "learning_rate": 0.0001, "loss": 1.0331, "step": 2562 }, { "epoch": 0.13669333333333333, "grad_norm": 0.026183412423374595, "learning_rate": 0.0001, "loss": 0.9466, "step": 2563 }, { "epoch": 0.13674666666666666, "grad_norm": 0.02585875399781246, "learning_rate": 0.0001, "loss": 1.0176, "step": 2564 }, { "epoch": 0.1368, "grad_norm": 0.02501941730778989, "learning_rate": 0.0001, "loss": 1.0209, "step": 2565 }, { "epoch": 0.13685333333333333, "grad_norm": 0.026684856971090756, "learning_rate": 0.0001, "loss": 0.9759, "step": 2566 }, { "epoch": 0.13690666666666668, "grad_norm": 0.024946264000052745, "learning_rate": 0.0001, "loss": 1.0264, "step": 2567 }, { "epoch": 0.13696, "grad_norm": 0.025612862109991526, "learning_rate": 0.0001, "loss": 0.9566, "step": 2568 }, { "epoch": 0.13701333333333332, "grad_norm": 0.026334521302552028, "learning_rate": 0.0001, "loss": 0.9915, "step": 2569 }, { "epoch": 0.13706666666666667, "grad_norm": 0.023763591171388126, "learning_rate": 0.0001, "loss": 0.9544, "step": 2570 }, { "epoch": 0.13712, "grad_norm": 0.029498249723808906, "learning_rate": 0.0001, "loss": 0.9821, "step": 2571 }, { "epoch": 0.13717333333333334, "grad_norm": 0.024593921883491014, "learning_rate": 0.0001, "loss": 1.0476, "step": 2572 }, { "epoch": 0.13722666666666666, "grad_norm": 0.024077919992433743, "learning_rate": 0.0001, "loss": 0.9894, "step": 2573 }, { "epoch": 0.13728, "grad_norm": 0.02607019916301255, "learning_rate": 0.0001, "loss": 0.984, "step": 2574 }, { "epoch": 0.13733333333333334, "grad_norm": 0.023720366288824055, "learning_rate": 0.0001, "loss": 0.985, "step": 2575 }, { "epoch": 0.13738666666666666, "grad_norm": 0.025292896484229256, "learning_rate": 0.0001, "loss": 0.9843, "step": 2576 }, { "epoch": 0.13744, "grad_norm": 0.025071731661950106, "learning_rate": 0.0001, "loss": 1.0438, "step": 2577 }, { "epoch": 0.13749333333333333, "grad_norm": 0.023552720616178493, "learning_rate": 0.0001, "loss": 0.953, "step": 2578 }, { "epoch": 0.13754666666666668, "grad_norm": 0.024087673908280118, "learning_rate": 0.0001, "loss": 0.9872, "step": 2579 }, { "epoch": 0.1376, "grad_norm": 0.025345917840909317, "learning_rate": 0.0001, "loss": 1.0049, "step": 2580 }, { "epoch": 0.13765333333333332, "grad_norm": 0.026321341078370742, "learning_rate": 0.0001, "loss": 0.9617, "step": 2581 }, { "epoch": 0.13770666666666667, "grad_norm": 0.02841851854318182, "learning_rate": 0.0001, "loss": 1.0382, "step": 2582 }, { "epoch": 0.13776, "grad_norm": 0.026095912629496915, "learning_rate": 0.0001, "loss": 0.9793, "step": 2583 }, { "epoch": 0.13781333333333334, "grad_norm": 0.026026993599244354, "learning_rate": 0.0001, "loss": 1.0297, "step": 2584 }, { "epoch": 0.13786666666666667, "grad_norm": 0.02444476046365975, "learning_rate": 0.0001, "loss": 0.993, "step": 2585 }, { "epoch": 0.13792, "grad_norm": 0.026195904902520106, "learning_rate": 0.0001, "loss": 1.0176, "step": 2586 }, { "epoch": 0.13797333333333334, "grad_norm": 0.024042333761926247, "learning_rate": 0.0001, "loss": 1.0122, "step": 2587 }, { "epoch": 0.13802666666666666, "grad_norm": 0.027787867805233454, "learning_rate": 0.0001, "loss": 1.0616, "step": 2588 }, { "epoch": 0.13808, "grad_norm": 0.023178406567787208, "learning_rate": 0.0001, "loss": 1.0544, "step": 2589 }, { "epoch": 0.13813333333333333, "grad_norm": 0.024588025202470137, "learning_rate": 0.0001, "loss": 1.0501, "step": 2590 }, { "epoch": 0.13818666666666668, "grad_norm": 0.02853139722965526, "learning_rate": 0.0001, "loss": 1.0364, "step": 2591 }, { "epoch": 0.13824, "grad_norm": 0.02575936731255047, "learning_rate": 0.0001, "loss": 1.0557, "step": 2592 }, { "epoch": 0.13829333333333332, "grad_norm": 0.025254462076794826, "learning_rate": 0.0001, "loss": 1.0102, "step": 2593 }, { "epoch": 0.13834666666666667, "grad_norm": 0.025730025679997937, "learning_rate": 0.0001, "loss": 0.9777, "step": 2594 }, { "epoch": 0.1384, "grad_norm": 0.027112233256905482, "learning_rate": 0.0001, "loss": 1.0137, "step": 2595 }, { "epoch": 0.13845333333333334, "grad_norm": 0.025551615892635632, "learning_rate": 0.0001, "loss": 1.0126, "step": 2596 }, { "epoch": 0.13850666666666667, "grad_norm": 0.025260338718270173, "learning_rate": 0.0001, "loss": 1.019, "step": 2597 }, { "epoch": 0.13856, "grad_norm": 0.02890897324716828, "learning_rate": 0.0001, "loss": 0.9787, "step": 2598 }, { "epoch": 0.13861333333333334, "grad_norm": 0.02391456311206752, "learning_rate": 0.0001, "loss": 0.9702, "step": 2599 }, { "epoch": 0.13866666666666666, "grad_norm": 0.028134965192061767, "learning_rate": 0.0001, "loss": 1.0617, "step": 2600 }, { "epoch": 0.13866666666666666, "eval_accuracy": 0.6137333405256724, "eval_loss": 1.3900363445281982, "eval_runtime": 63.0234, "eval_samples_per_second": 15.867, "eval_steps_per_second": 0.508, "step": 2600 }, { "epoch": 0.13872, "grad_norm": 0.024862943747980766, "learning_rate": 0.0001, "loss": 0.9695, "step": 2601 }, { "epoch": 0.13877333333333333, "grad_norm": 0.025525051220570173, "learning_rate": 0.0001, "loss": 0.9467, "step": 2602 }, { "epoch": 0.13882666666666665, "grad_norm": 0.027003436235548423, "learning_rate": 0.0001, "loss": 1.0149, "step": 2603 }, { "epoch": 0.13888, "grad_norm": 0.023663377952534207, "learning_rate": 0.0001, "loss": 1.0432, "step": 2604 }, { "epoch": 0.13893333333333333, "grad_norm": 0.024631317510611567, "learning_rate": 0.0001, "loss": 0.983, "step": 2605 }, { "epoch": 0.13898666666666668, "grad_norm": 0.02485033763178534, "learning_rate": 0.0001, "loss": 0.9831, "step": 2606 }, { "epoch": 0.13904, "grad_norm": 0.025780986143720305, "learning_rate": 0.0001, "loss": 1.0109, "step": 2607 }, { "epoch": 0.13909333333333335, "grad_norm": 0.025408207878083056, "learning_rate": 0.0001, "loss": 0.9685, "step": 2608 }, { "epoch": 0.13914666666666667, "grad_norm": 0.02450030345203153, "learning_rate": 0.0001, "loss": 0.9615, "step": 2609 }, { "epoch": 0.1392, "grad_norm": 0.02595900558949242, "learning_rate": 0.0001, "loss": 0.9621, "step": 2610 }, { "epoch": 0.13925333333333334, "grad_norm": 0.024393722625318085, "learning_rate": 0.0001, "loss": 1.0733, "step": 2611 }, { "epoch": 0.13930666666666666, "grad_norm": 0.029334215775210715, "learning_rate": 0.0001, "loss": 0.9207, "step": 2612 }, { "epoch": 0.13936, "grad_norm": 0.026502231075397086, "learning_rate": 0.0001, "loss": 1.0172, "step": 2613 }, { "epoch": 0.13941333333333333, "grad_norm": 0.026007597025093608, "learning_rate": 0.0001, "loss": 1.0371, "step": 2614 }, { "epoch": 0.13946666666666666, "grad_norm": 0.02594532716270889, "learning_rate": 0.0001, "loss": 0.9495, "step": 2615 }, { "epoch": 0.13952, "grad_norm": 0.02514381398934066, "learning_rate": 0.0001, "loss": 1.0566, "step": 2616 }, { "epoch": 0.13957333333333333, "grad_norm": 0.027272351724306147, "learning_rate": 0.0001, "loss": 1.0028, "step": 2617 }, { "epoch": 0.13962666666666668, "grad_norm": 0.025583557086364003, "learning_rate": 0.0001, "loss": 1.0058, "step": 2618 }, { "epoch": 0.13968, "grad_norm": 0.028493818318657715, "learning_rate": 0.0001, "loss": 0.9453, "step": 2619 }, { "epoch": 0.13973333333333332, "grad_norm": 0.0287296137797384, "learning_rate": 0.0001, "loss": 1.0561, "step": 2620 }, { "epoch": 0.13978666666666667, "grad_norm": 0.02292089251573787, "learning_rate": 0.0001, "loss": 0.9749, "step": 2621 }, { "epoch": 0.13984, "grad_norm": 0.028698104981451866, "learning_rate": 0.0001, "loss": 0.979, "step": 2622 }, { "epoch": 0.13989333333333334, "grad_norm": 0.0246713364256968, "learning_rate": 0.0001, "loss": 1.0168, "step": 2623 }, { "epoch": 0.13994666666666666, "grad_norm": 0.02633970641846593, "learning_rate": 0.0001, "loss": 1.0252, "step": 2624 }, { "epoch": 0.14, "grad_norm": 0.02537741989665436, "learning_rate": 0.0001, "loss": 0.9924, "step": 2625 }, { "epoch": 0.14005333333333334, "grad_norm": 0.02708875876902672, "learning_rate": 0.0001, "loss": 1.0002, "step": 2626 }, { "epoch": 0.14010666666666666, "grad_norm": 0.024308085237655132, "learning_rate": 0.0001, "loss": 0.9795, "step": 2627 }, { "epoch": 0.14016, "grad_norm": 0.02596377461267972, "learning_rate": 0.0001, "loss": 1.0104, "step": 2628 }, { "epoch": 0.14021333333333333, "grad_norm": 0.025272053211035723, "learning_rate": 0.0001, "loss": 1.0364, "step": 2629 }, { "epoch": 0.14026666666666668, "grad_norm": 0.02755252140793635, "learning_rate": 0.0001, "loss": 0.9651, "step": 2630 }, { "epoch": 0.14032, "grad_norm": 0.027866052313090812, "learning_rate": 0.0001, "loss": 0.9953, "step": 2631 }, { "epoch": 0.14037333333333332, "grad_norm": 0.025391482655007992, "learning_rate": 0.0001, "loss": 0.9585, "step": 2632 }, { "epoch": 0.14042666666666667, "grad_norm": 0.025498570337314685, "learning_rate": 0.0001, "loss": 0.9552, "step": 2633 }, { "epoch": 0.14048, "grad_norm": 0.025341810499454758, "learning_rate": 0.0001, "loss": 1.0067, "step": 2634 }, { "epoch": 0.14053333333333334, "grad_norm": 0.025746259971403937, "learning_rate": 0.0001, "loss": 0.9401, "step": 2635 }, { "epoch": 0.14058666666666667, "grad_norm": 0.025809588909920685, "learning_rate": 0.0001, "loss": 0.9333, "step": 2636 }, { "epoch": 0.14064, "grad_norm": 0.02557680311449539, "learning_rate": 0.0001, "loss": 0.9792, "step": 2637 }, { "epoch": 0.14069333333333334, "grad_norm": 0.038947207133825656, "learning_rate": 0.0001, "loss": 1.0079, "step": 2638 }, { "epoch": 0.14074666666666666, "grad_norm": 0.025439636224794046, "learning_rate": 0.0001, "loss": 1.0524, "step": 2639 }, { "epoch": 0.1408, "grad_norm": 0.026536376473168616, "learning_rate": 0.0001, "loss": 1.0907, "step": 2640 }, { "epoch": 0.14085333333333333, "grad_norm": 0.025688111298227817, "learning_rate": 0.0001, "loss": 0.989, "step": 2641 }, { "epoch": 0.14090666666666668, "grad_norm": 0.026505147509797034, "learning_rate": 0.0001, "loss": 1.0153, "step": 2642 }, { "epoch": 0.14096, "grad_norm": 0.02842259260340287, "learning_rate": 0.0001, "loss": 1.0105, "step": 2643 }, { "epoch": 0.14101333333333332, "grad_norm": 0.027257631233449927, "learning_rate": 0.0001, "loss": 0.9922, "step": 2644 }, { "epoch": 0.14106666666666667, "grad_norm": 0.025542899428963622, "learning_rate": 0.0001, "loss": 0.9905, "step": 2645 }, { "epoch": 0.14112, "grad_norm": 0.026771752704557436, "learning_rate": 0.0001, "loss": 1.0526, "step": 2646 }, { "epoch": 0.14117333333333335, "grad_norm": 0.02455576281192113, "learning_rate": 0.0001, "loss": 1.0377, "step": 2647 }, { "epoch": 0.14122666666666667, "grad_norm": 0.025369563102262013, "learning_rate": 0.0001, "loss": 0.9672, "step": 2648 }, { "epoch": 0.14128, "grad_norm": 0.029961673435334738, "learning_rate": 0.0001, "loss": 0.9419, "step": 2649 }, { "epoch": 0.14133333333333334, "grad_norm": 0.023264132383748286, "learning_rate": 0.0001, "loss": 1.0019, "step": 2650 }, { "epoch": 0.14138666666666666, "grad_norm": 0.027984391888712875, "learning_rate": 0.0001, "loss": 1.0339, "step": 2651 }, { "epoch": 0.14144, "grad_norm": 0.027018386389746782, "learning_rate": 0.0001, "loss": 0.9745, "step": 2652 }, { "epoch": 0.14149333333333333, "grad_norm": 0.028409441680205292, "learning_rate": 0.0001, "loss": 0.966, "step": 2653 }, { "epoch": 0.14154666666666665, "grad_norm": 0.02511401735616857, "learning_rate": 0.0001, "loss": 0.9836, "step": 2654 }, { "epoch": 0.1416, "grad_norm": 0.02476112740198162, "learning_rate": 0.0001, "loss": 0.9466, "step": 2655 }, { "epoch": 0.14165333333333333, "grad_norm": 0.02893587637632726, "learning_rate": 0.0001, "loss": 1.022, "step": 2656 }, { "epoch": 0.14170666666666668, "grad_norm": 0.023552981067350237, "learning_rate": 0.0001, "loss": 0.9689, "step": 2657 }, { "epoch": 0.14176, "grad_norm": 0.02622360133242475, "learning_rate": 0.0001, "loss": 1.0223, "step": 2658 }, { "epoch": 0.14181333333333335, "grad_norm": 0.024786651432153004, "learning_rate": 0.0001, "loss": 1.0098, "step": 2659 }, { "epoch": 0.14186666666666667, "grad_norm": 0.02530066919481406, "learning_rate": 0.0001, "loss": 1.0109, "step": 2660 }, { "epoch": 0.14192, "grad_norm": 0.0260942729000623, "learning_rate": 0.0001, "loss": 1.0685, "step": 2661 }, { "epoch": 0.14197333333333334, "grad_norm": 0.0255219969521345, "learning_rate": 0.0001, "loss": 1.0075, "step": 2662 }, { "epoch": 0.14202666666666666, "grad_norm": 0.023966830505345954, "learning_rate": 0.0001, "loss": 0.9659, "step": 2663 }, { "epoch": 0.14208, "grad_norm": 0.025926387207645195, "learning_rate": 0.0001, "loss": 0.9864, "step": 2664 }, { "epoch": 0.14213333333333333, "grad_norm": 0.026225994829786724, "learning_rate": 0.0001, "loss": 0.9619, "step": 2665 }, { "epoch": 0.14218666666666666, "grad_norm": 0.02696788502115314, "learning_rate": 0.0001, "loss": 0.9595, "step": 2666 }, { "epoch": 0.14224, "grad_norm": 0.026776764312423457, "learning_rate": 0.0001, "loss": 0.9729, "step": 2667 }, { "epoch": 0.14229333333333333, "grad_norm": 0.025963764538398916, "learning_rate": 0.0001, "loss": 0.9771, "step": 2668 }, { "epoch": 0.14234666666666668, "grad_norm": 0.029425250246592972, "learning_rate": 0.0001, "loss": 0.8891, "step": 2669 }, { "epoch": 0.1424, "grad_norm": 0.027846219934749682, "learning_rate": 0.0001, "loss": 1.0518, "step": 2670 }, { "epoch": 0.14245333333333332, "grad_norm": 0.02850328939279767, "learning_rate": 0.0001, "loss": 0.9788, "step": 2671 }, { "epoch": 0.14250666666666667, "grad_norm": 0.029692858359051826, "learning_rate": 0.0001, "loss": 0.9918, "step": 2672 }, { "epoch": 0.14256, "grad_norm": 0.0281631365061367, "learning_rate": 0.0001, "loss": 1.0342, "step": 2673 }, { "epoch": 0.14261333333333334, "grad_norm": 0.024229058701941624, "learning_rate": 0.0001, "loss": 0.9953, "step": 2674 }, { "epoch": 0.14266666666666666, "grad_norm": 0.027874118432111735, "learning_rate": 0.0001, "loss": 0.9839, "step": 2675 }, { "epoch": 0.14272, "grad_norm": 0.028495394679346035, "learning_rate": 0.0001, "loss": 1.0393, "step": 2676 }, { "epoch": 0.14277333333333334, "grad_norm": 0.02563590256219751, "learning_rate": 0.0001, "loss": 0.9897, "step": 2677 }, { "epoch": 0.14282666666666666, "grad_norm": 0.02586419990803338, "learning_rate": 0.0001, "loss": 1.0555, "step": 2678 }, { "epoch": 0.14288, "grad_norm": 0.03013638140770379, "learning_rate": 0.0001, "loss": 1.0446, "step": 2679 }, { "epoch": 0.14293333333333333, "grad_norm": 0.024957557098993364, "learning_rate": 0.0001, "loss": 1.0164, "step": 2680 }, { "epoch": 0.14298666666666668, "grad_norm": 0.025151006626037097, "learning_rate": 0.0001, "loss": 1.0037, "step": 2681 }, { "epoch": 0.14304, "grad_norm": 0.026778775588101635, "learning_rate": 0.0001, "loss": 0.9607, "step": 2682 }, { "epoch": 0.14309333333333332, "grad_norm": 0.02484208449566377, "learning_rate": 0.0001, "loss": 1.0389, "step": 2683 }, { "epoch": 0.14314666666666667, "grad_norm": 0.026558853204208158, "learning_rate": 0.0001, "loss": 0.9949, "step": 2684 }, { "epoch": 0.1432, "grad_norm": 0.02279163461348191, "learning_rate": 0.0001, "loss": 0.9941, "step": 2685 }, { "epoch": 0.14325333333333334, "grad_norm": 0.024493234205147568, "learning_rate": 0.0001, "loss": 0.9485, "step": 2686 }, { "epoch": 0.14330666666666667, "grad_norm": 0.025118562888041658, "learning_rate": 0.0001, "loss": 1.0528, "step": 2687 }, { "epoch": 0.14336, "grad_norm": 0.02481912398764666, "learning_rate": 0.0001, "loss": 0.9993, "step": 2688 }, { "epoch": 0.14341333333333334, "grad_norm": 0.02438143287695143, "learning_rate": 0.0001, "loss": 1.0076, "step": 2689 }, { "epoch": 0.14346666666666666, "grad_norm": 0.02615728006824538, "learning_rate": 0.0001, "loss": 1.0401, "step": 2690 }, { "epoch": 0.14352, "grad_norm": 0.026064675062291466, "learning_rate": 0.0001, "loss": 0.9459, "step": 2691 }, { "epoch": 0.14357333333333333, "grad_norm": 0.02444728195182971, "learning_rate": 0.0001, "loss": 1.0065, "step": 2692 }, { "epoch": 0.14362666666666668, "grad_norm": 0.025073866154143247, "learning_rate": 0.0001, "loss": 1.019, "step": 2693 }, { "epoch": 0.14368, "grad_norm": 0.025448441414364125, "learning_rate": 0.0001, "loss": 0.9973, "step": 2694 }, { "epoch": 0.14373333333333332, "grad_norm": 0.02467075097100307, "learning_rate": 0.0001, "loss": 0.9663, "step": 2695 }, { "epoch": 0.14378666666666667, "grad_norm": 0.026280009175482465, "learning_rate": 0.0001, "loss": 0.9914, "step": 2696 }, { "epoch": 0.14384, "grad_norm": 0.0273784225417393, "learning_rate": 0.0001, "loss": 0.9679, "step": 2697 }, { "epoch": 0.14389333333333335, "grad_norm": 0.025019042285155144, "learning_rate": 0.0001, "loss": 1.062, "step": 2698 }, { "epoch": 0.14394666666666667, "grad_norm": 0.024229334900956315, "learning_rate": 0.0001, "loss": 0.9685, "step": 2699 }, { "epoch": 0.144, "grad_norm": 0.025810613426563937, "learning_rate": 0.0001, "loss": 0.9128, "step": 2700 }, { "epoch": 0.14405333333333334, "grad_norm": 0.023932449443283942, "learning_rate": 0.0001, "loss": 0.9639, "step": 2701 }, { "epoch": 0.14410666666666666, "grad_norm": 0.02550725318706644, "learning_rate": 0.0001, "loss": 0.9804, "step": 2702 }, { "epoch": 0.14416, "grad_norm": 0.025373906620327267, "learning_rate": 0.0001, "loss": 0.9336, "step": 2703 }, { "epoch": 0.14421333333333333, "grad_norm": 0.026265336433578597, "learning_rate": 0.0001, "loss": 0.9448, "step": 2704 }, { "epoch": 0.14426666666666665, "grad_norm": 0.02498384589544867, "learning_rate": 0.0001, "loss": 0.9736, "step": 2705 }, { "epoch": 0.14432, "grad_norm": 0.0247373958350784, "learning_rate": 0.0001, "loss": 1.0203, "step": 2706 }, { "epoch": 0.14437333333333333, "grad_norm": 0.02517943615096499, "learning_rate": 0.0001, "loss": 1.0295, "step": 2707 }, { "epoch": 0.14442666666666668, "grad_norm": 0.025531195053796595, "learning_rate": 0.0001, "loss": 1.0004, "step": 2708 }, { "epoch": 0.14448, "grad_norm": 0.026069787148781973, "learning_rate": 0.0001, "loss": 0.9953, "step": 2709 }, { "epoch": 0.14453333333333335, "grad_norm": 0.024690351545501175, "learning_rate": 0.0001, "loss": 1.0007, "step": 2710 }, { "epoch": 0.14458666666666667, "grad_norm": 0.02587904706943516, "learning_rate": 0.0001, "loss": 0.9953, "step": 2711 }, { "epoch": 0.14464, "grad_norm": 0.028272996949695987, "learning_rate": 0.0001, "loss": 0.9898, "step": 2712 }, { "epoch": 0.14469333333333334, "grad_norm": 0.025863652917902588, "learning_rate": 0.0001, "loss": 1.0083, "step": 2713 }, { "epoch": 0.14474666666666666, "grad_norm": 0.024604782384084395, "learning_rate": 0.0001, "loss": 0.998, "step": 2714 }, { "epoch": 0.1448, "grad_norm": 0.02802595113903341, "learning_rate": 0.0001, "loss": 1.0114, "step": 2715 }, { "epoch": 0.14485333333333333, "grad_norm": 0.02610098480349537, "learning_rate": 0.0001, "loss": 0.9918, "step": 2716 }, { "epoch": 0.14490666666666666, "grad_norm": 0.027245629016469125, "learning_rate": 0.0001, "loss": 1.0676, "step": 2717 }, { "epoch": 0.14496, "grad_norm": 0.026818265854891447, "learning_rate": 0.0001, "loss": 1.0045, "step": 2718 }, { "epoch": 0.14501333333333333, "grad_norm": 0.027226937644376992, "learning_rate": 0.0001, "loss": 0.9981, "step": 2719 }, { "epoch": 0.14506666666666668, "grad_norm": 0.02625520212515318, "learning_rate": 0.0001, "loss": 0.9635, "step": 2720 }, { "epoch": 0.14512, "grad_norm": 0.027772670146473964, "learning_rate": 0.0001, "loss": 0.9791, "step": 2721 }, { "epoch": 0.14517333333333332, "grad_norm": 0.02408441084347495, "learning_rate": 0.0001, "loss": 0.9939, "step": 2722 }, { "epoch": 0.14522666666666667, "grad_norm": 0.026666380285320628, "learning_rate": 0.0001, "loss": 1.0335, "step": 2723 }, { "epoch": 0.14528, "grad_norm": 0.02697281582160539, "learning_rate": 0.0001, "loss": 1.04, "step": 2724 }, { "epoch": 0.14533333333333334, "grad_norm": 0.02689380444065316, "learning_rate": 0.0001, "loss": 1.0091, "step": 2725 }, { "epoch": 0.14538666666666666, "grad_norm": 0.02651993280043551, "learning_rate": 0.0001, "loss": 1.0108, "step": 2726 }, { "epoch": 0.14544, "grad_norm": 0.02919969371434643, "learning_rate": 0.0001, "loss": 0.9511, "step": 2727 }, { "epoch": 0.14549333333333334, "grad_norm": 0.023680235004573745, "learning_rate": 0.0001, "loss": 1.0226, "step": 2728 }, { "epoch": 0.14554666666666666, "grad_norm": 0.024530714130020077, "learning_rate": 0.0001, "loss": 1.0183, "step": 2729 }, { "epoch": 0.1456, "grad_norm": 0.027970079859773143, "learning_rate": 0.0001, "loss": 0.9771, "step": 2730 }, { "epoch": 0.14565333333333333, "grad_norm": 0.024533302154258984, "learning_rate": 0.0001, "loss": 0.9863, "step": 2731 }, { "epoch": 0.14570666666666668, "grad_norm": 0.028375678711412108, "learning_rate": 0.0001, "loss": 1.0273, "step": 2732 }, { "epoch": 0.14576, "grad_norm": 0.026321284073009467, "learning_rate": 0.0001, "loss": 0.9942, "step": 2733 }, { "epoch": 0.14581333333333332, "grad_norm": 0.024665802843255237, "learning_rate": 0.0001, "loss": 0.9172, "step": 2734 }, { "epoch": 0.14586666666666667, "grad_norm": 0.026652343681344774, "learning_rate": 0.0001, "loss": 0.9804, "step": 2735 }, { "epoch": 0.14592, "grad_norm": 0.03758628154063529, "learning_rate": 0.0001, "loss": 0.9265, "step": 2736 }, { "epoch": 0.14597333333333334, "grad_norm": 0.025710509044604354, "learning_rate": 0.0001, "loss": 0.9455, "step": 2737 }, { "epoch": 0.14602666666666667, "grad_norm": 0.024955987550990162, "learning_rate": 0.0001, "loss": 0.9321, "step": 2738 }, { "epoch": 0.14608, "grad_norm": 0.02697638559364808, "learning_rate": 0.0001, "loss": 1.002, "step": 2739 }, { "epoch": 0.14613333333333334, "grad_norm": 0.024792137384114506, "learning_rate": 0.0001, "loss": 0.99, "step": 2740 }, { "epoch": 0.14618666666666666, "grad_norm": 0.02489193806116384, "learning_rate": 0.0001, "loss": 0.95, "step": 2741 }, { "epoch": 0.14624, "grad_norm": 0.02447527882413921, "learning_rate": 0.0001, "loss": 0.9879, "step": 2742 }, { "epoch": 0.14629333333333333, "grad_norm": 0.026311897810817074, "learning_rate": 0.0001, "loss": 0.9535, "step": 2743 }, { "epoch": 0.14634666666666668, "grad_norm": 0.025468308510182294, "learning_rate": 0.0001, "loss": 0.9864, "step": 2744 }, { "epoch": 0.1464, "grad_norm": 0.024538090057487538, "learning_rate": 0.0001, "loss": 1.0018, "step": 2745 }, { "epoch": 0.14645333333333332, "grad_norm": 0.028289484215942417, "learning_rate": 0.0001, "loss": 0.9464, "step": 2746 }, { "epoch": 0.14650666666666667, "grad_norm": 0.024181043604899696, "learning_rate": 0.0001, "loss": 0.9719, "step": 2747 }, { "epoch": 0.14656, "grad_norm": 0.026365849626972943, "learning_rate": 0.0001, "loss": 1.0119, "step": 2748 }, { "epoch": 0.14661333333333335, "grad_norm": 0.024868929720185437, "learning_rate": 0.0001, "loss": 1.0273, "step": 2749 }, { "epoch": 0.14666666666666667, "grad_norm": 0.025390836999145402, "learning_rate": 0.0001, "loss": 0.9591, "step": 2750 }, { "epoch": 0.14672, "grad_norm": 0.02696300339727224, "learning_rate": 0.0001, "loss": 0.9966, "step": 2751 }, { "epoch": 0.14677333333333334, "grad_norm": 0.027356040955980942, "learning_rate": 0.0001, "loss": 0.9993, "step": 2752 }, { "epoch": 0.14682666666666666, "grad_norm": 0.02613914827878609, "learning_rate": 0.0001, "loss": 1.002, "step": 2753 }, { "epoch": 0.14688, "grad_norm": 0.026464411637016346, "learning_rate": 0.0001, "loss": 1.0444, "step": 2754 }, { "epoch": 0.14693333333333333, "grad_norm": 0.028048320914655867, "learning_rate": 0.0001, "loss": 1.0209, "step": 2755 }, { "epoch": 0.14698666666666665, "grad_norm": 0.024288520501070415, "learning_rate": 0.0001, "loss": 1.0047, "step": 2756 }, { "epoch": 0.14704, "grad_norm": 0.025465650267997568, "learning_rate": 0.0001, "loss": 1.0012, "step": 2757 }, { "epoch": 0.14709333333333333, "grad_norm": 0.026366848071242625, "learning_rate": 0.0001, "loss": 1.0289, "step": 2758 }, { "epoch": 0.14714666666666668, "grad_norm": 0.025568848242606548, "learning_rate": 0.0001, "loss": 0.9955, "step": 2759 }, { "epoch": 0.1472, "grad_norm": 0.025147463118760444, "learning_rate": 0.0001, "loss": 1.0359, "step": 2760 }, { "epoch": 0.14725333333333335, "grad_norm": 0.025305144505655457, "learning_rate": 0.0001, "loss": 1.0067, "step": 2761 }, { "epoch": 0.14730666666666667, "grad_norm": 0.028522066482270594, "learning_rate": 0.0001, "loss": 0.9596, "step": 2762 }, { "epoch": 0.14736, "grad_norm": 0.025909302017571613, "learning_rate": 0.0001, "loss": 0.9507, "step": 2763 }, { "epoch": 0.14741333333333334, "grad_norm": 0.02608745829928049, "learning_rate": 0.0001, "loss": 1.0391, "step": 2764 }, { "epoch": 0.14746666666666666, "grad_norm": 0.024293182052040365, "learning_rate": 0.0001, "loss": 0.9758, "step": 2765 }, { "epoch": 0.14752, "grad_norm": 0.027601253351873068, "learning_rate": 0.0001, "loss": 0.9955, "step": 2766 }, { "epoch": 0.14757333333333333, "grad_norm": 0.02678148978714192, "learning_rate": 0.0001, "loss": 0.9898, "step": 2767 }, { "epoch": 0.14762666666666666, "grad_norm": 0.025706594111318943, "learning_rate": 0.0001, "loss": 0.9966, "step": 2768 }, { "epoch": 0.14768, "grad_norm": 0.030563969262975176, "learning_rate": 0.0001, "loss": 1.0221, "step": 2769 }, { "epoch": 0.14773333333333333, "grad_norm": 0.026582521359890313, "learning_rate": 0.0001, "loss": 0.9781, "step": 2770 }, { "epoch": 0.14778666666666668, "grad_norm": 0.0267643591917065, "learning_rate": 0.0001, "loss": 1.0131, "step": 2771 }, { "epoch": 0.14784, "grad_norm": 0.02917170873893574, "learning_rate": 0.0001, "loss": 1.0191, "step": 2772 }, { "epoch": 0.14789333333333332, "grad_norm": 0.024958019784447626, "learning_rate": 0.0001, "loss": 0.9231, "step": 2773 }, { "epoch": 0.14794666666666667, "grad_norm": 0.026637681952243693, "learning_rate": 0.0001, "loss": 0.992, "step": 2774 }, { "epoch": 0.148, "grad_norm": 0.026847482602202263, "learning_rate": 0.0001, "loss": 1.0509, "step": 2775 }, { "epoch": 0.14805333333333334, "grad_norm": 0.025349565617077924, "learning_rate": 0.0001, "loss": 0.9734, "step": 2776 }, { "epoch": 0.14810666666666666, "grad_norm": 0.028531804694556708, "learning_rate": 0.0001, "loss": 1.0254, "step": 2777 }, { "epoch": 0.14816, "grad_norm": 0.028485615631246103, "learning_rate": 0.0001, "loss": 1.0092, "step": 2778 }, { "epoch": 0.14821333333333334, "grad_norm": 0.025051916858277384, "learning_rate": 0.0001, "loss": 1.031, "step": 2779 }, { "epoch": 0.14826666666666666, "grad_norm": 0.026063240393538318, "learning_rate": 0.0001, "loss": 1.0279, "step": 2780 }, { "epoch": 0.14832, "grad_norm": 0.026538621968167756, "learning_rate": 0.0001, "loss": 0.9725, "step": 2781 }, { "epoch": 0.14837333333333333, "grad_norm": 0.02480622064429203, "learning_rate": 0.0001, "loss": 0.9302, "step": 2782 }, { "epoch": 0.14842666666666668, "grad_norm": 0.02495916066621976, "learning_rate": 0.0001, "loss": 1.0006, "step": 2783 }, { "epoch": 0.14848, "grad_norm": 0.0257358721476807, "learning_rate": 0.0001, "loss": 1.0497, "step": 2784 }, { "epoch": 0.14853333333333332, "grad_norm": 0.02532600034816729, "learning_rate": 0.0001, "loss": 0.9946, "step": 2785 }, { "epoch": 0.14858666666666667, "grad_norm": 0.025353435664473446, "learning_rate": 0.0001, "loss": 1.0147, "step": 2786 }, { "epoch": 0.14864, "grad_norm": 0.025393443934055487, "learning_rate": 0.0001, "loss": 1.0087, "step": 2787 }, { "epoch": 0.14869333333333334, "grad_norm": 0.023056172004120096, "learning_rate": 0.0001, "loss": 0.9579, "step": 2788 }, { "epoch": 0.14874666666666667, "grad_norm": 0.027186109769382877, "learning_rate": 0.0001, "loss": 1.03, "step": 2789 }, { "epoch": 0.1488, "grad_norm": 0.024644320198268226, "learning_rate": 0.0001, "loss": 1.0103, "step": 2790 }, { "epoch": 0.14885333333333334, "grad_norm": 0.02507849102034624, "learning_rate": 0.0001, "loss": 0.9856, "step": 2791 }, { "epoch": 0.14890666666666666, "grad_norm": 0.026119738538197372, "learning_rate": 0.0001, "loss": 1.0242, "step": 2792 }, { "epoch": 0.14896, "grad_norm": 0.024508947204707903, "learning_rate": 0.0001, "loss": 0.9882, "step": 2793 }, { "epoch": 0.14901333333333333, "grad_norm": 0.026141021240131606, "learning_rate": 0.0001, "loss": 1.0011, "step": 2794 }, { "epoch": 0.14906666666666665, "grad_norm": 0.026229248884924925, "learning_rate": 0.0001, "loss": 1.0177, "step": 2795 }, { "epoch": 0.14912, "grad_norm": 0.024916547319886097, "learning_rate": 0.0001, "loss": 1.0244, "step": 2796 }, { "epoch": 0.14917333333333332, "grad_norm": 0.02429602905394022, "learning_rate": 0.0001, "loss": 1.0406, "step": 2797 }, { "epoch": 0.14922666666666667, "grad_norm": 0.02603921363949961, "learning_rate": 0.0001, "loss": 0.9465, "step": 2798 }, { "epoch": 0.14928, "grad_norm": 0.027163011894236103, "learning_rate": 0.0001, "loss": 1.0313, "step": 2799 }, { "epoch": 0.14933333333333335, "grad_norm": 0.026519805970047976, "learning_rate": 0.0001, "loss": 1.0042, "step": 2800 }, { "epoch": 0.14933333333333335, "eval_accuracy": 0.6142322922153098, "eval_loss": 1.3876816034317017, "eval_runtime": 62.6961, "eval_samples_per_second": 15.95, "eval_steps_per_second": 0.51, "step": 2800 }, { "epoch": 0.14938666666666667, "grad_norm": 0.025259762171917343, "learning_rate": 0.0001, "loss": 0.986, "step": 2801 }, { "epoch": 0.14944, "grad_norm": 0.02641761425582143, "learning_rate": 0.0001, "loss": 1.0196, "step": 2802 }, { "epoch": 0.14949333333333334, "grad_norm": 0.025959940332761625, "learning_rate": 0.0001, "loss": 0.9582, "step": 2803 }, { "epoch": 0.14954666666666666, "grad_norm": 0.02653497873745994, "learning_rate": 0.0001, "loss": 0.9801, "step": 2804 }, { "epoch": 0.1496, "grad_norm": 0.025771163535298933, "learning_rate": 0.0001, "loss": 1.033, "step": 2805 }, { "epoch": 0.14965333333333333, "grad_norm": 0.025184705755336385, "learning_rate": 0.0001, "loss": 1.0133, "step": 2806 }, { "epoch": 0.14970666666666665, "grad_norm": 0.024994797074663438, "learning_rate": 0.0001, "loss": 0.9736, "step": 2807 }, { "epoch": 0.14976, "grad_norm": 0.025238282406946252, "learning_rate": 0.0001, "loss": 0.9908, "step": 2808 }, { "epoch": 0.14981333333333333, "grad_norm": 0.02811567870839069, "learning_rate": 0.0001, "loss": 0.9555, "step": 2809 }, { "epoch": 0.14986666666666668, "grad_norm": 0.023763318270643347, "learning_rate": 0.0001, "loss": 0.98, "step": 2810 }, { "epoch": 0.14992, "grad_norm": 0.0268199205727535, "learning_rate": 0.0001, "loss": 1.0383, "step": 2811 }, { "epoch": 0.14997333333333332, "grad_norm": 0.025932318117399714, "learning_rate": 0.0001, "loss": 0.998, "step": 2812 }, { "epoch": 0.15002666666666667, "grad_norm": 0.024998930469127933, "learning_rate": 0.0001, "loss": 0.9912, "step": 2813 }, { "epoch": 0.15008, "grad_norm": 0.02825838714858251, "learning_rate": 0.0001, "loss": 1.0417, "step": 2814 }, { "epoch": 0.15013333333333334, "grad_norm": 0.026473397994837323, "learning_rate": 0.0001, "loss": 0.9848, "step": 2815 }, { "epoch": 0.15018666666666666, "grad_norm": 0.028552343157916948, "learning_rate": 0.0001, "loss": 1.0218, "step": 2816 }, { "epoch": 0.15024, "grad_norm": 0.02748728265055934, "learning_rate": 0.0001, "loss": 1.0338, "step": 2817 }, { "epoch": 0.15029333333333333, "grad_norm": 0.024761626464740213, "learning_rate": 0.0001, "loss": 0.9355, "step": 2818 }, { "epoch": 0.15034666666666666, "grad_norm": 0.027059420307986616, "learning_rate": 0.0001, "loss": 0.9928, "step": 2819 }, { "epoch": 0.1504, "grad_norm": 0.027569625358395425, "learning_rate": 0.0001, "loss": 1.0042, "step": 2820 }, { "epoch": 0.15045333333333333, "grad_norm": 0.02712669710043036, "learning_rate": 0.0001, "loss": 0.9694, "step": 2821 }, { "epoch": 0.15050666666666668, "grad_norm": 0.027695748058775924, "learning_rate": 0.0001, "loss": 1.0448, "step": 2822 }, { "epoch": 0.15056, "grad_norm": 0.026204979771394108, "learning_rate": 0.0001, "loss": 1.0292, "step": 2823 }, { "epoch": 0.15061333333333332, "grad_norm": 0.02678504226732912, "learning_rate": 0.0001, "loss": 1.0103, "step": 2824 }, { "epoch": 0.15066666666666667, "grad_norm": 0.025557768021001716, "learning_rate": 0.0001, "loss": 0.9966, "step": 2825 }, { "epoch": 0.15072, "grad_norm": 0.025902075978160098, "learning_rate": 0.0001, "loss": 0.9885, "step": 2826 }, { "epoch": 0.15077333333333334, "grad_norm": 0.024570037540073603, "learning_rate": 0.0001, "loss": 0.9953, "step": 2827 }, { "epoch": 0.15082666666666666, "grad_norm": 0.024518015835212743, "learning_rate": 0.0001, "loss": 1.0108, "step": 2828 }, { "epoch": 0.15088, "grad_norm": 0.028019139677122773, "learning_rate": 0.0001, "loss": 0.9894, "step": 2829 }, { "epoch": 0.15093333333333334, "grad_norm": 0.0252106089534479, "learning_rate": 0.0001, "loss": 0.9859, "step": 2830 }, { "epoch": 0.15098666666666666, "grad_norm": 0.024870765502341706, "learning_rate": 0.0001, "loss": 1.004, "step": 2831 }, { "epoch": 0.15104, "grad_norm": 0.024142507060385187, "learning_rate": 0.0001, "loss": 0.947, "step": 2832 }, { "epoch": 0.15109333333333333, "grad_norm": 0.02586636862557448, "learning_rate": 0.0001, "loss": 1.025, "step": 2833 }, { "epoch": 0.15114666666666668, "grad_norm": 0.024306646342336154, "learning_rate": 0.0001, "loss": 0.9766, "step": 2834 }, { "epoch": 0.1512, "grad_norm": 0.024932177069190074, "learning_rate": 0.0001, "loss": 0.9916, "step": 2835 }, { "epoch": 0.15125333333333332, "grad_norm": 0.023981629302701542, "learning_rate": 0.0001, "loss": 1.0277, "step": 2836 }, { "epoch": 0.15130666666666667, "grad_norm": 0.025647594265063068, "learning_rate": 0.0001, "loss": 1.0074, "step": 2837 }, { "epoch": 0.15136, "grad_norm": 0.025140152853785087, "learning_rate": 0.0001, "loss": 0.9494, "step": 2838 }, { "epoch": 0.15141333333333334, "grad_norm": 0.025956743427338537, "learning_rate": 0.0001, "loss": 0.9806, "step": 2839 }, { "epoch": 0.15146666666666667, "grad_norm": 0.026324040383475116, "learning_rate": 0.0001, "loss": 1.0193, "step": 2840 }, { "epoch": 0.15152, "grad_norm": 0.023347207743926415, "learning_rate": 0.0001, "loss": 0.983, "step": 2841 }, { "epoch": 0.15157333333333334, "grad_norm": 0.024344378511040824, "learning_rate": 0.0001, "loss": 0.9611, "step": 2842 }, { "epoch": 0.15162666666666666, "grad_norm": 0.02352253442801217, "learning_rate": 0.0001, "loss": 0.9712, "step": 2843 }, { "epoch": 0.15168, "grad_norm": 0.02580567258039093, "learning_rate": 0.0001, "loss": 0.9713, "step": 2844 }, { "epoch": 0.15173333333333333, "grad_norm": 0.025402294982914013, "learning_rate": 0.0001, "loss": 1.042, "step": 2845 }, { "epoch": 0.15178666666666665, "grad_norm": 0.027109818538447655, "learning_rate": 0.0001, "loss": 1.0241, "step": 2846 }, { "epoch": 0.15184, "grad_norm": 0.024091682672027152, "learning_rate": 0.0001, "loss": 0.974, "step": 2847 }, { "epoch": 0.15189333333333332, "grad_norm": 0.027502083945716217, "learning_rate": 0.0001, "loss": 0.9316, "step": 2848 }, { "epoch": 0.15194666666666667, "grad_norm": 0.029453276137018872, "learning_rate": 0.0001, "loss": 1.0482, "step": 2849 }, { "epoch": 0.152, "grad_norm": 0.025507345571367152, "learning_rate": 0.0001, "loss": 0.9914, "step": 2850 }, { "epoch": 0.15205333333333335, "grad_norm": 0.02646848161088942, "learning_rate": 0.0001, "loss": 1.074, "step": 2851 }, { "epoch": 0.15210666666666667, "grad_norm": 0.02478216598167861, "learning_rate": 0.0001, "loss": 0.9344, "step": 2852 }, { "epoch": 0.15216, "grad_norm": 0.02687524002967929, "learning_rate": 0.0001, "loss": 1.0072, "step": 2853 }, { "epoch": 0.15221333333333334, "grad_norm": 0.026157905375242207, "learning_rate": 0.0001, "loss": 0.9673, "step": 2854 }, { "epoch": 0.15226666666666666, "grad_norm": 0.02402650131173148, "learning_rate": 0.0001, "loss": 1.0214, "step": 2855 }, { "epoch": 0.15232, "grad_norm": 0.02860048297481251, "learning_rate": 0.0001, "loss": 0.9377, "step": 2856 }, { "epoch": 0.15237333333333333, "grad_norm": 0.025176096548402842, "learning_rate": 0.0001, "loss": 1.0098, "step": 2857 }, { "epoch": 0.15242666666666665, "grad_norm": 0.027467237475186566, "learning_rate": 0.0001, "loss": 0.9713, "step": 2858 }, { "epoch": 0.15248, "grad_norm": 0.02886570244758702, "learning_rate": 0.0001, "loss": 0.9615, "step": 2859 }, { "epoch": 0.15253333333333333, "grad_norm": 0.026482200654146887, "learning_rate": 0.0001, "loss": 1.0594, "step": 2860 }, { "epoch": 0.15258666666666668, "grad_norm": 0.029101784518223144, "learning_rate": 0.0001, "loss": 1.0048, "step": 2861 }, { "epoch": 0.15264, "grad_norm": 0.028870559197568417, "learning_rate": 0.0001, "loss": 1.0152, "step": 2862 }, { "epoch": 0.15269333333333332, "grad_norm": 0.02499655237392917, "learning_rate": 0.0001, "loss": 0.9879, "step": 2863 }, { "epoch": 0.15274666666666667, "grad_norm": 0.029124618471810824, "learning_rate": 0.0001, "loss": 0.9553, "step": 2864 }, { "epoch": 0.1528, "grad_norm": 0.025623667574923372, "learning_rate": 0.0001, "loss": 1.057, "step": 2865 }, { "epoch": 0.15285333333333334, "grad_norm": 0.0263314742372988, "learning_rate": 0.0001, "loss": 1.0123, "step": 2866 }, { "epoch": 0.15290666666666666, "grad_norm": 0.027473923713546018, "learning_rate": 0.0001, "loss": 1.0103, "step": 2867 }, { "epoch": 0.15296, "grad_norm": 0.026740285432682614, "learning_rate": 0.0001, "loss": 0.9934, "step": 2868 }, { "epoch": 0.15301333333333333, "grad_norm": 0.025642024092611966, "learning_rate": 0.0001, "loss": 0.9586, "step": 2869 }, { "epoch": 0.15306666666666666, "grad_norm": 0.027941689072311638, "learning_rate": 0.0001, "loss": 0.9876, "step": 2870 }, { "epoch": 0.15312, "grad_norm": 0.026886166818726555, "learning_rate": 0.0001, "loss": 1.0131, "step": 2871 }, { "epoch": 0.15317333333333333, "grad_norm": 0.025956399943030242, "learning_rate": 0.0001, "loss": 1.0651, "step": 2872 }, { "epoch": 0.15322666666666668, "grad_norm": 0.02496829391349327, "learning_rate": 0.0001, "loss": 1.0472, "step": 2873 }, { "epoch": 0.15328, "grad_norm": 0.028030230193752736, "learning_rate": 0.0001, "loss": 0.9713, "step": 2874 }, { "epoch": 0.15333333333333332, "grad_norm": 0.028107673515865562, "learning_rate": 0.0001, "loss": 0.9791, "step": 2875 }, { "epoch": 0.15338666666666667, "grad_norm": 0.024488053532057127, "learning_rate": 0.0001, "loss": 0.991, "step": 2876 }, { "epoch": 0.15344, "grad_norm": 0.025534504759887236, "learning_rate": 0.0001, "loss": 0.9214, "step": 2877 }, { "epoch": 0.15349333333333334, "grad_norm": 0.026642606418642113, "learning_rate": 0.0001, "loss": 1.0203, "step": 2878 }, { "epoch": 0.15354666666666666, "grad_norm": 0.027423167833179288, "learning_rate": 0.0001, "loss": 1.0339, "step": 2879 }, { "epoch": 0.1536, "grad_norm": 0.026383439198404395, "learning_rate": 0.0001, "loss": 1.0269, "step": 2880 }, { "epoch": 0.15365333333333334, "grad_norm": 0.026240562216157507, "learning_rate": 0.0001, "loss": 0.99, "step": 2881 }, { "epoch": 0.15370666666666666, "grad_norm": 0.02508074013650424, "learning_rate": 0.0001, "loss": 1.0116, "step": 2882 }, { "epoch": 0.15376, "grad_norm": 0.02544960920796674, "learning_rate": 0.0001, "loss": 1.0264, "step": 2883 }, { "epoch": 0.15381333333333333, "grad_norm": 0.026963058693386374, "learning_rate": 0.0001, "loss": 1.0231, "step": 2884 }, { "epoch": 0.15386666666666668, "grad_norm": 0.025783636586228717, "learning_rate": 0.0001, "loss": 0.9815, "step": 2885 }, { "epoch": 0.15392, "grad_norm": 0.025582755970970966, "learning_rate": 0.0001, "loss": 0.9763, "step": 2886 }, { "epoch": 0.15397333333333332, "grad_norm": 0.0286688248810289, "learning_rate": 0.0001, "loss": 1.0478, "step": 2887 }, { "epoch": 0.15402666666666667, "grad_norm": 0.02768135178020395, "learning_rate": 0.0001, "loss": 1.0187, "step": 2888 }, { "epoch": 0.15408, "grad_norm": 0.023794124668508308, "learning_rate": 0.0001, "loss": 1.0419, "step": 2889 }, { "epoch": 0.15413333333333334, "grad_norm": 0.02750504335717201, "learning_rate": 0.0001, "loss": 0.9775, "step": 2890 }, { "epoch": 0.15418666666666667, "grad_norm": 0.026191349940291677, "learning_rate": 0.0001, "loss": 1.0272, "step": 2891 }, { "epoch": 0.15424, "grad_norm": 0.024696918983346878, "learning_rate": 0.0001, "loss": 1.0605, "step": 2892 }, { "epoch": 0.15429333333333334, "grad_norm": 0.026340187703055806, "learning_rate": 0.0001, "loss": 0.9838, "step": 2893 }, { "epoch": 0.15434666666666666, "grad_norm": 0.025413172249173617, "learning_rate": 0.0001, "loss": 0.9943, "step": 2894 }, { "epoch": 0.1544, "grad_norm": 0.024858848560205586, "learning_rate": 0.0001, "loss": 1.0324, "step": 2895 }, { "epoch": 0.15445333333333333, "grad_norm": 0.02696435983458583, "learning_rate": 0.0001, "loss": 0.9565, "step": 2896 }, { "epoch": 0.15450666666666665, "grad_norm": 0.026879793794955347, "learning_rate": 0.0001, "loss": 1.0168, "step": 2897 }, { "epoch": 0.15456, "grad_norm": 0.02679418918734415, "learning_rate": 0.0001, "loss": 1.016, "step": 2898 }, { "epoch": 0.15461333333333332, "grad_norm": 0.02645374335716224, "learning_rate": 0.0001, "loss": 0.9858, "step": 2899 }, { "epoch": 0.15466666666666667, "grad_norm": 0.02356068026821912, "learning_rate": 0.0001, "loss": 1.0517, "step": 2900 }, { "epoch": 0.15472, "grad_norm": 0.0260781199485307, "learning_rate": 0.0001, "loss": 0.9874, "step": 2901 }, { "epoch": 0.15477333333333335, "grad_norm": 0.02635388449414467, "learning_rate": 0.0001, "loss": 0.9205, "step": 2902 }, { "epoch": 0.15482666666666667, "grad_norm": 0.025679073252705163, "learning_rate": 0.0001, "loss": 0.9805, "step": 2903 }, { "epoch": 0.15488, "grad_norm": 0.02305148571701831, "learning_rate": 0.0001, "loss": 1.0127, "step": 2904 }, { "epoch": 0.15493333333333334, "grad_norm": 0.028531907207965893, "learning_rate": 0.0001, "loss": 0.9966, "step": 2905 }, { "epoch": 0.15498666666666666, "grad_norm": 0.02603270385963536, "learning_rate": 0.0001, "loss": 0.9742, "step": 2906 }, { "epoch": 0.15504, "grad_norm": 0.023247193298052665, "learning_rate": 0.0001, "loss": 0.9914, "step": 2907 }, { "epoch": 0.15509333333333333, "grad_norm": 0.02700138124482521, "learning_rate": 0.0001, "loss": 0.9737, "step": 2908 }, { "epoch": 0.15514666666666665, "grad_norm": 0.02565754081814756, "learning_rate": 0.0001, "loss": 1.0538, "step": 2909 }, { "epoch": 0.1552, "grad_norm": 0.024080574046992497, "learning_rate": 0.0001, "loss": 1.0232, "step": 2910 }, { "epoch": 0.15525333333333333, "grad_norm": 0.02423325700959463, "learning_rate": 0.0001, "loss": 1.0282, "step": 2911 }, { "epoch": 0.15530666666666668, "grad_norm": 0.023228922476173062, "learning_rate": 0.0001, "loss": 1.0132, "step": 2912 }, { "epoch": 0.15536, "grad_norm": 0.023807776599991247, "learning_rate": 0.0001, "loss": 0.9693, "step": 2913 }, { "epoch": 0.15541333333333332, "grad_norm": 0.024233330943693874, "learning_rate": 0.0001, "loss": 0.9511, "step": 2914 }, { "epoch": 0.15546666666666667, "grad_norm": 0.02346841287487636, "learning_rate": 0.0001, "loss": 1.0135, "step": 2915 }, { "epoch": 0.15552, "grad_norm": 0.026866844121666046, "learning_rate": 0.0001, "loss": 1.0085, "step": 2916 }, { "epoch": 0.15557333333333334, "grad_norm": 0.02482809408694699, "learning_rate": 0.0001, "loss": 1.0206, "step": 2917 }, { "epoch": 0.15562666666666666, "grad_norm": 0.022114177095012115, "learning_rate": 0.0001, "loss": 1.0359, "step": 2918 }, { "epoch": 0.15568, "grad_norm": 0.023023911995734943, "learning_rate": 0.0001, "loss": 1.0056, "step": 2919 }, { "epoch": 0.15573333333333333, "grad_norm": 0.024489129005438818, "learning_rate": 0.0001, "loss": 1.0345, "step": 2920 }, { "epoch": 0.15578666666666666, "grad_norm": 0.023643757575632602, "learning_rate": 0.0001, "loss": 1.0117, "step": 2921 }, { "epoch": 0.15584, "grad_norm": 0.02493299795366879, "learning_rate": 0.0001, "loss": 1.0005, "step": 2922 }, { "epoch": 0.15589333333333333, "grad_norm": 0.022718692512396235, "learning_rate": 0.0001, "loss": 0.9654, "step": 2923 }, { "epoch": 0.15594666666666668, "grad_norm": 0.024508605798101907, "learning_rate": 0.0001, "loss": 0.9867, "step": 2924 }, { "epoch": 0.156, "grad_norm": 0.0244201032201887, "learning_rate": 0.0001, "loss": 0.9272, "step": 2925 }, { "epoch": 0.15605333333333332, "grad_norm": 0.026007032990576797, "learning_rate": 0.0001, "loss": 1.0051, "step": 2926 }, { "epoch": 0.15610666666666667, "grad_norm": 0.024988536064674032, "learning_rate": 0.0001, "loss": 1.0316, "step": 2927 }, { "epoch": 0.15616, "grad_norm": 0.02308851937062763, "learning_rate": 0.0001, "loss": 0.9979, "step": 2928 }, { "epoch": 0.15621333333333334, "grad_norm": 0.027182725501162523, "learning_rate": 0.0001, "loss": 0.996, "step": 2929 }, { "epoch": 0.15626666666666666, "grad_norm": 0.026370869461416556, "learning_rate": 0.0001, "loss": 0.9749, "step": 2930 }, { "epoch": 0.15632, "grad_norm": 0.025177320752811764, "learning_rate": 0.0001, "loss": 0.9959, "step": 2931 }, { "epoch": 0.15637333333333334, "grad_norm": 0.02411229155185329, "learning_rate": 0.0001, "loss": 0.9453, "step": 2932 }, { "epoch": 0.15642666666666666, "grad_norm": 0.02464022597099645, "learning_rate": 0.0001, "loss": 1.012, "step": 2933 }, { "epoch": 0.15648, "grad_norm": 0.02440597837068386, "learning_rate": 0.0001, "loss": 1.0204, "step": 2934 }, { "epoch": 0.15653333333333333, "grad_norm": 0.025871409485083454, "learning_rate": 0.0001, "loss": 0.9787, "step": 2935 }, { "epoch": 0.15658666666666668, "grad_norm": 0.024702302892641383, "learning_rate": 0.0001, "loss": 0.9828, "step": 2936 }, { "epoch": 0.15664, "grad_norm": 0.025122662366576818, "learning_rate": 0.0001, "loss": 0.9983, "step": 2937 }, { "epoch": 0.15669333333333332, "grad_norm": 0.02575777453791192, "learning_rate": 0.0001, "loss": 0.9615, "step": 2938 }, { "epoch": 0.15674666666666667, "grad_norm": 0.023798312079073305, "learning_rate": 0.0001, "loss": 0.9871, "step": 2939 }, { "epoch": 0.1568, "grad_norm": 0.024918865804232866, "learning_rate": 0.0001, "loss": 1.0527, "step": 2940 }, { "epoch": 0.15685333333333334, "grad_norm": 0.026252243851745308, "learning_rate": 0.0001, "loss": 1.0066, "step": 2941 }, { "epoch": 0.15690666666666667, "grad_norm": 0.0256053371918376, "learning_rate": 0.0001, "loss": 0.9997, "step": 2942 }, { "epoch": 0.15696, "grad_norm": 0.023665931585266187, "learning_rate": 0.0001, "loss": 1.027, "step": 2943 }, { "epoch": 0.15701333333333334, "grad_norm": 0.026506361624277816, "learning_rate": 0.0001, "loss": 1.0084, "step": 2944 }, { "epoch": 0.15706666666666666, "grad_norm": 0.024041613649712263, "learning_rate": 0.0001, "loss": 0.9861, "step": 2945 }, { "epoch": 0.15712, "grad_norm": 0.025713715531546822, "learning_rate": 0.0001, "loss": 0.9632, "step": 2946 }, { "epoch": 0.15717333333333333, "grad_norm": 0.024286959391905776, "learning_rate": 0.0001, "loss": 0.944, "step": 2947 }, { "epoch": 0.15722666666666665, "grad_norm": 0.026061433436757358, "learning_rate": 0.0001, "loss": 1.01, "step": 2948 }, { "epoch": 0.15728, "grad_norm": 0.024450097195880788, "learning_rate": 0.0001, "loss": 0.9791, "step": 2949 }, { "epoch": 0.15733333333333333, "grad_norm": 0.025243804347275675, "learning_rate": 0.0001, "loss": 0.9391, "step": 2950 }, { "epoch": 0.15738666666666667, "grad_norm": 0.02734795826591654, "learning_rate": 0.0001, "loss": 0.9972, "step": 2951 }, { "epoch": 0.15744, "grad_norm": 0.024878057228376733, "learning_rate": 0.0001, "loss": 1.0389, "step": 2952 }, { "epoch": 0.15749333333333335, "grad_norm": 0.026183892789422604, "learning_rate": 0.0001, "loss": 1.03, "step": 2953 }, { "epoch": 0.15754666666666667, "grad_norm": 0.0260967284757879, "learning_rate": 0.0001, "loss": 0.9694, "step": 2954 }, { "epoch": 0.1576, "grad_norm": 0.024381564279411762, "learning_rate": 0.0001, "loss": 1.0179, "step": 2955 }, { "epoch": 0.15765333333333334, "grad_norm": 0.028348181082798903, "learning_rate": 0.0001, "loss": 0.9333, "step": 2956 }, { "epoch": 0.15770666666666666, "grad_norm": 0.026961869611770377, "learning_rate": 0.0001, "loss": 0.9886, "step": 2957 }, { "epoch": 0.15776, "grad_norm": 0.027271809641877923, "learning_rate": 0.0001, "loss": 0.9718, "step": 2958 }, { "epoch": 0.15781333333333333, "grad_norm": 0.024557782106172862, "learning_rate": 0.0001, "loss": 0.996, "step": 2959 }, { "epoch": 0.15786666666666666, "grad_norm": 0.026130866042834287, "learning_rate": 0.0001, "loss": 0.9664, "step": 2960 }, { "epoch": 0.15792, "grad_norm": 0.026444163399854264, "learning_rate": 0.0001, "loss": 0.9247, "step": 2961 }, { "epoch": 0.15797333333333333, "grad_norm": 0.02380726771498953, "learning_rate": 0.0001, "loss": 1.0001, "step": 2962 }, { "epoch": 0.15802666666666668, "grad_norm": 0.026556544892373038, "learning_rate": 0.0001, "loss": 0.9531, "step": 2963 }, { "epoch": 0.15808, "grad_norm": 0.026324616292196377, "learning_rate": 0.0001, "loss": 0.966, "step": 2964 }, { "epoch": 0.15813333333333332, "grad_norm": 0.02627968723708019, "learning_rate": 0.0001, "loss": 1.0057, "step": 2965 }, { "epoch": 0.15818666666666667, "grad_norm": 0.0269544049572685, "learning_rate": 0.0001, "loss": 0.9954, "step": 2966 }, { "epoch": 0.15824, "grad_norm": 0.02675029404099204, "learning_rate": 0.0001, "loss": 0.9971, "step": 2967 }, { "epoch": 0.15829333333333334, "grad_norm": 0.026361807134961245, "learning_rate": 0.0001, "loss": 1.065, "step": 2968 }, { "epoch": 0.15834666666666666, "grad_norm": 0.026857293382601247, "learning_rate": 0.0001, "loss": 0.9681, "step": 2969 }, { "epoch": 0.1584, "grad_norm": 0.023634975322612602, "learning_rate": 0.0001, "loss": 1.0654, "step": 2970 }, { "epoch": 0.15845333333333333, "grad_norm": 0.02826128303623428, "learning_rate": 0.0001, "loss": 1.0253, "step": 2971 }, { "epoch": 0.15850666666666666, "grad_norm": 0.02498207643729721, "learning_rate": 0.0001, "loss": 1.0336, "step": 2972 }, { "epoch": 0.15856, "grad_norm": 0.025039036589847578, "learning_rate": 0.0001, "loss": 1.0342, "step": 2973 }, { "epoch": 0.15861333333333333, "grad_norm": 0.02420203338998239, "learning_rate": 0.0001, "loss": 1.0167, "step": 2974 }, { "epoch": 0.15866666666666668, "grad_norm": 0.02520117740654435, "learning_rate": 0.0001, "loss": 1.02, "step": 2975 }, { "epoch": 0.15872, "grad_norm": 0.02463416373436397, "learning_rate": 0.0001, "loss": 1.0443, "step": 2976 }, { "epoch": 0.15877333333333332, "grad_norm": 0.024280360649431062, "learning_rate": 0.0001, "loss": 0.9906, "step": 2977 }, { "epoch": 0.15882666666666667, "grad_norm": 0.024230936144297655, "learning_rate": 0.0001, "loss": 0.946, "step": 2978 }, { "epoch": 0.15888, "grad_norm": 0.024779852112806134, "learning_rate": 0.0001, "loss": 0.9593, "step": 2979 }, { "epoch": 0.15893333333333334, "grad_norm": 0.024442020686881717, "learning_rate": 0.0001, "loss": 0.984, "step": 2980 }, { "epoch": 0.15898666666666667, "grad_norm": 0.02363717135431708, "learning_rate": 0.0001, "loss": 0.964, "step": 2981 }, { "epoch": 0.15904, "grad_norm": 0.023738472777105918, "learning_rate": 0.0001, "loss": 0.9599, "step": 2982 }, { "epoch": 0.15909333333333334, "grad_norm": 0.024021486943556925, "learning_rate": 0.0001, "loss": 0.9615, "step": 2983 }, { "epoch": 0.15914666666666666, "grad_norm": 0.02393024458221936, "learning_rate": 0.0001, "loss": 0.9827, "step": 2984 }, { "epoch": 0.1592, "grad_norm": 0.026950702490471348, "learning_rate": 0.0001, "loss": 0.9997, "step": 2985 }, { "epoch": 0.15925333333333333, "grad_norm": 0.02363930267556382, "learning_rate": 0.0001, "loss": 0.9868, "step": 2986 }, { "epoch": 0.15930666666666668, "grad_norm": 0.02550620628082037, "learning_rate": 0.0001, "loss": 0.9669, "step": 2987 }, { "epoch": 0.15936, "grad_norm": 0.024415491437071647, "learning_rate": 0.0001, "loss": 0.9643, "step": 2988 }, { "epoch": 0.15941333333333332, "grad_norm": 0.023893024159728916, "learning_rate": 0.0001, "loss": 0.9508, "step": 2989 }, { "epoch": 0.15946666666666667, "grad_norm": 0.02472691366597289, "learning_rate": 0.0001, "loss": 1.0398, "step": 2990 }, { "epoch": 0.15952, "grad_norm": 0.02397109971751671, "learning_rate": 0.0001, "loss": 1.0076, "step": 2991 }, { "epoch": 0.15957333333333334, "grad_norm": 0.026859938587138442, "learning_rate": 0.0001, "loss": 1.0027, "step": 2992 }, { "epoch": 0.15962666666666667, "grad_norm": 0.0242660769624829, "learning_rate": 0.0001, "loss": 0.9955, "step": 2993 }, { "epoch": 0.15968, "grad_norm": 0.0239915366025158, "learning_rate": 0.0001, "loss": 0.9944, "step": 2994 }, { "epoch": 0.15973333333333334, "grad_norm": 0.02392535137991501, "learning_rate": 0.0001, "loss": 1.011, "step": 2995 }, { "epoch": 0.15978666666666666, "grad_norm": 0.023373773966374644, "learning_rate": 0.0001, "loss": 0.9678, "step": 2996 }, { "epoch": 0.15984, "grad_norm": 0.022954071139498523, "learning_rate": 0.0001, "loss": 0.982, "step": 2997 }, { "epoch": 0.15989333333333333, "grad_norm": 0.024727701893953784, "learning_rate": 0.0001, "loss": 0.9997, "step": 2998 }, { "epoch": 0.15994666666666665, "grad_norm": 0.023148217941958742, "learning_rate": 0.0001, "loss": 0.946, "step": 2999 }, { "epoch": 0.16, "grad_norm": 0.024948230330894224, "learning_rate": 0.0001, "loss": 1.055, "step": 3000 }, { "epoch": 0.16, "eval_accuracy": 0.6145619410911062, "eval_loss": 1.3855246305465698, "eval_runtime": 62.5608, "eval_samples_per_second": 15.984, "eval_steps_per_second": 0.512, "step": 3000 }, { "epoch": 0.16005333333333333, "grad_norm": 0.024297398694448528, "learning_rate": 0.0001, "loss": 1.008, "step": 3001 }, { "epoch": 0.16010666666666667, "grad_norm": 0.02354096793624368, "learning_rate": 0.0001, "loss": 0.9383, "step": 3002 }, { "epoch": 0.16016, "grad_norm": 0.02490644935891289, "learning_rate": 0.0001, "loss": 1.0186, "step": 3003 }, { "epoch": 0.16021333333333335, "grad_norm": 0.02292379009168702, "learning_rate": 0.0001, "loss": 0.9748, "step": 3004 }, { "epoch": 0.16026666666666667, "grad_norm": 0.026373001802781598, "learning_rate": 0.0001, "loss": 0.9443, "step": 3005 }, { "epoch": 0.16032, "grad_norm": 0.02410989849741998, "learning_rate": 0.0001, "loss": 1.033, "step": 3006 }, { "epoch": 0.16037333333333334, "grad_norm": 0.0224550000519139, "learning_rate": 0.0001, "loss": 0.9979, "step": 3007 }, { "epoch": 0.16042666666666666, "grad_norm": 0.028049375572750723, "learning_rate": 0.0001, "loss": 1.0159, "step": 3008 }, { "epoch": 0.16048, "grad_norm": 0.024998836275669078, "learning_rate": 0.0001, "loss": 1.0228, "step": 3009 }, { "epoch": 0.16053333333333333, "grad_norm": 0.027438294521016697, "learning_rate": 0.0001, "loss": 0.9753, "step": 3010 }, { "epoch": 0.16058666666666666, "grad_norm": 0.03037611546015116, "learning_rate": 0.0001, "loss": 0.9848, "step": 3011 }, { "epoch": 0.16064, "grad_norm": 0.025647671895109834, "learning_rate": 0.0001, "loss": 1.0007, "step": 3012 }, { "epoch": 0.16069333333333333, "grad_norm": 0.02582760973758508, "learning_rate": 0.0001, "loss": 1.0187, "step": 3013 }, { "epoch": 0.16074666666666668, "grad_norm": 0.027131278788327724, "learning_rate": 0.0001, "loss": 0.9711, "step": 3014 }, { "epoch": 0.1608, "grad_norm": 0.026326258741276407, "learning_rate": 0.0001, "loss": 0.9508, "step": 3015 }, { "epoch": 0.16085333333333332, "grad_norm": 0.025658520709495005, "learning_rate": 0.0001, "loss": 1.0612, "step": 3016 }, { "epoch": 0.16090666666666667, "grad_norm": 0.0262832168747172, "learning_rate": 0.0001, "loss": 0.9543, "step": 3017 }, { "epoch": 0.16096, "grad_norm": 0.02466851974623505, "learning_rate": 0.0001, "loss": 0.9694, "step": 3018 }, { "epoch": 0.16101333333333334, "grad_norm": 0.023529208533452133, "learning_rate": 0.0001, "loss": 1.0229, "step": 3019 }, { "epoch": 0.16106666666666666, "grad_norm": 0.025223685413576592, "learning_rate": 0.0001, "loss": 1.0283, "step": 3020 }, { "epoch": 0.16112, "grad_norm": 0.0252405375550761, "learning_rate": 0.0001, "loss": 0.9877, "step": 3021 }, { "epoch": 0.16117333333333334, "grad_norm": 0.0239408558561943, "learning_rate": 0.0001, "loss": 1.009, "step": 3022 }, { "epoch": 0.16122666666666666, "grad_norm": 0.024274526148322248, "learning_rate": 0.0001, "loss": 1.0145, "step": 3023 }, { "epoch": 0.16128, "grad_norm": 0.027277085747479397, "learning_rate": 0.0001, "loss": 1.0104, "step": 3024 }, { "epoch": 0.16133333333333333, "grad_norm": 0.026589991405756866, "learning_rate": 0.0001, "loss": 0.997, "step": 3025 }, { "epoch": 0.16138666666666668, "grad_norm": 0.025561322873803177, "learning_rate": 0.0001, "loss": 1.003, "step": 3026 }, { "epoch": 0.16144, "grad_norm": 0.02489068110691095, "learning_rate": 0.0001, "loss": 1.019, "step": 3027 }, { "epoch": 0.16149333333333332, "grad_norm": 0.025828247419996633, "learning_rate": 0.0001, "loss": 1.0296, "step": 3028 }, { "epoch": 0.16154666666666667, "grad_norm": 0.026736368166451818, "learning_rate": 0.0001, "loss": 0.9938, "step": 3029 }, { "epoch": 0.1616, "grad_norm": 0.023946717464056744, "learning_rate": 0.0001, "loss": 0.9771, "step": 3030 }, { "epoch": 0.16165333333333334, "grad_norm": 0.028180241598548227, "learning_rate": 0.0001, "loss": 1.0073, "step": 3031 }, { "epoch": 0.16170666666666667, "grad_norm": 0.02492086248684902, "learning_rate": 0.0001, "loss": 0.9664, "step": 3032 }, { "epoch": 0.16176, "grad_norm": 0.026000795786105434, "learning_rate": 0.0001, "loss": 0.9908, "step": 3033 }, { "epoch": 0.16181333333333334, "grad_norm": 0.02556433012116321, "learning_rate": 0.0001, "loss": 0.9875, "step": 3034 }, { "epoch": 0.16186666666666666, "grad_norm": 0.024524568069721732, "learning_rate": 0.0001, "loss": 1.0055, "step": 3035 }, { "epoch": 0.16192, "grad_norm": 0.026577513615034912, "learning_rate": 0.0001, "loss": 1.0456, "step": 3036 }, { "epoch": 0.16197333333333333, "grad_norm": 0.024332818594759786, "learning_rate": 0.0001, "loss": 0.9942, "step": 3037 }, { "epoch": 0.16202666666666668, "grad_norm": 0.02627285748871402, "learning_rate": 0.0001, "loss": 1.0199, "step": 3038 }, { "epoch": 0.16208, "grad_norm": 0.026279141831189456, "learning_rate": 0.0001, "loss": 0.9734, "step": 3039 }, { "epoch": 0.16213333333333332, "grad_norm": 0.02399849423640993, "learning_rate": 0.0001, "loss": 0.9522, "step": 3040 }, { "epoch": 0.16218666666666667, "grad_norm": 0.025497502736511045, "learning_rate": 0.0001, "loss": 0.9765, "step": 3041 }, { "epoch": 0.16224, "grad_norm": 0.024533501676096, "learning_rate": 0.0001, "loss": 1.0459, "step": 3042 }, { "epoch": 0.16229333333333334, "grad_norm": 0.025069233226097526, "learning_rate": 0.0001, "loss": 0.969, "step": 3043 }, { "epoch": 0.16234666666666667, "grad_norm": 0.02754265182539945, "learning_rate": 0.0001, "loss": 1.0162, "step": 3044 }, { "epoch": 0.1624, "grad_norm": 0.02445071620088234, "learning_rate": 0.0001, "loss": 0.9597, "step": 3045 }, { "epoch": 0.16245333333333334, "grad_norm": 0.027325879723132974, "learning_rate": 0.0001, "loss": 0.9581, "step": 3046 }, { "epoch": 0.16250666666666666, "grad_norm": 0.025308663459589504, "learning_rate": 0.0001, "loss": 0.9707, "step": 3047 }, { "epoch": 0.16256, "grad_norm": 0.023518980066552012, "learning_rate": 0.0001, "loss": 0.9592, "step": 3048 }, { "epoch": 0.16261333333333333, "grad_norm": 0.030151119830745504, "learning_rate": 0.0001, "loss": 0.9482, "step": 3049 }, { "epoch": 0.16266666666666665, "grad_norm": 0.024808663306564283, "learning_rate": 0.0001, "loss": 1.0859, "step": 3050 }, { "epoch": 0.16272, "grad_norm": 0.026304930329921445, "learning_rate": 0.0001, "loss": 0.9658, "step": 3051 }, { "epoch": 0.16277333333333333, "grad_norm": 0.026178347232392502, "learning_rate": 0.0001, "loss": 1.014, "step": 3052 }, { "epoch": 0.16282666666666668, "grad_norm": 0.026728534904462118, "learning_rate": 0.0001, "loss": 0.9804, "step": 3053 }, { "epoch": 0.16288, "grad_norm": 0.0261920024023932, "learning_rate": 0.0001, "loss": 0.9959, "step": 3054 }, { "epoch": 0.16293333333333335, "grad_norm": 0.026571907043389208, "learning_rate": 0.0001, "loss": 0.9694, "step": 3055 }, { "epoch": 0.16298666666666667, "grad_norm": 0.027083921860829665, "learning_rate": 0.0001, "loss": 0.9719, "step": 3056 }, { "epoch": 0.16304, "grad_norm": 0.024579076193239062, "learning_rate": 0.0001, "loss": 1.0252, "step": 3057 }, { "epoch": 0.16309333333333334, "grad_norm": 0.02650501142943744, "learning_rate": 0.0001, "loss": 1.0504, "step": 3058 }, { "epoch": 0.16314666666666666, "grad_norm": 0.026147161632386638, "learning_rate": 0.0001, "loss": 1.0179, "step": 3059 }, { "epoch": 0.1632, "grad_norm": 0.02382256311624333, "learning_rate": 0.0001, "loss": 0.9598, "step": 3060 }, { "epoch": 0.16325333333333333, "grad_norm": 0.026960634115609044, "learning_rate": 0.0001, "loss": 0.9879, "step": 3061 }, { "epoch": 0.16330666666666666, "grad_norm": 0.026716835249932597, "learning_rate": 0.0001, "loss": 0.9826, "step": 3062 }, { "epoch": 0.16336, "grad_norm": 0.026568990118151097, "learning_rate": 0.0001, "loss": 0.9827, "step": 3063 }, { "epoch": 0.16341333333333333, "grad_norm": 0.02357075350547116, "learning_rate": 0.0001, "loss": 1.0335, "step": 3064 }, { "epoch": 0.16346666666666668, "grad_norm": 0.026443648902009842, "learning_rate": 0.0001, "loss": 0.9946, "step": 3065 }, { "epoch": 0.16352, "grad_norm": 0.02646612140659116, "learning_rate": 0.0001, "loss": 1.0384, "step": 3066 }, { "epoch": 0.16357333333333332, "grad_norm": 0.024134314102768503, "learning_rate": 0.0001, "loss": 1.0086, "step": 3067 }, { "epoch": 0.16362666666666667, "grad_norm": 0.02487344551537423, "learning_rate": 0.0001, "loss": 0.9574, "step": 3068 }, { "epoch": 0.16368, "grad_norm": 0.028226006510698207, "learning_rate": 0.0001, "loss": 1.0004, "step": 3069 }, { "epoch": 0.16373333333333334, "grad_norm": 0.023593569778890034, "learning_rate": 0.0001, "loss": 0.9928, "step": 3070 }, { "epoch": 0.16378666666666666, "grad_norm": 0.026470009776063515, "learning_rate": 0.0001, "loss": 0.9895, "step": 3071 }, { "epoch": 0.16384, "grad_norm": 0.025123454445675927, "learning_rate": 0.0001, "loss": 0.9365, "step": 3072 }, { "epoch": 0.16389333333333334, "grad_norm": 0.02684709004188173, "learning_rate": 0.0001, "loss": 1.0071, "step": 3073 }, { "epoch": 0.16394666666666666, "grad_norm": 0.024530046984176573, "learning_rate": 0.0001, "loss": 0.9688, "step": 3074 }, { "epoch": 0.164, "grad_norm": 0.027707417248179312, "learning_rate": 0.0001, "loss": 0.9557, "step": 3075 }, { "epoch": 0.16405333333333333, "grad_norm": 0.024588790514335643, "learning_rate": 0.0001, "loss": 0.9958, "step": 3076 }, { "epoch": 0.16410666666666668, "grad_norm": 0.025576951143114816, "learning_rate": 0.0001, "loss": 1.0101, "step": 3077 }, { "epoch": 0.16416, "grad_norm": 0.02541160634125404, "learning_rate": 0.0001, "loss": 0.9854, "step": 3078 }, { "epoch": 0.16421333333333332, "grad_norm": 0.024070229236235287, "learning_rate": 0.0001, "loss": 0.9869, "step": 3079 }, { "epoch": 0.16426666666666667, "grad_norm": 0.024967784129060547, "learning_rate": 0.0001, "loss": 0.9921, "step": 3080 }, { "epoch": 0.16432, "grad_norm": 0.025138814007413624, "learning_rate": 0.0001, "loss": 1.0073, "step": 3081 }, { "epoch": 0.16437333333333334, "grad_norm": 0.022867659075528176, "learning_rate": 0.0001, "loss": 1.0487, "step": 3082 }, { "epoch": 0.16442666666666667, "grad_norm": 0.024103029285883995, "learning_rate": 0.0001, "loss": 1.0351, "step": 3083 }, { "epoch": 0.16448, "grad_norm": 0.025211983264825114, "learning_rate": 0.0001, "loss": 1.0307, "step": 3084 }, { "epoch": 0.16453333333333334, "grad_norm": 0.026179153759899848, "learning_rate": 0.0001, "loss": 1.0264, "step": 3085 }, { "epoch": 0.16458666666666666, "grad_norm": 0.026084361434783015, "learning_rate": 0.0001, "loss": 0.9704, "step": 3086 }, { "epoch": 0.16464, "grad_norm": 0.02717258673818343, "learning_rate": 0.0001, "loss": 1.0157, "step": 3087 }, { "epoch": 0.16469333333333333, "grad_norm": 0.02187546106831263, "learning_rate": 0.0001, "loss": 0.9811, "step": 3088 }, { "epoch": 0.16474666666666668, "grad_norm": 0.025100883947215467, "learning_rate": 0.0001, "loss": 1.0697, "step": 3089 }, { "epoch": 0.1648, "grad_norm": 0.024991853111418542, "learning_rate": 0.0001, "loss": 0.9806, "step": 3090 }, { "epoch": 0.16485333333333332, "grad_norm": 0.0225194900201007, "learning_rate": 0.0001, "loss": 0.9584, "step": 3091 }, { "epoch": 0.16490666666666667, "grad_norm": 0.023857903159306304, "learning_rate": 0.0001, "loss": 1.0282, "step": 3092 }, { "epoch": 0.16496, "grad_norm": 0.025173932621857645, "learning_rate": 0.0001, "loss": 1.0058, "step": 3093 }, { "epoch": 0.16501333333333335, "grad_norm": 0.023483049894360175, "learning_rate": 0.0001, "loss": 1.0022, "step": 3094 }, { "epoch": 0.16506666666666667, "grad_norm": 0.02289583661011337, "learning_rate": 0.0001, "loss": 0.996, "step": 3095 }, { "epoch": 0.16512, "grad_norm": 0.02305217937453157, "learning_rate": 0.0001, "loss": 1.0181, "step": 3096 }, { "epoch": 0.16517333333333334, "grad_norm": 0.0244077168393719, "learning_rate": 0.0001, "loss": 1.0162, "step": 3097 }, { "epoch": 0.16522666666666666, "grad_norm": 0.024013383137571273, "learning_rate": 0.0001, "loss": 1.0074, "step": 3098 }, { "epoch": 0.16528, "grad_norm": 0.024353815261923498, "learning_rate": 0.0001, "loss": 0.9882, "step": 3099 }, { "epoch": 0.16533333333333333, "grad_norm": 0.02387560893725555, "learning_rate": 0.0001, "loss": 1.0314, "step": 3100 }, { "epoch": 0.16538666666666665, "grad_norm": 0.023722092544277148, "learning_rate": 0.0001, "loss": 1.023, "step": 3101 }, { "epoch": 0.16544, "grad_norm": 0.02486301252486058, "learning_rate": 0.0001, "loss": 0.9028, "step": 3102 }, { "epoch": 0.16549333333333333, "grad_norm": 0.023437222724659264, "learning_rate": 0.0001, "loss": 0.9924, "step": 3103 }, { "epoch": 0.16554666666666668, "grad_norm": 0.026300381645389736, "learning_rate": 0.0001, "loss": 1.0016, "step": 3104 }, { "epoch": 0.1656, "grad_norm": 0.025721508547217206, "learning_rate": 0.0001, "loss": 1.0235, "step": 3105 }, { "epoch": 0.16565333333333335, "grad_norm": 0.02580341655128775, "learning_rate": 0.0001, "loss": 1.0157, "step": 3106 }, { "epoch": 0.16570666666666667, "grad_norm": 0.024717062203306467, "learning_rate": 0.0001, "loss": 0.9864, "step": 3107 }, { "epoch": 0.16576, "grad_norm": 0.027188333990225043, "learning_rate": 0.0001, "loss": 0.9557, "step": 3108 }, { "epoch": 0.16581333333333334, "grad_norm": 0.023020663315678914, "learning_rate": 0.0001, "loss": 0.953, "step": 3109 }, { "epoch": 0.16586666666666666, "grad_norm": 0.024927681379550436, "learning_rate": 0.0001, "loss": 0.9911, "step": 3110 }, { "epoch": 0.16592, "grad_norm": 0.02300807474738058, "learning_rate": 0.0001, "loss": 1.0339, "step": 3111 }, { "epoch": 0.16597333333333333, "grad_norm": 0.02527258483893534, "learning_rate": 0.0001, "loss": 1.0104, "step": 3112 }, { "epoch": 0.16602666666666666, "grad_norm": 0.023229282310007135, "learning_rate": 0.0001, "loss": 0.9964, "step": 3113 }, { "epoch": 0.16608, "grad_norm": 0.024032332620529673, "learning_rate": 0.0001, "loss": 0.9985, "step": 3114 }, { "epoch": 0.16613333333333333, "grad_norm": 0.02365747735019262, "learning_rate": 0.0001, "loss": 0.9756, "step": 3115 }, { "epoch": 0.16618666666666668, "grad_norm": 0.02556911101012355, "learning_rate": 0.0001, "loss": 0.9728, "step": 3116 }, { "epoch": 0.16624, "grad_norm": 0.02401078689070725, "learning_rate": 0.0001, "loss": 0.9566, "step": 3117 }, { "epoch": 0.16629333333333332, "grad_norm": 0.02429074860029864, "learning_rate": 0.0001, "loss": 1.0039, "step": 3118 }, { "epoch": 0.16634666666666667, "grad_norm": 0.02281245384831461, "learning_rate": 0.0001, "loss": 0.9505, "step": 3119 }, { "epoch": 0.1664, "grad_norm": 0.02835063674141327, "learning_rate": 0.0001, "loss": 1.0037, "step": 3120 }, { "epoch": 0.16645333333333334, "grad_norm": 0.023480373007969367, "learning_rate": 0.0001, "loss": 0.9747, "step": 3121 }, { "epoch": 0.16650666666666666, "grad_norm": 0.024248112454402, "learning_rate": 0.0001, "loss": 1.016, "step": 3122 }, { "epoch": 0.16656, "grad_norm": 0.02579459354609858, "learning_rate": 0.0001, "loss": 0.9883, "step": 3123 }, { "epoch": 0.16661333333333334, "grad_norm": 0.025261760124564235, "learning_rate": 0.0001, "loss": 1.0245, "step": 3124 }, { "epoch": 0.16666666666666666, "grad_norm": 0.02543498121782552, "learning_rate": 0.0001, "loss": 0.9932, "step": 3125 }, { "epoch": 0.16672, "grad_norm": 0.026597739513616242, "learning_rate": 0.0001, "loss": 1.018, "step": 3126 }, { "epoch": 0.16677333333333333, "grad_norm": 0.025687889311139918, "learning_rate": 0.0001, "loss": 0.9667, "step": 3127 }, { "epoch": 0.16682666666666668, "grad_norm": 0.024851635500503934, "learning_rate": 0.0001, "loss": 1.0025, "step": 3128 }, { "epoch": 0.16688, "grad_norm": 0.028111840472852288, "learning_rate": 0.0001, "loss": 0.9838, "step": 3129 }, { "epoch": 0.16693333333333332, "grad_norm": 0.026313770985350253, "learning_rate": 0.0001, "loss": 1.026, "step": 3130 }, { "epoch": 0.16698666666666667, "grad_norm": 0.0271653712980646, "learning_rate": 0.0001, "loss": 0.9496, "step": 3131 }, { "epoch": 0.16704, "grad_norm": 0.02570071099396188, "learning_rate": 0.0001, "loss": 1.0124, "step": 3132 }, { "epoch": 0.16709333333333334, "grad_norm": 0.026840296213947918, "learning_rate": 0.0001, "loss": 0.9782, "step": 3133 }, { "epoch": 0.16714666666666667, "grad_norm": 0.028089885710986334, "learning_rate": 0.0001, "loss": 0.9852, "step": 3134 }, { "epoch": 0.1672, "grad_norm": 0.028599376803054747, "learning_rate": 0.0001, "loss": 0.9725, "step": 3135 }, { "epoch": 0.16725333333333334, "grad_norm": 0.02489973169805591, "learning_rate": 0.0001, "loss": 0.9761, "step": 3136 }, { "epoch": 0.16730666666666666, "grad_norm": 0.025210532622558443, "learning_rate": 0.0001, "loss": 0.9942, "step": 3137 }, { "epoch": 0.16736, "grad_norm": 0.02776235111523642, "learning_rate": 0.0001, "loss": 0.9458, "step": 3138 }, { "epoch": 0.16741333333333333, "grad_norm": 0.029314540733893828, "learning_rate": 0.0001, "loss": 1.0217, "step": 3139 }, { "epoch": 0.16746666666666668, "grad_norm": 0.023814781635805783, "learning_rate": 0.0001, "loss": 1.0183, "step": 3140 }, { "epoch": 0.16752, "grad_norm": 0.027673750199779214, "learning_rate": 0.0001, "loss": 1.0333, "step": 3141 }, { "epoch": 0.16757333333333332, "grad_norm": 0.026446895425971173, "learning_rate": 0.0001, "loss": 0.9146, "step": 3142 }, { "epoch": 0.16762666666666667, "grad_norm": 0.02297891072497885, "learning_rate": 0.0001, "loss": 0.9948, "step": 3143 }, { "epoch": 0.16768, "grad_norm": 0.02879619364818138, "learning_rate": 0.0001, "loss": 0.928, "step": 3144 }, { "epoch": 0.16773333333333335, "grad_norm": 0.027461768963410623, "learning_rate": 0.0001, "loss": 0.9815, "step": 3145 }, { "epoch": 0.16778666666666667, "grad_norm": 0.024095347011667025, "learning_rate": 0.0001, "loss": 0.9777, "step": 3146 }, { "epoch": 0.16784, "grad_norm": 0.02867530925723784, "learning_rate": 0.0001, "loss": 1.0428, "step": 3147 }, { "epoch": 0.16789333333333334, "grad_norm": 0.02599638080902355, "learning_rate": 0.0001, "loss": 0.9623, "step": 3148 }, { "epoch": 0.16794666666666666, "grad_norm": 0.024544708020736657, "learning_rate": 0.0001, "loss": 1.0848, "step": 3149 }, { "epoch": 0.168, "grad_norm": 0.027332653835688732, "learning_rate": 0.0001, "loss": 1.0445, "step": 3150 }, { "epoch": 0.16805333333333333, "grad_norm": 0.025170238104129196, "learning_rate": 0.0001, "loss": 0.9981, "step": 3151 }, { "epoch": 0.16810666666666665, "grad_norm": 0.02573356166532215, "learning_rate": 0.0001, "loss": 0.9581, "step": 3152 }, { "epoch": 0.16816, "grad_norm": 0.024826402111960806, "learning_rate": 0.0001, "loss": 0.9854, "step": 3153 }, { "epoch": 0.16821333333333333, "grad_norm": 0.026116630903400034, "learning_rate": 0.0001, "loss": 0.99, "step": 3154 }, { "epoch": 0.16826666666666668, "grad_norm": 0.026717699627494894, "learning_rate": 0.0001, "loss": 0.9627, "step": 3155 }, { "epoch": 0.16832, "grad_norm": 0.02567605815777642, "learning_rate": 0.0001, "loss": 0.9901, "step": 3156 }, { "epoch": 0.16837333333333335, "grad_norm": 0.02581423057659599, "learning_rate": 0.0001, "loss": 1.0989, "step": 3157 }, { "epoch": 0.16842666666666667, "grad_norm": 0.024584267749455692, "learning_rate": 0.0001, "loss": 0.9802, "step": 3158 }, { "epoch": 0.16848, "grad_norm": 0.024065228082501795, "learning_rate": 0.0001, "loss": 0.9658, "step": 3159 }, { "epoch": 0.16853333333333334, "grad_norm": 0.02421884344099641, "learning_rate": 0.0001, "loss": 0.9508, "step": 3160 }, { "epoch": 0.16858666666666666, "grad_norm": 0.0256546196169228, "learning_rate": 0.0001, "loss": 0.9889, "step": 3161 }, { "epoch": 0.16864, "grad_norm": 0.023208010609823707, "learning_rate": 0.0001, "loss": 0.9495, "step": 3162 }, { "epoch": 0.16869333333333333, "grad_norm": 0.02457271386022546, "learning_rate": 0.0001, "loss": 0.9911, "step": 3163 }, { "epoch": 0.16874666666666666, "grad_norm": 0.025515012925885622, "learning_rate": 0.0001, "loss": 1.0576, "step": 3164 }, { "epoch": 0.1688, "grad_norm": 0.024822399393591058, "learning_rate": 0.0001, "loss": 0.9839, "step": 3165 }, { "epoch": 0.16885333333333333, "grad_norm": 0.02458972030896367, "learning_rate": 0.0001, "loss": 1.0078, "step": 3166 }, { "epoch": 0.16890666666666668, "grad_norm": 0.026199447232320608, "learning_rate": 0.0001, "loss": 0.9875, "step": 3167 }, { "epoch": 0.16896, "grad_norm": 0.02675883761232502, "learning_rate": 0.0001, "loss": 0.9678, "step": 3168 }, { "epoch": 0.16901333333333332, "grad_norm": 0.025939088832118016, "learning_rate": 0.0001, "loss": 0.9788, "step": 3169 }, { "epoch": 0.16906666666666667, "grad_norm": 0.026368958569529893, "learning_rate": 0.0001, "loss": 0.9641, "step": 3170 }, { "epoch": 0.16912, "grad_norm": 0.025107305071063155, "learning_rate": 0.0001, "loss": 1.0121, "step": 3171 }, { "epoch": 0.16917333333333334, "grad_norm": 0.026921672819041335, "learning_rate": 0.0001, "loss": 1.0254, "step": 3172 }, { "epoch": 0.16922666666666666, "grad_norm": 0.023754524988048475, "learning_rate": 0.0001, "loss": 1.0123, "step": 3173 }, { "epoch": 0.16928, "grad_norm": 0.02686021477712718, "learning_rate": 0.0001, "loss": 1.0245, "step": 3174 }, { "epoch": 0.16933333333333334, "grad_norm": 0.025031581374756112, "learning_rate": 0.0001, "loss": 0.9998, "step": 3175 }, { "epoch": 0.16938666666666666, "grad_norm": 0.024881324076897974, "learning_rate": 0.0001, "loss": 1.0267, "step": 3176 }, { "epoch": 0.16944, "grad_norm": 0.025820365057906015, "learning_rate": 0.0001, "loss": 0.9881, "step": 3177 }, { "epoch": 0.16949333333333333, "grad_norm": 0.025137167173628884, "learning_rate": 0.0001, "loss": 1.0009, "step": 3178 }, { "epoch": 0.16954666666666668, "grad_norm": 0.02496282420793538, "learning_rate": 0.0001, "loss": 1.0639, "step": 3179 }, { "epoch": 0.1696, "grad_norm": 0.026753886007206892, "learning_rate": 0.0001, "loss": 0.9494, "step": 3180 }, { "epoch": 0.16965333333333332, "grad_norm": 0.025768187568977002, "learning_rate": 0.0001, "loss": 1.0067, "step": 3181 }, { "epoch": 0.16970666666666667, "grad_norm": 0.026004737358098263, "learning_rate": 0.0001, "loss": 1.0862, "step": 3182 }, { "epoch": 0.16976, "grad_norm": 0.02571949370738354, "learning_rate": 0.0001, "loss": 1.0136, "step": 3183 }, { "epoch": 0.16981333333333334, "grad_norm": 0.025839358743692798, "learning_rate": 0.0001, "loss": 1.0028, "step": 3184 }, { "epoch": 0.16986666666666667, "grad_norm": 0.02773116383640443, "learning_rate": 0.0001, "loss": 0.9948, "step": 3185 }, { "epoch": 0.16992, "grad_norm": 0.02993519678356065, "learning_rate": 0.0001, "loss": 0.8967, "step": 3186 }, { "epoch": 0.16997333333333334, "grad_norm": 0.02316813463921109, "learning_rate": 0.0001, "loss": 1.0345, "step": 3187 }, { "epoch": 0.17002666666666666, "grad_norm": 0.025701665510525988, "learning_rate": 0.0001, "loss": 1.0049, "step": 3188 }, { "epoch": 0.17008, "grad_norm": 0.02462250943729555, "learning_rate": 0.0001, "loss": 0.9862, "step": 3189 }, { "epoch": 0.17013333333333333, "grad_norm": 0.024599668574557726, "learning_rate": 0.0001, "loss": 0.989, "step": 3190 }, { "epoch": 0.17018666666666668, "grad_norm": 0.02344840065227566, "learning_rate": 0.0001, "loss": 0.9702, "step": 3191 }, { "epoch": 0.17024, "grad_norm": 0.02379148680864617, "learning_rate": 0.0001, "loss": 0.9825, "step": 3192 }, { "epoch": 0.17029333333333332, "grad_norm": 0.026793758542982354, "learning_rate": 0.0001, "loss": 0.9654, "step": 3193 }, { "epoch": 0.17034666666666667, "grad_norm": 0.025927946608626525, "learning_rate": 0.0001, "loss": 1.0189, "step": 3194 }, { "epoch": 0.1704, "grad_norm": 0.027963789007362315, "learning_rate": 0.0001, "loss": 0.9249, "step": 3195 }, { "epoch": 0.17045333333333335, "grad_norm": 0.025086104082581197, "learning_rate": 0.0001, "loss": 0.8819, "step": 3196 }, { "epoch": 0.17050666666666667, "grad_norm": 0.02575706337822479, "learning_rate": 0.0001, "loss": 0.9933, "step": 3197 }, { "epoch": 0.17056, "grad_norm": 0.02398344839381579, "learning_rate": 0.0001, "loss": 1.0722, "step": 3198 }, { "epoch": 0.17061333333333334, "grad_norm": 0.02911692100943575, "learning_rate": 0.0001, "loss": 0.9589, "step": 3199 }, { "epoch": 0.17066666666666666, "grad_norm": 0.026549805837459896, "learning_rate": 0.0001, "loss": 1.022, "step": 3200 }, { "epoch": 0.17066666666666666, "eval_accuracy": 0.6148952938868553, "eval_loss": 1.3836640119552612, "eval_runtime": 62.3514, "eval_samples_per_second": 16.038, "eval_steps_per_second": 0.513, "step": 3200 }, { "epoch": 0.17072, "grad_norm": 0.025180253996484728, "learning_rate": 0.0001, "loss": 1.0128, "step": 3201 }, { "epoch": 0.17077333333333333, "grad_norm": 0.02937578117060558, "learning_rate": 0.0001, "loss": 1.0063, "step": 3202 }, { "epoch": 0.17082666666666665, "grad_norm": 0.026394351412294816, "learning_rate": 0.0001, "loss": 1.0214, "step": 3203 }, { "epoch": 0.17088, "grad_norm": 0.0253902081369493, "learning_rate": 0.0001, "loss": 1.0065, "step": 3204 }, { "epoch": 0.17093333333333333, "grad_norm": 0.024961573055152557, "learning_rate": 0.0001, "loss": 0.9727, "step": 3205 }, { "epoch": 0.17098666666666668, "grad_norm": 0.02431309271029481, "learning_rate": 0.0001, "loss": 0.9923, "step": 3206 }, { "epoch": 0.17104, "grad_norm": 0.025267501174650823, "learning_rate": 0.0001, "loss": 0.9621, "step": 3207 }, { "epoch": 0.17109333333333332, "grad_norm": 0.023016209361155254, "learning_rate": 0.0001, "loss": 1.0133, "step": 3208 }, { "epoch": 0.17114666666666667, "grad_norm": 0.029420455658514238, "learning_rate": 0.0001, "loss": 1.042, "step": 3209 }, { "epoch": 0.1712, "grad_norm": 0.025537264144258005, "learning_rate": 0.0001, "loss": 1.0206, "step": 3210 }, { "epoch": 0.17125333333333334, "grad_norm": 0.024652627306706074, "learning_rate": 0.0001, "loss": 0.9668, "step": 3211 }, { "epoch": 0.17130666666666666, "grad_norm": 0.023528966491634724, "learning_rate": 0.0001, "loss": 0.9724, "step": 3212 }, { "epoch": 0.17136, "grad_norm": 0.023587512290345294, "learning_rate": 0.0001, "loss": 1.0167, "step": 3213 }, { "epoch": 0.17141333333333333, "grad_norm": 0.023813890730982397, "learning_rate": 0.0001, "loss": 0.9766, "step": 3214 }, { "epoch": 0.17146666666666666, "grad_norm": 0.025231937173622022, "learning_rate": 0.0001, "loss": 1.0812, "step": 3215 }, { "epoch": 0.17152, "grad_norm": 0.024815432590172107, "learning_rate": 0.0001, "loss": 1.0716, "step": 3216 }, { "epoch": 0.17157333333333333, "grad_norm": 0.024772286659863224, "learning_rate": 0.0001, "loss": 1.0118, "step": 3217 }, { "epoch": 0.17162666666666668, "grad_norm": 0.025991491627035138, "learning_rate": 0.0001, "loss": 1.0127, "step": 3218 }, { "epoch": 0.17168, "grad_norm": 0.02570544138876579, "learning_rate": 0.0001, "loss": 1.0068, "step": 3219 }, { "epoch": 0.17173333333333332, "grad_norm": 0.02402967462411596, "learning_rate": 0.0001, "loss": 1.027, "step": 3220 }, { "epoch": 0.17178666666666667, "grad_norm": 0.026766748492244485, "learning_rate": 0.0001, "loss": 1.0406, "step": 3221 }, { "epoch": 0.17184, "grad_norm": 0.026133135533397796, "learning_rate": 0.0001, "loss": 1.0297, "step": 3222 }, { "epoch": 0.17189333333333334, "grad_norm": 0.026094978850537718, "learning_rate": 0.0001, "loss": 1.0176, "step": 3223 }, { "epoch": 0.17194666666666666, "grad_norm": 0.026553672417286067, "learning_rate": 0.0001, "loss": 1.036, "step": 3224 }, { "epoch": 0.172, "grad_norm": 0.026287396500706578, "learning_rate": 0.0001, "loss": 1.006, "step": 3225 }, { "epoch": 0.17205333333333334, "grad_norm": 0.02549072879334232, "learning_rate": 0.0001, "loss": 1.0376, "step": 3226 }, { "epoch": 0.17210666666666666, "grad_norm": 0.023777766881523877, "learning_rate": 0.0001, "loss": 1.0207, "step": 3227 }, { "epoch": 0.17216, "grad_norm": 0.025197569598541653, "learning_rate": 0.0001, "loss": 1.0344, "step": 3228 }, { "epoch": 0.17221333333333333, "grad_norm": 0.029203595172221212, "learning_rate": 0.0001, "loss": 0.9473, "step": 3229 }, { "epoch": 0.17226666666666668, "grad_norm": 0.02565999840536797, "learning_rate": 0.0001, "loss": 0.9176, "step": 3230 }, { "epoch": 0.17232, "grad_norm": 0.024698466210046243, "learning_rate": 0.0001, "loss": 0.947, "step": 3231 }, { "epoch": 0.17237333333333332, "grad_norm": 0.02476613962728062, "learning_rate": 0.0001, "loss": 0.9888, "step": 3232 }, { "epoch": 0.17242666666666667, "grad_norm": 0.023000990619386503, "learning_rate": 0.0001, "loss": 0.9673, "step": 3233 }, { "epoch": 0.17248, "grad_norm": 0.02481676534774418, "learning_rate": 0.0001, "loss": 1.0307, "step": 3234 }, { "epoch": 0.17253333333333334, "grad_norm": 0.02316009609097262, "learning_rate": 0.0001, "loss": 0.9756, "step": 3235 }, { "epoch": 0.17258666666666667, "grad_norm": 0.02430514384116189, "learning_rate": 0.0001, "loss": 0.9288, "step": 3236 }, { "epoch": 0.17264, "grad_norm": 0.02411396056308451, "learning_rate": 0.0001, "loss": 1.0003, "step": 3237 }, { "epoch": 0.17269333333333334, "grad_norm": 0.024682086048844993, "learning_rate": 0.0001, "loss": 0.9988, "step": 3238 }, { "epoch": 0.17274666666666666, "grad_norm": 0.023734650968473422, "learning_rate": 0.0001, "loss": 1.0491, "step": 3239 }, { "epoch": 0.1728, "grad_norm": 0.023112553593343837, "learning_rate": 0.0001, "loss": 1.0002, "step": 3240 }, { "epoch": 0.17285333333333333, "grad_norm": 0.023614553545185577, "learning_rate": 0.0001, "loss": 0.9865, "step": 3241 }, { "epoch": 0.17290666666666665, "grad_norm": 0.024986510655095964, "learning_rate": 0.0001, "loss": 1.0309, "step": 3242 }, { "epoch": 0.17296, "grad_norm": 0.02413172008614967, "learning_rate": 0.0001, "loss": 1.0127, "step": 3243 }, { "epoch": 0.17301333333333332, "grad_norm": 0.026729789631091707, "learning_rate": 0.0001, "loss": 0.9492, "step": 3244 }, { "epoch": 0.17306666666666667, "grad_norm": 0.02686316927307677, "learning_rate": 0.0001, "loss": 0.9983, "step": 3245 }, { "epoch": 0.17312, "grad_norm": 0.024551927210796513, "learning_rate": 0.0001, "loss": 0.9533, "step": 3246 }, { "epoch": 0.17317333333333335, "grad_norm": 0.027864444270083992, "learning_rate": 0.0001, "loss": 1.0841, "step": 3247 }, { "epoch": 0.17322666666666667, "grad_norm": 0.02668807440874764, "learning_rate": 0.0001, "loss": 0.9074, "step": 3248 }, { "epoch": 0.17328, "grad_norm": 0.024124829995790492, "learning_rate": 0.0001, "loss": 0.9672, "step": 3249 }, { "epoch": 0.17333333333333334, "grad_norm": 0.025930345242203254, "learning_rate": 0.0001, "loss": 0.9671, "step": 3250 }, { "epoch": 0.17338666666666666, "grad_norm": 0.025480269205712492, "learning_rate": 0.0001, "loss": 1.0036, "step": 3251 }, { "epoch": 0.17344, "grad_norm": 0.02498706522597276, "learning_rate": 0.0001, "loss": 0.962, "step": 3252 }, { "epoch": 0.17349333333333333, "grad_norm": 0.024167800841631337, "learning_rate": 0.0001, "loss": 0.9417, "step": 3253 }, { "epoch": 0.17354666666666665, "grad_norm": 0.024374511754638045, "learning_rate": 0.0001, "loss": 1.0027, "step": 3254 }, { "epoch": 0.1736, "grad_norm": 0.025424948649484472, "learning_rate": 0.0001, "loss": 1.0398, "step": 3255 }, { "epoch": 0.17365333333333333, "grad_norm": 0.023547229593546146, "learning_rate": 0.0001, "loss": 0.9505, "step": 3256 }, { "epoch": 0.17370666666666668, "grad_norm": 0.026604589121466498, "learning_rate": 0.0001, "loss": 1.0262, "step": 3257 }, { "epoch": 0.17376, "grad_norm": 0.025645795272443025, "learning_rate": 0.0001, "loss": 0.9724, "step": 3258 }, { "epoch": 0.17381333333333332, "grad_norm": 0.02507952360873121, "learning_rate": 0.0001, "loss": 0.9678, "step": 3259 }, { "epoch": 0.17386666666666667, "grad_norm": 0.024342816368392986, "learning_rate": 0.0001, "loss": 0.9737, "step": 3260 }, { "epoch": 0.17392, "grad_norm": 0.02807401699005808, "learning_rate": 0.0001, "loss": 1.0041, "step": 3261 }, { "epoch": 0.17397333333333334, "grad_norm": 0.023172335836664233, "learning_rate": 0.0001, "loss": 1.0084, "step": 3262 }, { "epoch": 0.17402666666666666, "grad_norm": 0.024857028009847133, "learning_rate": 0.0001, "loss": 0.9972, "step": 3263 }, { "epoch": 0.17408, "grad_norm": 0.027643427976389388, "learning_rate": 0.0001, "loss": 0.9375, "step": 3264 }, { "epoch": 0.17413333333333333, "grad_norm": 0.02561759939905144, "learning_rate": 0.0001, "loss": 0.9581, "step": 3265 }, { "epoch": 0.17418666666666666, "grad_norm": 0.025162804669445236, "learning_rate": 0.0001, "loss": 1.0147, "step": 3266 }, { "epoch": 0.17424, "grad_norm": 0.028701710316663947, "learning_rate": 0.0001, "loss": 0.9328, "step": 3267 }, { "epoch": 0.17429333333333333, "grad_norm": 0.02733915521536416, "learning_rate": 0.0001, "loss": 0.9913, "step": 3268 }, { "epoch": 0.17434666666666668, "grad_norm": 0.029075667107138284, "learning_rate": 0.0001, "loss": 0.9459, "step": 3269 }, { "epoch": 0.1744, "grad_norm": 0.02653160084217948, "learning_rate": 0.0001, "loss": 0.9601, "step": 3270 }, { "epoch": 0.17445333333333332, "grad_norm": 0.02835227613630983, "learning_rate": 0.0001, "loss": 0.979, "step": 3271 }, { "epoch": 0.17450666666666667, "grad_norm": 0.02419417781202281, "learning_rate": 0.0001, "loss": 0.9267, "step": 3272 }, { "epoch": 0.17456, "grad_norm": 0.025234444657224575, "learning_rate": 0.0001, "loss": 1.0015, "step": 3273 }, { "epoch": 0.17461333333333334, "grad_norm": 0.02623576327156178, "learning_rate": 0.0001, "loss": 0.9611, "step": 3274 }, { "epoch": 0.17466666666666666, "grad_norm": 0.025078277168629183, "learning_rate": 0.0001, "loss": 0.9406, "step": 3275 }, { "epoch": 0.17472, "grad_norm": 0.024871816292535685, "learning_rate": 0.0001, "loss": 1.0044, "step": 3276 }, { "epoch": 0.17477333333333334, "grad_norm": 0.025507221010659675, "learning_rate": 0.0001, "loss": 1.0497, "step": 3277 }, { "epoch": 0.17482666666666666, "grad_norm": 0.023165644603191374, "learning_rate": 0.0001, "loss": 0.9718, "step": 3278 }, { "epoch": 0.17488, "grad_norm": 0.024480223694639328, "learning_rate": 0.0001, "loss": 0.9944, "step": 3279 }, { "epoch": 0.17493333333333333, "grad_norm": 0.025135070616603895, "learning_rate": 0.0001, "loss": 0.9308, "step": 3280 }, { "epoch": 0.17498666666666668, "grad_norm": 0.025202331306909707, "learning_rate": 0.0001, "loss": 0.9896, "step": 3281 }, { "epoch": 0.17504, "grad_norm": 0.02772264888081956, "learning_rate": 0.0001, "loss": 0.9838, "step": 3282 }, { "epoch": 0.17509333333333332, "grad_norm": 0.026353809767062614, "learning_rate": 0.0001, "loss": 1.1162, "step": 3283 }, { "epoch": 0.17514666666666667, "grad_norm": 0.028267453071198576, "learning_rate": 0.0001, "loss": 0.9613, "step": 3284 }, { "epoch": 0.1752, "grad_norm": 0.024530706735911238, "learning_rate": 0.0001, "loss": 0.962, "step": 3285 }, { "epoch": 0.17525333333333334, "grad_norm": 0.0259056445759679, "learning_rate": 0.0001, "loss": 0.9267, "step": 3286 }, { "epoch": 0.17530666666666667, "grad_norm": 0.025622966521847684, "learning_rate": 0.0001, "loss": 0.9624, "step": 3287 }, { "epoch": 0.17536, "grad_norm": 0.024815579974000846, "learning_rate": 0.0001, "loss": 0.9578, "step": 3288 }, { "epoch": 0.17541333333333334, "grad_norm": 0.025669547245977614, "learning_rate": 0.0001, "loss": 0.9904, "step": 3289 }, { "epoch": 0.17546666666666666, "grad_norm": 0.024513910544881758, "learning_rate": 0.0001, "loss": 0.9288, "step": 3290 }, { "epoch": 0.17552, "grad_norm": 0.024852612682380478, "learning_rate": 0.0001, "loss": 0.9416, "step": 3291 }, { "epoch": 0.17557333333333333, "grad_norm": 0.02467697048306532, "learning_rate": 0.0001, "loss": 0.984, "step": 3292 }, { "epoch": 0.17562666666666665, "grad_norm": 0.024953749313015756, "learning_rate": 0.0001, "loss": 1.0211, "step": 3293 }, { "epoch": 0.17568, "grad_norm": 0.0267438503497353, "learning_rate": 0.0001, "loss": 1.0359, "step": 3294 }, { "epoch": 0.17573333333333332, "grad_norm": 0.024629173835076765, "learning_rate": 0.0001, "loss": 1.0194, "step": 3295 }, { "epoch": 0.17578666666666667, "grad_norm": 0.026741944569232113, "learning_rate": 0.0001, "loss": 1.0417, "step": 3296 }, { "epoch": 0.17584, "grad_norm": 0.02575150917189237, "learning_rate": 0.0001, "loss": 0.9824, "step": 3297 }, { "epoch": 0.17589333333333335, "grad_norm": 0.024188102805792856, "learning_rate": 0.0001, "loss": 1.0001, "step": 3298 }, { "epoch": 0.17594666666666667, "grad_norm": 0.02460434512223889, "learning_rate": 0.0001, "loss": 0.9661, "step": 3299 }, { "epoch": 0.176, "grad_norm": 0.02661081455985677, "learning_rate": 0.0001, "loss": 0.9957, "step": 3300 }, { "epoch": 0.17605333333333334, "grad_norm": 0.028647450435440546, "learning_rate": 0.0001, "loss": 1.0311, "step": 3301 }, { "epoch": 0.17610666666666666, "grad_norm": 0.027339896767391524, "learning_rate": 0.0001, "loss": 0.9749, "step": 3302 }, { "epoch": 0.17616, "grad_norm": 0.023483652562482176, "learning_rate": 0.0001, "loss": 0.9939, "step": 3303 }, { "epoch": 0.17621333333333333, "grad_norm": 0.026663309664095934, "learning_rate": 0.0001, "loss": 1.0151, "step": 3304 }, { "epoch": 0.17626666666666665, "grad_norm": 0.027202116347814748, "learning_rate": 0.0001, "loss": 0.9855, "step": 3305 }, { "epoch": 0.17632, "grad_norm": 0.02390439583667912, "learning_rate": 0.0001, "loss": 0.9754, "step": 3306 }, { "epoch": 0.17637333333333333, "grad_norm": 0.02726673877515778, "learning_rate": 0.0001, "loss": 0.9901, "step": 3307 }, { "epoch": 0.17642666666666668, "grad_norm": 0.030836237003722705, "learning_rate": 0.0001, "loss": 0.9538, "step": 3308 }, { "epoch": 0.17648, "grad_norm": 0.027554319159455946, "learning_rate": 0.0001, "loss": 1.0127, "step": 3309 }, { "epoch": 0.17653333333333332, "grad_norm": 0.02409846627460086, "learning_rate": 0.0001, "loss": 0.9594, "step": 3310 }, { "epoch": 0.17658666666666667, "grad_norm": 0.029351347270393006, "learning_rate": 0.0001, "loss": 1.0443, "step": 3311 }, { "epoch": 0.17664, "grad_norm": 0.024751479812259714, "learning_rate": 0.0001, "loss": 0.9283, "step": 3312 }, { "epoch": 0.17669333333333334, "grad_norm": 0.026252964674900504, "learning_rate": 0.0001, "loss": 0.9364, "step": 3313 }, { "epoch": 0.17674666666666666, "grad_norm": 0.02467546788227699, "learning_rate": 0.0001, "loss": 1.002, "step": 3314 }, { "epoch": 0.1768, "grad_norm": 0.028397330824945975, "learning_rate": 0.0001, "loss": 0.9488, "step": 3315 }, { "epoch": 0.17685333333333333, "grad_norm": 0.024608656361176977, "learning_rate": 0.0001, "loss": 1.0291, "step": 3316 }, { "epoch": 0.17690666666666666, "grad_norm": 0.02586550291288537, "learning_rate": 0.0001, "loss": 0.9776, "step": 3317 }, { "epoch": 0.17696, "grad_norm": 0.025777067756935324, "learning_rate": 0.0001, "loss": 0.9461, "step": 3318 }, { "epoch": 0.17701333333333333, "grad_norm": 0.023691145871176034, "learning_rate": 0.0001, "loss": 0.9081, "step": 3319 }, { "epoch": 0.17706666666666668, "grad_norm": 0.02439266025195327, "learning_rate": 0.0001, "loss": 0.9923, "step": 3320 }, { "epoch": 0.17712, "grad_norm": 0.025569110341384576, "learning_rate": 0.0001, "loss": 1.0379, "step": 3321 }, { "epoch": 0.17717333333333332, "grad_norm": 0.023220496813552184, "learning_rate": 0.0001, "loss": 0.9668, "step": 3322 }, { "epoch": 0.17722666666666667, "grad_norm": 0.026562486666884263, "learning_rate": 0.0001, "loss": 0.9848, "step": 3323 }, { "epoch": 0.17728, "grad_norm": 0.025668681309924658, "learning_rate": 0.0001, "loss": 0.9618, "step": 3324 }, { "epoch": 0.17733333333333334, "grad_norm": 0.025637225992535827, "learning_rate": 0.0001, "loss": 1.0278, "step": 3325 }, { "epoch": 0.17738666666666666, "grad_norm": 0.02672393205563525, "learning_rate": 0.0001, "loss": 0.9781, "step": 3326 }, { "epoch": 0.17744, "grad_norm": 0.027030260042634077, "learning_rate": 0.0001, "loss": 1.0077, "step": 3327 }, { "epoch": 0.17749333333333334, "grad_norm": 0.026086547322097118, "learning_rate": 0.0001, "loss": 0.9367, "step": 3328 }, { "epoch": 0.17754666666666666, "grad_norm": 0.02465233840387541, "learning_rate": 0.0001, "loss": 0.9649, "step": 3329 }, { "epoch": 0.1776, "grad_norm": 0.025730868432308474, "learning_rate": 0.0001, "loss": 0.9923, "step": 3330 }, { "epoch": 0.17765333333333333, "grad_norm": 0.025685968925867577, "learning_rate": 0.0001, "loss": 0.9482, "step": 3331 }, { "epoch": 0.17770666666666668, "grad_norm": 0.025893342650091983, "learning_rate": 0.0001, "loss": 0.9968, "step": 3332 }, { "epoch": 0.17776, "grad_norm": 0.02784994798971849, "learning_rate": 0.0001, "loss": 1.0258, "step": 3333 }, { "epoch": 0.17781333333333332, "grad_norm": 0.024324606839358914, "learning_rate": 0.0001, "loss": 0.9584, "step": 3334 }, { "epoch": 0.17786666666666667, "grad_norm": 0.02745575682717646, "learning_rate": 0.0001, "loss": 1.0606, "step": 3335 }, { "epoch": 0.17792, "grad_norm": 0.026578476312241268, "learning_rate": 0.0001, "loss": 1.0093, "step": 3336 }, { "epoch": 0.17797333333333334, "grad_norm": 0.026738034471297727, "learning_rate": 0.0001, "loss": 0.9937, "step": 3337 }, { "epoch": 0.17802666666666667, "grad_norm": 0.02642963077882504, "learning_rate": 0.0001, "loss": 1.0506, "step": 3338 }, { "epoch": 0.17808, "grad_norm": 0.026137199647165824, "learning_rate": 0.0001, "loss": 0.9143, "step": 3339 }, { "epoch": 0.17813333333333334, "grad_norm": 0.028944488140847664, "learning_rate": 0.0001, "loss": 0.9496, "step": 3340 }, { "epoch": 0.17818666666666666, "grad_norm": 0.025802608387355125, "learning_rate": 0.0001, "loss": 0.9956, "step": 3341 }, { "epoch": 0.17824, "grad_norm": 0.024481492653230234, "learning_rate": 0.0001, "loss": 0.9503, "step": 3342 }, { "epoch": 0.17829333333333333, "grad_norm": 0.027879991209138016, "learning_rate": 0.0001, "loss": 0.9738, "step": 3343 }, { "epoch": 0.17834666666666665, "grad_norm": 0.028173536594283913, "learning_rate": 0.0001, "loss": 0.9143, "step": 3344 }, { "epoch": 0.1784, "grad_norm": 0.025966632937853378, "learning_rate": 0.0001, "loss": 0.9389, "step": 3345 }, { "epoch": 0.17845333333333332, "grad_norm": 0.02654554243205197, "learning_rate": 0.0001, "loss": 1.0378, "step": 3346 }, { "epoch": 0.17850666666666667, "grad_norm": 0.024949525696071975, "learning_rate": 0.0001, "loss": 1.0182, "step": 3347 }, { "epoch": 0.17856, "grad_norm": 0.029127633729205772, "learning_rate": 0.0001, "loss": 0.9993, "step": 3348 }, { "epoch": 0.17861333333333335, "grad_norm": 0.027058521363336526, "learning_rate": 0.0001, "loss": 0.9868, "step": 3349 }, { "epoch": 0.17866666666666667, "grad_norm": 0.025771294287852534, "learning_rate": 0.0001, "loss": 0.9644, "step": 3350 }, { "epoch": 0.17872, "grad_norm": 0.030058750163883464, "learning_rate": 0.0001, "loss": 0.9698, "step": 3351 }, { "epoch": 0.17877333333333334, "grad_norm": 0.023340980478636322, "learning_rate": 0.0001, "loss": 0.9902, "step": 3352 }, { "epoch": 0.17882666666666666, "grad_norm": 0.02824652280486865, "learning_rate": 0.0001, "loss": 1.0039, "step": 3353 }, { "epoch": 0.17888, "grad_norm": 0.024822069482217986, "learning_rate": 0.0001, "loss": 0.9766, "step": 3354 }, { "epoch": 0.17893333333333333, "grad_norm": 0.027340586673662726, "learning_rate": 0.0001, "loss": 0.9785, "step": 3355 }, { "epoch": 0.17898666666666666, "grad_norm": 0.025101475684207196, "learning_rate": 0.0001, "loss": 1.0235, "step": 3356 }, { "epoch": 0.17904, "grad_norm": 0.02454697458967666, "learning_rate": 0.0001, "loss": 0.9875, "step": 3357 }, { "epoch": 0.17909333333333333, "grad_norm": 0.02495894069592039, "learning_rate": 0.0001, "loss": 1.0102, "step": 3358 }, { "epoch": 0.17914666666666668, "grad_norm": 0.026273941374103577, "learning_rate": 0.0001, "loss": 0.9857, "step": 3359 }, { "epoch": 0.1792, "grad_norm": 0.025518725024426377, "learning_rate": 0.0001, "loss": 0.9963, "step": 3360 }, { "epoch": 0.17925333333333332, "grad_norm": 0.025701186908437083, "learning_rate": 0.0001, "loss": 0.9625, "step": 3361 }, { "epoch": 0.17930666666666667, "grad_norm": 0.024420279120936386, "learning_rate": 0.0001, "loss": 0.9547, "step": 3362 }, { "epoch": 0.17936, "grad_norm": 0.025025327561413103, "learning_rate": 0.0001, "loss": 0.9322, "step": 3363 }, { "epoch": 0.17941333333333334, "grad_norm": 0.024841550583651957, "learning_rate": 0.0001, "loss": 1.041, "step": 3364 }, { "epoch": 0.17946666666666666, "grad_norm": 0.025676338869691583, "learning_rate": 0.0001, "loss": 1.0041, "step": 3365 }, { "epoch": 0.17952, "grad_norm": 0.026326257810716135, "learning_rate": 0.0001, "loss": 1.0462, "step": 3366 }, { "epoch": 0.17957333333333333, "grad_norm": 0.02474256194517646, "learning_rate": 0.0001, "loss": 1.0094, "step": 3367 }, { "epoch": 0.17962666666666666, "grad_norm": 0.027963947238114444, "learning_rate": 0.0001, "loss": 0.9474, "step": 3368 }, { "epoch": 0.17968, "grad_norm": 0.02493890587771712, "learning_rate": 0.0001, "loss": 0.9546, "step": 3369 }, { "epoch": 0.17973333333333333, "grad_norm": 0.026847349493475087, "learning_rate": 0.0001, "loss": 1.0338, "step": 3370 }, { "epoch": 0.17978666666666668, "grad_norm": 0.022916206877024937, "learning_rate": 0.0001, "loss": 0.9805, "step": 3371 }, { "epoch": 0.17984, "grad_norm": 0.029671281375378052, "learning_rate": 0.0001, "loss": 1.0236, "step": 3372 }, { "epoch": 0.17989333333333332, "grad_norm": 0.02422641311479583, "learning_rate": 0.0001, "loss": 1.0447, "step": 3373 }, { "epoch": 0.17994666666666667, "grad_norm": 0.026006887185620334, "learning_rate": 0.0001, "loss": 0.9913, "step": 3374 }, { "epoch": 0.18, "grad_norm": 0.026493320899817988, "learning_rate": 0.0001, "loss": 1.0145, "step": 3375 }, { "epoch": 0.18005333333333334, "grad_norm": 0.024660360305645727, "learning_rate": 0.0001, "loss": 0.9528, "step": 3376 }, { "epoch": 0.18010666666666666, "grad_norm": 0.023720236686848622, "learning_rate": 0.0001, "loss": 0.8575, "step": 3377 }, { "epoch": 0.18016, "grad_norm": 0.025327407036899247, "learning_rate": 0.0001, "loss": 0.9573, "step": 3378 }, { "epoch": 0.18021333333333334, "grad_norm": 0.024494421057157535, "learning_rate": 0.0001, "loss": 0.9725, "step": 3379 }, { "epoch": 0.18026666666666666, "grad_norm": 0.025014865978980085, "learning_rate": 0.0001, "loss": 0.9941, "step": 3380 }, { "epoch": 0.18032, "grad_norm": 0.02556562189346021, "learning_rate": 0.0001, "loss": 1.02, "step": 3381 }, { "epoch": 0.18037333333333333, "grad_norm": 0.027662016741659932, "learning_rate": 0.0001, "loss": 1.0115, "step": 3382 }, { "epoch": 0.18042666666666668, "grad_norm": 0.02610529119376462, "learning_rate": 0.0001, "loss": 0.9827, "step": 3383 }, { "epoch": 0.18048, "grad_norm": 0.0261524509885641, "learning_rate": 0.0001, "loss": 0.9977, "step": 3384 }, { "epoch": 0.18053333333333332, "grad_norm": 0.026636151742726665, "learning_rate": 0.0001, "loss": 0.9637, "step": 3385 }, { "epoch": 0.18058666666666667, "grad_norm": 0.028885523092490463, "learning_rate": 0.0001, "loss": 1.0182, "step": 3386 }, { "epoch": 0.18064, "grad_norm": 0.030280298664756126, "learning_rate": 0.0001, "loss": 0.9779, "step": 3387 }, { "epoch": 0.18069333333333334, "grad_norm": 0.024046419548378644, "learning_rate": 0.0001, "loss": 1.0357, "step": 3388 }, { "epoch": 0.18074666666666667, "grad_norm": 0.026271644100280774, "learning_rate": 0.0001, "loss": 1.0345, "step": 3389 }, { "epoch": 0.1808, "grad_norm": 0.025345570104632755, "learning_rate": 0.0001, "loss": 0.9368, "step": 3390 }, { "epoch": 0.18085333333333334, "grad_norm": 0.024593655955514694, "learning_rate": 0.0001, "loss": 0.9291, "step": 3391 }, { "epoch": 0.18090666666666666, "grad_norm": 0.026836422020053582, "learning_rate": 0.0001, "loss": 1.0466, "step": 3392 }, { "epoch": 0.18096, "grad_norm": 0.02758681178000765, "learning_rate": 0.0001, "loss": 0.9803, "step": 3393 }, { "epoch": 0.18101333333333333, "grad_norm": 0.025361288459162922, "learning_rate": 0.0001, "loss": 1.0139, "step": 3394 }, { "epoch": 0.18106666666666665, "grad_norm": 0.025714324293475345, "learning_rate": 0.0001, "loss": 0.97, "step": 3395 }, { "epoch": 0.18112, "grad_norm": 0.027658523246141167, "learning_rate": 0.0001, "loss": 1.0116, "step": 3396 }, { "epoch": 0.18117333333333333, "grad_norm": 0.025741311848737118, "learning_rate": 0.0001, "loss": 0.9859, "step": 3397 }, { "epoch": 0.18122666666666667, "grad_norm": 0.02658568450472719, "learning_rate": 0.0001, "loss": 0.9777, "step": 3398 }, { "epoch": 0.18128, "grad_norm": 0.02679139169631185, "learning_rate": 0.0001, "loss": 1.0182, "step": 3399 }, { "epoch": 0.18133333333333335, "grad_norm": 0.025746278088033318, "learning_rate": 0.0001, "loss": 0.9625, "step": 3400 }, { "epoch": 0.18133333333333335, "eval_accuracy": 0.6152154472587726, "eval_loss": 1.3818577527999878, "eval_runtime": 62.849, "eval_samples_per_second": 15.911, "eval_steps_per_second": 0.509, "step": 3400 }, { "epoch": 0.18138666666666667, "grad_norm": 0.02788404577520953, "learning_rate": 0.0001, "loss": 1.0153, "step": 3401 }, { "epoch": 0.18144, "grad_norm": 0.029107590696340915, "learning_rate": 0.0001, "loss": 0.9588, "step": 3402 }, { "epoch": 0.18149333333333334, "grad_norm": 0.02463337126691339, "learning_rate": 0.0001, "loss": 0.9685, "step": 3403 }, { "epoch": 0.18154666666666666, "grad_norm": 0.026536865830945593, "learning_rate": 0.0001, "loss": 0.9689, "step": 3404 }, { "epoch": 0.1816, "grad_norm": 0.026605887534267837, "learning_rate": 0.0001, "loss": 1.0005, "step": 3405 }, { "epoch": 0.18165333333333333, "grad_norm": 0.02642094802780444, "learning_rate": 0.0001, "loss": 0.965, "step": 3406 }, { "epoch": 0.18170666666666666, "grad_norm": 0.026914393671230667, "learning_rate": 0.0001, "loss": 0.9646, "step": 3407 }, { "epoch": 0.18176, "grad_norm": 0.024075004807619045, "learning_rate": 0.0001, "loss": 0.9809, "step": 3408 }, { "epoch": 0.18181333333333333, "grad_norm": 0.027571736409787686, "learning_rate": 0.0001, "loss": 0.9464, "step": 3409 }, { "epoch": 0.18186666666666668, "grad_norm": 0.029090476812969654, "learning_rate": 0.0001, "loss": 0.9464, "step": 3410 }, { "epoch": 0.18192, "grad_norm": 0.02606263242880765, "learning_rate": 0.0001, "loss": 0.9442, "step": 3411 }, { "epoch": 0.18197333333333332, "grad_norm": 0.02467601869414292, "learning_rate": 0.0001, "loss": 0.9876, "step": 3412 }, { "epoch": 0.18202666666666667, "grad_norm": 0.024705144745746834, "learning_rate": 0.0001, "loss": 0.9932, "step": 3413 }, { "epoch": 0.18208, "grad_norm": 0.02683304124968671, "learning_rate": 0.0001, "loss": 0.9521, "step": 3414 }, { "epoch": 0.18213333333333334, "grad_norm": 0.025897132758175886, "learning_rate": 0.0001, "loss": 0.9918, "step": 3415 }, { "epoch": 0.18218666666666666, "grad_norm": 0.02818584018538754, "learning_rate": 0.0001, "loss": 0.9683, "step": 3416 }, { "epoch": 0.18224, "grad_norm": 0.027049378353121305, "learning_rate": 0.0001, "loss": 0.958, "step": 3417 }, { "epoch": 0.18229333333333334, "grad_norm": 0.02719652785136033, "learning_rate": 0.0001, "loss": 0.9813, "step": 3418 }, { "epoch": 0.18234666666666666, "grad_norm": 0.025956379535244132, "learning_rate": 0.0001, "loss": 1.003, "step": 3419 }, { "epoch": 0.1824, "grad_norm": 0.02355652114916388, "learning_rate": 0.0001, "loss": 0.9479, "step": 3420 }, { "epoch": 0.18245333333333333, "grad_norm": 0.027175423258480758, "learning_rate": 0.0001, "loss": 0.9717, "step": 3421 }, { "epoch": 0.18250666666666668, "grad_norm": 0.02479632812414812, "learning_rate": 0.0001, "loss": 0.962, "step": 3422 }, { "epoch": 0.18256, "grad_norm": 0.02434525944908548, "learning_rate": 0.0001, "loss": 0.994, "step": 3423 }, { "epoch": 0.18261333333333332, "grad_norm": 0.024152741586693605, "learning_rate": 0.0001, "loss": 0.9441, "step": 3424 }, { "epoch": 0.18266666666666667, "grad_norm": 0.025923698298901243, "learning_rate": 0.0001, "loss": 1.029, "step": 3425 }, { "epoch": 0.18272, "grad_norm": 0.023881379800550724, "learning_rate": 0.0001, "loss": 0.9399, "step": 3426 }, { "epoch": 0.18277333333333334, "grad_norm": 0.025130436970779792, "learning_rate": 0.0001, "loss": 0.9557, "step": 3427 }, { "epoch": 0.18282666666666667, "grad_norm": 0.025910273530369423, "learning_rate": 0.0001, "loss": 0.9975, "step": 3428 }, { "epoch": 0.18288, "grad_norm": 0.022987892614521107, "learning_rate": 0.0001, "loss": 0.9782, "step": 3429 }, { "epoch": 0.18293333333333334, "grad_norm": 0.025216789935996364, "learning_rate": 0.0001, "loss": 0.9325, "step": 3430 }, { "epoch": 0.18298666666666666, "grad_norm": 0.022414665646417427, "learning_rate": 0.0001, "loss": 0.9648, "step": 3431 }, { "epoch": 0.18304, "grad_norm": 0.026144131000426726, "learning_rate": 0.0001, "loss": 0.9947, "step": 3432 }, { "epoch": 0.18309333333333333, "grad_norm": 0.026874572064510664, "learning_rate": 0.0001, "loss": 0.9954, "step": 3433 }, { "epoch": 0.18314666666666668, "grad_norm": 0.025354152592850787, "learning_rate": 0.0001, "loss": 1.0079, "step": 3434 }, { "epoch": 0.1832, "grad_norm": 0.027292528327281337, "learning_rate": 0.0001, "loss": 0.9862, "step": 3435 }, { "epoch": 0.18325333333333332, "grad_norm": 0.025792740216296954, "learning_rate": 0.0001, "loss": 1.0184, "step": 3436 }, { "epoch": 0.18330666666666667, "grad_norm": 0.028028936273908723, "learning_rate": 0.0001, "loss": 1.0168, "step": 3437 }, { "epoch": 0.18336, "grad_norm": 0.026069064151915237, "learning_rate": 0.0001, "loss": 1.0071, "step": 3438 }, { "epoch": 0.18341333333333334, "grad_norm": 0.025598157056008826, "learning_rate": 0.0001, "loss": 0.9627, "step": 3439 }, { "epoch": 0.18346666666666667, "grad_norm": 0.028918364437689793, "learning_rate": 0.0001, "loss": 1.0034, "step": 3440 }, { "epoch": 0.18352, "grad_norm": 0.024758234097893215, "learning_rate": 0.0001, "loss": 0.9636, "step": 3441 }, { "epoch": 0.18357333333333334, "grad_norm": 0.02588462313960585, "learning_rate": 0.0001, "loss": 0.9615, "step": 3442 }, { "epoch": 0.18362666666666666, "grad_norm": 0.026697745928053067, "learning_rate": 0.0001, "loss": 0.9611, "step": 3443 }, { "epoch": 0.18368, "grad_norm": 0.028080256300182117, "learning_rate": 0.0001, "loss": 1.0237, "step": 3444 }, { "epoch": 0.18373333333333333, "grad_norm": 0.026136989785748823, "learning_rate": 0.0001, "loss": 0.9848, "step": 3445 }, { "epoch": 0.18378666666666665, "grad_norm": 0.02833538675212735, "learning_rate": 0.0001, "loss": 0.9744, "step": 3446 }, { "epoch": 0.18384, "grad_norm": 0.02732873250591658, "learning_rate": 0.0001, "loss": 1.0157, "step": 3447 }, { "epoch": 0.18389333333333333, "grad_norm": 0.02620511472470825, "learning_rate": 0.0001, "loss": 1.0068, "step": 3448 }, { "epoch": 0.18394666666666667, "grad_norm": 0.02426819705710967, "learning_rate": 0.0001, "loss": 1.0267, "step": 3449 }, { "epoch": 0.184, "grad_norm": 0.02791431859195201, "learning_rate": 0.0001, "loss": 1.0194, "step": 3450 }, { "epoch": 0.18405333333333335, "grad_norm": 0.02558173110536595, "learning_rate": 0.0001, "loss": 1.0, "step": 3451 }, { "epoch": 0.18410666666666667, "grad_norm": 0.025035677618851535, "learning_rate": 0.0001, "loss": 0.9693, "step": 3452 }, { "epoch": 0.18416, "grad_norm": 0.02833836423072665, "learning_rate": 0.0001, "loss": 0.9806, "step": 3453 }, { "epoch": 0.18421333333333334, "grad_norm": 0.025505732240270182, "learning_rate": 0.0001, "loss": 1.0394, "step": 3454 }, { "epoch": 0.18426666666666666, "grad_norm": 0.02672197301873966, "learning_rate": 0.0001, "loss": 1.0016, "step": 3455 }, { "epoch": 0.18432, "grad_norm": 0.027576477931748763, "learning_rate": 0.0001, "loss": 0.9784, "step": 3456 }, { "epoch": 0.18437333333333333, "grad_norm": 0.027159731391570685, "learning_rate": 0.0001, "loss": 0.9679, "step": 3457 }, { "epoch": 0.18442666666666666, "grad_norm": 0.026955744534445016, "learning_rate": 0.0001, "loss": 0.9863, "step": 3458 }, { "epoch": 0.18448, "grad_norm": 0.027882522231527766, "learning_rate": 0.0001, "loss": 0.9942, "step": 3459 }, { "epoch": 0.18453333333333333, "grad_norm": 0.025523919294513243, "learning_rate": 0.0001, "loss": 1.0114, "step": 3460 }, { "epoch": 0.18458666666666668, "grad_norm": 0.028135753684217932, "learning_rate": 0.0001, "loss": 0.9957, "step": 3461 }, { "epoch": 0.18464, "grad_norm": 0.02919719550404935, "learning_rate": 0.0001, "loss": 0.9323, "step": 3462 }, { "epoch": 0.18469333333333332, "grad_norm": 0.030156908959569777, "learning_rate": 0.0001, "loss": 0.9849, "step": 3463 }, { "epoch": 0.18474666666666667, "grad_norm": 0.02483120909762595, "learning_rate": 0.0001, "loss": 0.9879, "step": 3464 }, { "epoch": 0.1848, "grad_norm": 0.027484478045092787, "learning_rate": 0.0001, "loss": 1.067, "step": 3465 }, { "epoch": 0.18485333333333334, "grad_norm": 0.028196399404294328, "learning_rate": 0.0001, "loss": 0.9661, "step": 3466 }, { "epoch": 0.18490666666666666, "grad_norm": 0.028376927999862345, "learning_rate": 0.0001, "loss": 0.977, "step": 3467 }, { "epoch": 0.18496, "grad_norm": 0.025303580311752186, "learning_rate": 0.0001, "loss": 1.0079, "step": 3468 }, { "epoch": 0.18501333333333334, "grad_norm": 0.02908489426235198, "learning_rate": 0.0001, "loss": 0.9893, "step": 3469 }, { "epoch": 0.18506666666666666, "grad_norm": 0.02633498621475778, "learning_rate": 0.0001, "loss": 1.0765, "step": 3470 }, { "epoch": 0.18512, "grad_norm": 0.02541710799380631, "learning_rate": 0.0001, "loss": 0.9357, "step": 3471 }, { "epoch": 0.18517333333333333, "grad_norm": 0.025950494509351205, "learning_rate": 0.0001, "loss": 0.9832, "step": 3472 }, { "epoch": 0.18522666666666668, "grad_norm": 0.027029085305819704, "learning_rate": 0.0001, "loss": 0.9396, "step": 3473 }, { "epoch": 0.18528, "grad_norm": 0.0255995620284965, "learning_rate": 0.0001, "loss": 0.9843, "step": 3474 }, { "epoch": 0.18533333333333332, "grad_norm": 0.026879805814112822, "learning_rate": 0.0001, "loss": 1.0493, "step": 3475 }, { "epoch": 0.18538666666666667, "grad_norm": 0.024992550638913955, "learning_rate": 0.0001, "loss": 0.9743, "step": 3476 }, { "epoch": 0.18544, "grad_norm": 0.02791509696450787, "learning_rate": 0.0001, "loss": 0.9421, "step": 3477 }, { "epoch": 0.18549333333333334, "grad_norm": 0.02427486396924571, "learning_rate": 0.0001, "loss": 1.0176, "step": 3478 }, { "epoch": 0.18554666666666667, "grad_norm": 0.026970205597306663, "learning_rate": 0.0001, "loss": 0.9875, "step": 3479 }, { "epoch": 0.1856, "grad_norm": 0.025142232348328398, "learning_rate": 0.0001, "loss": 0.9796, "step": 3480 }, { "epoch": 0.18565333333333334, "grad_norm": 0.024579284393436162, "learning_rate": 0.0001, "loss": 0.9858, "step": 3481 }, { "epoch": 0.18570666666666666, "grad_norm": 0.025199643763289835, "learning_rate": 0.0001, "loss": 1.0215, "step": 3482 }, { "epoch": 0.18576, "grad_norm": 0.02552305776156749, "learning_rate": 0.0001, "loss": 1.0521, "step": 3483 }, { "epoch": 0.18581333333333333, "grad_norm": 0.02590679008891178, "learning_rate": 0.0001, "loss": 0.9768, "step": 3484 }, { "epoch": 0.18586666666666668, "grad_norm": 0.02552023726323634, "learning_rate": 0.0001, "loss": 1.036, "step": 3485 }, { "epoch": 0.18592, "grad_norm": 0.02463898813792729, "learning_rate": 0.0001, "loss": 0.9765, "step": 3486 }, { "epoch": 0.18597333333333332, "grad_norm": 0.026545348869412597, "learning_rate": 0.0001, "loss": 1.0135, "step": 3487 }, { "epoch": 0.18602666666666667, "grad_norm": 0.024563805691566496, "learning_rate": 0.0001, "loss": 1.0447, "step": 3488 }, { "epoch": 0.18608, "grad_norm": 0.026147704213181175, "learning_rate": 0.0001, "loss": 1.0272, "step": 3489 }, { "epoch": 0.18613333333333335, "grad_norm": 0.024728224555209392, "learning_rate": 0.0001, "loss": 1.0028, "step": 3490 }, { "epoch": 0.18618666666666667, "grad_norm": 0.027092326426092835, "learning_rate": 0.0001, "loss": 0.9987, "step": 3491 }, { "epoch": 0.18624, "grad_norm": 0.029892874849365095, "learning_rate": 0.0001, "loss": 1.0004, "step": 3492 }, { "epoch": 0.18629333333333334, "grad_norm": 0.02538997906325339, "learning_rate": 0.0001, "loss": 0.9445, "step": 3493 }, { "epoch": 0.18634666666666666, "grad_norm": 0.023746872719874267, "learning_rate": 0.0001, "loss": 0.9301, "step": 3494 }, { "epoch": 0.1864, "grad_norm": 0.025789089572454276, "learning_rate": 0.0001, "loss": 0.9531, "step": 3495 }, { "epoch": 0.18645333333333333, "grad_norm": 0.025796761565649168, "learning_rate": 0.0001, "loss": 1.0463, "step": 3496 }, { "epoch": 0.18650666666666665, "grad_norm": 0.02335943707322247, "learning_rate": 0.0001, "loss": 0.9927, "step": 3497 }, { "epoch": 0.18656, "grad_norm": 0.02715244718661702, "learning_rate": 0.0001, "loss": 1.0061, "step": 3498 }, { "epoch": 0.18661333333333333, "grad_norm": 0.025536798513648803, "learning_rate": 0.0001, "loss": 0.9826, "step": 3499 }, { "epoch": 0.18666666666666668, "grad_norm": 0.026207805977841003, "learning_rate": 0.0001, "loss": 1.0124, "step": 3500 }, { "epoch": 0.18672, "grad_norm": 0.024706190809151228, "learning_rate": 0.0001, "loss": 1.0744, "step": 3501 }, { "epoch": 0.18677333333333335, "grad_norm": 0.024120531649981153, "learning_rate": 0.0001, "loss": 1.0186, "step": 3502 }, { "epoch": 0.18682666666666667, "grad_norm": 0.02739806030820672, "learning_rate": 0.0001, "loss": 1.0139, "step": 3503 }, { "epoch": 0.18688, "grad_norm": 0.02390316820868975, "learning_rate": 0.0001, "loss": 0.9896, "step": 3504 }, { "epoch": 0.18693333333333334, "grad_norm": 0.024413636650209524, "learning_rate": 0.0001, "loss": 0.9644, "step": 3505 }, { "epoch": 0.18698666666666666, "grad_norm": 0.024184848408398116, "learning_rate": 0.0001, "loss": 1.0262, "step": 3506 }, { "epoch": 0.18704, "grad_norm": 0.027179447094897002, "learning_rate": 0.0001, "loss": 1.0177, "step": 3507 }, { "epoch": 0.18709333333333333, "grad_norm": 0.02615699103404311, "learning_rate": 0.0001, "loss": 1.0285, "step": 3508 }, { "epoch": 0.18714666666666666, "grad_norm": 0.024523123947458123, "learning_rate": 0.0001, "loss": 1.0403, "step": 3509 }, { "epoch": 0.1872, "grad_norm": 0.025248483210581683, "learning_rate": 0.0001, "loss": 1.0154, "step": 3510 }, { "epoch": 0.18725333333333333, "grad_norm": 0.025302320572677943, "learning_rate": 0.0001, "loss": 1.0244, "step": 3511 }, { "epoch": 0.18730666666666668, "grad_norm": 0.027253578075014512, "learning_rate": 0.0001, "loss": 0.9942, "step": 3512 }, { "epoch": 0.18736, "grad_norm": 0.022861325841719914, "learning_rate": 0.0001, "loss": 0.9719, "step": 3513 }, { "epoch": 0.18741333333333332, "grad_norm": 0.024893480388474547, "learning_rate": 0.0001, "loss": 0.9351, "step": 3514 }, { "epoch": 0.18746666666666667, "grad_norm": 0.02592449821000051, "learning_rate": 0.0001, "loss": 1.0225, "step": 3515 }, { "epoch": 0.18752, "grad_norm": 0.023953847962230077, "learning_rate": 0.0001, "loss": 0.9338, "step": 3516 }, { "epoch": 0.18757333333333334, "grad_norm": 0.025104227828563, "learning_rate": 0.0001, "loss": 1.0288, "step": 3517 }, { "epoch": 0.18762666666666666, "grad_norm": 0.02478229841068402, "learning_rate": 0.0001, "loss": 0.981, "step": 3518 }, { "epoch": 0.18768, "grad_norm": 0.0239915080111181, "learning_rate": 0.0001, "loss": 1.0094, "step": 3519 }, { "epoch": 0.18773333333333334, "grad_norm": 0.02442893138764159, "learning_rate": 0.0001, "loss": 0.9447, "step": 3520 }, { "epoch": 0.18778666666666666, "grad_norm": 0.025652093385124586, "learning_rate": 0.0001, "loss": 0.9231, "step": 3521 }, { "epoch": 0.18784, "grad_norm": 0.025371196966063075, "learning_rate": 0.0001, "loss": 0.9954, "step": 3522 }, { "epoch": 0.18789333333333333, "grad_norm": 0.0248476163954093, "learning_rate": 0.0001, "loss": 0.9623, "step": 3523 }, { "epoch": 0.18794666666666668, "grad_norm": 0.0253167020577384, "learning_rate": 0.0001, "loss": 0.9716, "step": 3524 }, { "epoch": 0.188, "grad_norm": 0.02775090894238502, "learning_rate": 0.0001, "loss": 0.9864, "step": 3525 }, { "epoch": 0.18805333333333332, "grad_norm": 0.023501308997575115, "learning_rate": 0.0001, "loss": 0.9898, "step": 3526 }, { "epoch": 0.18810666666666667, "grad_norm": 0.027311165358979612, "learning_rate": 0.0001, "loss": 0.9919, "step": 3527 }, { "epoch": 0.18816, "grad_norm": 0.024838790706314003, "learning_rate": 0.0001, "loss": 0.9654, "step": 3528 }, { "epoch": 0.18821333333333334, "grad_norm": 0.025972614879531838, "learning_rate": 0.0001, "loss": 1.0321, "step": 3529 }, { "epoch": 0.18826666666666667, "grad_norm": 0.02498794777051121, "learning_rate": 0.0001, "loss": 0.9193, "step": 3530 }, { "epoch": 0.18832, "grad_norm": 0.024654044677827162, "learning_rate": 0.0001, "loss": 1.0305, "step": 3531 }, { "epoch": 0.18837333333333334, "grad_norm": 0.026046568551439976, "learning_rate": 0.0001, "loss": 1.047, "step": 3532 }, { "epoch": 0.18842666666666666, "grad_norm": 0.026949441411058376, "learning_rate": 0.0001, "loss": 0.9686, "step": 3533 }, { "epoch": 0.18848, "grad_norm": 0.02467053612107203, "learning_rate": 0.0001, "loss": 1.0009, "step": 3534 }, { "epoch": 0.18853333333333333, "grad_norm": 0.025870594614373455, "learning_rate": 0.0001, "loss": 1.0694, "step": 3535 }, { "epoch": 0.18858666666666668, "grad_norm": 0.023237968971323176, "learning_rate": 0.0001, "loss": 0.9722, "step": 3536 }, { "epoch": 0.18864, "grad_norm": 0.024620283622012153, "learning_rate": 0.0001, "loss": 1.008, "step": 3537 }, { "epoch": 0.18869333333333332, "grad_norm": 0.026938732703581054, "learning_rate": 0.0001, "loss": 0.9633, "step": 3538 }, { "epoch": 0.18874666666666667, "grad_norm": 0.02417372607076218, "learning_rate": 0.0001, "loss": 0.9743, "step": 3539 }, { "epoch": 0.1888, "grad_norm": 0.02448401593182751, "learning_rate": 0.0001, "loss": 0.992, "step": 3540 }, { "epoch": 0.18885333333333335, "grad_norm": 0.025142978607788923, "learning_rate": 0.0001, "loss": 0.9778, "step": 3541 }, { "epoch": 0.18890666666666667, "grad_norm": 0.025510598135688407, "learning_rate": 0.0001, "loss": 1.0436, "step": 3542 }, { "epoch": 0.18896, "grad_norm": 0.025848527123143197, "learning_rate": 0.0001, "loss": 1.0288, "step": 3543 }, { "epoch": 0.18901333333333334, "grad_norm": 0.02585960910265177, "learning_rate": 0.0001, "loss": 1.0577, "step": 3544 }, { "epoch": 0.18906666666666666, "grad_norm": 0.025832039061583597, "learning_rate": 0.0001, "loss": 0.9526, "step": 3545 }, { "epoch": 0.18912, "grad_norm": 0.026160370100400645, "learning_rate": 0.0001, "loss": 0.9903, "step": 3546 }, { "epoch": 0.18917333333333333, "grad_norm": 0.025483734998501248, "learning_rate": 0.0001, "loss": 0.9934, "step": 3547 }, { "epoch": 0.18922666666666665, "grad_norm": 0.025333360545155753, "learning_rate": 0.0001, "loss": 1.0645, "step": 3548 }, { "epoch": 0.18928, "grad_norm": 0.024779958119791726, "learning_rate": 0.0001, "loss": 1.0399, "step": 3549 }, { "epoch": 0.18933333333333333, "grad_norm": 0.026915940332873502, "learning_rate": 0.0001, "loss": 0.9783, "step": 3550 }, { "epoch": 0.18938666666666668, "grad_norm": 0.026869694538272173, "learning_rate": 0.0001, "loss": 1.0276, "step": 3551 }, { "epoch": 0.18944, "grad_norm": 0.024177499053490363, "learning_rate": 0.0001, "loss": 1.0206, "step": 3552 }, { "epoch": 0.18949333333333335, "grad_norm": 0.025049740588224262, "learning_rate": 0.0001, "loss": 1.0593, "step": 3553 }, { "epoch": 0.18954666666666667, "grad_norm": 0.025639618430278018, "learning_rate": 0.0001, "loss": 1.0374, "step": 3554 }, { "epoch": 0.1896, "grad_norm": 0.02653293793139913, "learning_rate": 0.0001, "loss": 1.0715, "step": 3555 }, { "epoch": 0.18965333333333334, "grad_norm": 0.025676541826989443, "learning_rate": 0.0001, "loss": 1.0267, "step": 3556 }, { "epoch": 0.18970666666666666, "grad_norm": 0.02516697577008408, "learning_rate": 0.0001, "loss": 0.9923, "step": 3557 }, { "epoch": 0.18976, "grad_norm": 0.0248231752157476, "learning_rate": 0.0001, "loss": 0.9855, "step": 3558 }, { "epoch": 0.18981333333333333, "grad_norm": 0.023818203842600437, "learning_rate": 0.0001, "loss": 0.9827, "step": 3559 }, { "epoch": 0.18986666666666666, "grad_norm": 0.02528214604773688, "learning_rate": 0.0001, "loss": 0.9936, "step": 3560 }, { "epoch": 0.18992, "grad_norm": 0.025212838508673178, "learning_rate": 0.0001, "loss": 0.9824, "step": 3561 }, { "epoch": 0.18997333333333333, "grad_norm": 0.02353122736053764, "learning_rate": 0.0001, "loss": 0.9607, "step": 3562 }, { "epoch": 0.19002666666666668, "grad_norm": 0.024634261509167442, "learning_rate": 0.0001, "loss": 1.0277, "step": 3563 }, { "epoch": 0.19008, "grad_norm": 0.027023723563781556, "learning_rate": 0.0001, "loss": 1.0055, "step": 3564 }, { "epoch": 0.19013333333333332, "grad_norm": 0.025110148656220743, "learning_rate": 0.0001, "loss": 0.9794, "step": 3565 }, { "epoch": 0.19018666666666667, "grad_norm": 0.026954089871143436, "learning_rate": 0.0001, "loss": 1.0365, "step": 3566 }, { "epoch": 0.19024, "grad_norm": 0.023971854684056673, "learning_rate": 0.0001, "loss": 0.9487, "step": 3567 }, { "epoch": 0.19029333333333334, "grad_norm": 0.026203484451579384, "learning_rate": 0.0001, "loss": 0.9721, "step": 3568 }, { "epoch": 0.19034666666666666, "grad_norm": 0.02387057954556583, "learning_rate": 0.0001, "loss": 0.9035, "step": 3569 }, { "epoch": 0.1904, "grad_norm": 0.0236108639796415, "learning_rate": 0.0001, "loss": 0.9492, "step": 3570 }, { "epoch": 0.19045333333333334, "grad_norm": 0.02706742958840352, "learning_rate": 0.0001, "loss": 1.0065, "step": 3571 }, { "epoch": 0.19050666666666666, "grad_norm": 0.024998928957616757, "learning_rate": 0.0001, "loss": 0.9807, "step": 3572 }, { "epoch": 0.19056, "grad_norm": 0.02600483332276982, "learning_rate": 0.0001, "loss": 0.9873, "step": 3573 }, { "epoch": 0.19061333333333333, "grad_norm": 0.024040156149145123, "learning_rate": 0.0001, "loss": 0.9661, "step": 3574 }, { "epoch": 0.19066666666666668, "grad_norm": 0.02379483291879239, "learning_rate": 0.0001, "loss": 0.9918, "step": 3575 }, { "epoch": 0.19072, "grad_norm": 0.022623264853640957, "learning_rate": 0.0001, "loss": 0.953, "step": 3576 }, { "epoch": 0.19077333333333332, "grad_norm": 0.024931770540795744, "learning_rate": 0.0001, "loss": 1.0316, "step": 3577 }, { "epoch": 0.19082666666666667, "grad_norm": 0.025337895268664052, "learning_rate": 0.0001, "loss": 1.0476, "step": 3578 }, { "epoch": 0.19088, "grad_norm": 0.02554606043802528, "learning_rate": 0.0001, "loss": 1.0462, "step": 3579 }, { "epoch": 0.19093333333333334, "grad_norm": 0.024500993538555747, "learning_rate": 0.0001, "loss": 0.9742, "step": 3580 }, { "epoch": 0.19098666666666667, "grad_norm": 0.023051430351425196, "learning_rate": 0.0001, "loss": 0.9899, "step": 3581 }, { "epoch": 0.19104, "grad_norm": 0.02525567403677667, "learning_rate": 0.0001, "loss": 0.9477, "step": 3582 }, { "epoch": 0.19109333333333334, "grad_norm": 0.023828146982157385, "learning_rate": 0.0001, "loss": 1.0045, "step": 3583 }, { "epoch": 0.19114666666666666, "grad_norm": 0.023606249021235145, "learning_rate": 0.0001, "loss": 0.9935, "step": 3584 }, { "epoch": 0.1912, "grad_norm": 0.024845600327747987, "learning_rate": 0.0001, "loss": 0.9604, "step": 3585 }, { "epoch": 0.19125333333333333, "grad_norm": 0.023738330457918008, "learning_rate": 0.0001, "loss": 0.9443, "step": 3586 }, { "epoch": 0.19130666666666668, "grad_norm": 0.025952689408167563, "learning_rate": 0.0001, "loss": 0.977, "step": 3587 }, { "epoch": 0.19136, "grad_norm": 0.0279980463767368, "learning_rate": 0.0001, "loss": 1.0103, "step": 3588 }, { "epoch": 0.19141333333333332, "grad_norm": 0.02617497340050425, "learning_rate": 0.0001, "loss": 0.9712, "step": 3589 }, { "epoch": 0.19146666666666667, "grad_norm": 0.024606101869877564, "learning_rate": 0.0001, "loss": 0.9609, "step": 3590 }, { "epoch": 0.19152, "grad_norm": 0.02501007808968401, "learning_rate": 0.0001, "loss": 0.951, "step": 3591 }, { "epoch": 0.19157333333333335, "grad_norm": 0.02316753054899678, "learning_rate": 0.0001, "loss": 0.927, "step": 3592 }, { "epoch": 0.19162666666666667, "grad_norm": 0.025186039134125485, "learning_rate": 0.0001, "loss": 1.033, "step": 3593 }, { "epoch": 0.19168, "grad_norm": 0.024511459809401785, "learning_rate": 0.0001, "loss": 0.9629, "step": 3594 }, { "epoch": 0.19173333333333334, "grad_norm": 0.023159418308673418, "learning_rate": 0.0001, "loss": 0.9681, "step": 3595 }, { "epoch": 0.19178666666666666, "grad_norm": 0.02617156770229588, "learning_rate": 0.0001, "loss": 0.9569, "step": 3596 }, { "epoch": 0.19184, "grad_norm": 0.021813341689924506, "learning_rate": 0.0001, "loss": 0.9727, "step": 3597 }, { "epoch": 0.19189333333333333, "grad_norm": 0.03098183094643312, "learning_rate": 0.0001, "loss": 1.0388, "step": 3598 }, { "epoch": 0.19194666666666665, "grad_norm": 0.024539351719329774, "learning_rate": 0.0001, "loss": 0.9761, "step": 3599 }, { "epoch": 0.192, "grad_norm": 0.02525617638084879, "learning_rate": 0.0001, "loss": 1.0586, "step": 3600 }, { "epoch": 0.192, "eval_accuracy": 0.6154520940717549, "eval_loss": 1.3799831867218018, "eval_runtime": 62.8814, "eval_samples_per_second": 15.903, "eval_steps_per_second": 0.509, "step": 3600 }, { "epoch": 0.19205333333333333, "grad_norm": 0.024791917491729012, "learning_rate": 0.0001, "loss": 1.0137, "step": 3601 }, { "epoch": 0.19210666666666668, "grad_norm": 0.024616725758454947, "learning_rate": 0.0001, "loss": 1.049, "step": 3602 }, { "epoch": 0.19216, "grad_norm": 0.023352453416244427, "learning_rate": 0.0001, "loss": 1.0601, "step": 3603 }, { "epoch": 0.19221333333333335, "grad_norm": 0.026110998122366037, "learning_rate": 0.0001, "loss": 0.9596, "step": 3604 }, { "epoch": 0.19226666666666667, "grad_norm": 0.022331335353308484, "learning_rate": 0.0001, "loss": 0.9986, "step": 3605 }, { "epoch": 0.19232, "grad_norm": 0.02321975066521064, "learning_rate": 0.0001, "loss": 0.975, "step": 3606 }, { "epoch": 0.19237333333333334, "grad_norm": 0.0250055747110722, "learning_rate": 0.0001, "loss": 1.0272, "step": 3607 }, { "epoch": 0.19242666666666666, "grad_norm": 0.026504121886228395, "learning_rate": 0.0001, "loss": 0.9492, "step": 3608 }, { "epoch": 0.19248, "grad_norm": 0.023741964417325435, "learning_rate": 0.0001, "loss": 0.9977, "step": 3609 }, { "epoch": 0.19253333333333333, "grad_norm": 0.025149179704440614, "learning_rate": 0.0001, "loss": 0.9563, "step": 3610 }, { "epoch": 0.19258666666666666, "grad_norm": 0.025741423800449435, "learning_rate": 0.0001, "loss": 0.9925, "step": 3611 }, { "epoch": 0.19264, "grad_norm": 0.02461265197607647, "learning_rate": 0.0001, "loss": 1.0215, "step": 3612 }, { "epoch": 0.19269333333333333, "grad_norm": 0.023928591276251195, "learning_rate": 0.0001, "loss": 1.0575, "step": 3613 }, { "epoch": 0.19274666666666668, "grad_norm": 0.023427816997769534, "learning_rate": 0.0001, "loss": 0.9955, "step": 3614 }, { "epoch": 0.1928, "grad_norm": 0.02322050453860059, "learning_rate": 0.0001, "loss": 0.987, "step": 3615 }, { "epoch": 0.19285333333333332, "grad_norm": 0.025410467985991607, "learning_rate": 0.0001, "loss": 0.9436, "step": 3616 }, { "epoch": 0.19290666666666667, "grad_norm": 0.02400055908851686, "learning_rate": 0.0001, "loss": 0.9864, "step": 3617 }, { "epoch": 0.19296, "grad_norm": 0.026357786101753298, "learning_rate": 0.0001, "loss": 0.9844, "step": 3618 }, { "epoch": 0.19301333333333334, "grad_norm": 0.024707052966720648, "learning_rate": 0.0001, "loss": 1.0037, "step": 3619 }, { "epoch": 0.19306666666666666, "grad_norm": 0.027444457300150136, "learning_rate": 0.0001, "loss": 0.9368, "step": 3620 }, { "epoch": 0.19312, "grad_norm": 0.02465745513195673, "learning_rate": 0.0001, "loss": 1.0232, "step": 3621 }, { "epoch": 0.19317333333333334, "grad_norm": 0.02512725002128322, "learning_rate": 0.0001, "loss": 1.0034, "step": 3622 }, { "epoch": 0.19322666666666666, "grad_norm": 0.026046396924255026, "learning_rate": 0.0001, "loss": 1.003, "step": 3623 }, { "epoch": 0.19328, "grad_norm": 0.024704042673263676, "learning_rate": 0.0001, "loss": 1.0137, "step": 3624 }, { "epoch": 0.19333333333333333, "grad_norm": 0.025933923324255575, "learning_rate": 0.0001, "loss": 0.977, "step": 3625 }, { "epoch": 0.19338666666666668, "grad_norm": 0.02633496854483942, "learning_rate": 0.0001, "loss": 0.9817, "step": 3626 }, { "epoch": 0.19344, "grad_norm": 0.02623837393680218, "learning_rate": 0.0001, "loss": 0.9617, "step": 3627 }, { "epoch": 0.19349333333333332, "grad_norm": 0.025552706354754484, "learning_rate": 0.0001, "loss": 0.9372, "step": 3628 }, { "epoch": 0.19354666666666667, "grad_norm": 0.02749257266191957, "learning_rate": 0.0001, "loss": 0.948, "step": 3629 }, { "epoch": 0.1936, "grad_norm": 0.02851493830300891, "learning_rate": 0.0001, "loss": 0.9566, "step": 3630 }, { "epoch": 0.19365333333333334, "grad_norm": 0.025807606515633734, "learning_rate": 0.0001, "loss": 0.9628, "step": 3631 }, { "epoch": 0.19370666666666667, "grad_norm": 0.026695313171951167, "learning_rate": 0.0001, "loss": 0.9839, "step": 3632 }, { "epoch": 0.19376, "grad_norm": 0.026493790099997923, "learning_rate": 0.0001, "loss": 0.9782, "step": 3633 }, { "epoch": 0.19381333333333334, "grad_norm": 0.03189821168016517, "learning_rate": 0.0001, "loss": 1.024, "step": 3634 }, { "epoch": 0.19386666666666666, "grad_norm": 0.025573592706431954, "learning_rate": 0.0001, "loss": 1.016, "step": 3635 }, { "epoch": 0.19392, "grad_norm": 0.022925120839929872, "learning_rate": 0.0001, "loss": 0.9505, "step": 3636 }, { "epoch": 0.19397333333333333, "grad_norm": 0.023222502013119362, "learning_rate": 0.0001, "loss": 0.9488, "step": 3637 }, { "epoch": 0.19402666666666665, "grad_norm": 0.02684147684640962, "learning_rate": 0.0001, "loss": 1.0009, "step": 3638 }, { "epoch": 0.19408, "grad_norm": 0.02415745033735449, "learning_rate": 0.0001, "loss": 1.0084, "step": 3639 }, { "epoch": 0.19413333333333332, "grad_norm": 0.025262349683537084, "learning_rate": 0.0001, "loss": 1.0319, "step": 3640 }, { "epoch": 0.19418666666666667, "grad_norm": 0.026889569671373355, "learning_rate": 0.0001, "loss": 1.0164, "step": 3641 }, { "epoch": 0.19424, "grad_norm": 0.027779882552581122, "learning_rate": 0.0001, "loss": 1.0595, "step": 3642 }, { "epoch": 0.19429333333333335, "grad_norm": 0.023003390587205057, "learning_rate": 0.0001, "loss": 0.9814, "step": 3643 }, { "epoch": 0.19434666666666667, "grad_norm": 0.028404683305478153, "learning_rate": 0.0001, "loss": 0.9845, "step": 3644 }, { "epoch": 0.1944, "grad_norm": 0.024757751761847288, "learning_rate": 0.0001, "loss": 0.9839, "step": 3645 }, { "epoch": 0.19445333333333334, "grad_norm": 0.02546845802827426, "learning_rate": 0.0001, "loss": 0.9635, "step": 3646 }, { "epoch": 0.19450666666666666, "grad_norm": 0.02783766413385135, "learning_rate": 0.0001, "loss": 1.0015, "step": 3647 }, { "epoch": 0.19456, "grad_norm": 0.023371912710149458, "learning_rate": 0.0001, "loss": 1.0115, "step": 3648 }, { "epoch": 0.19461333333333333, "grad_norm": 0.023907196966929042, "learning_rate": 0.0001, "loss": 0.9777, "step": 3649 }, { "epoch": 0.19466666666666665, "grad_norm": 0.027259425014316017, "learning_rate": 0.0001, "loss": 1.022, "step": 3650 }, { "epoch": 0.19472, "grad_norm": 0.02363261963820187, "learning_rate": 0.0001, "loss": 0.9833, "step": 3651 }, { "epoch": 0.19477333333333333, "grad_norm": 0.027307802520385276, "learning_rate": 0.0001, "loss": 1.0118, "step": 3652 }, { "epoch": 0.19482666666666668, "grad_norm": 0.02607828960889171, "learning_rate": 0.0001, "loss": 0.9588, "step": 3653 }, { "epoch": 0.19488, "grad_norm": 0.024041736312024806, "learning_rate": 0.0001, "loss": 0.9642, "step": 3654 }, { "epoch": 0.19493333333333332, "grad_norm": 0.026196735993107626, "learning_rate": 0.0001, "loss": 1.0223, "step": 3655 }, { "epoch": 0.19498666666666667, "grad_norm": 0.026472281559358293, "learning_rate": 0.0001, "loss": 1.0257, "step": 3656 }, { "epoch": 0.19504, "grad_norm": 0.026918906507798185, "learning_rate": 0.0001, "loss": 0.9651, "step": 3657 }, { "epoch": 0.19509333333333334, "grad_norm": 0.02581396300972499, "learning_rate": 0.0001, "loss": 1.0083, "step": 3658 }, { "epoch": 0.19514666666666666, "grad_norm": 0.02704061370875191, "learning_rate": 0.0001, "loss": 0.9709, "step": 3659 }, { "epoch": 0.1952, "grad_norm": 0.024647511183305895, "learning_rate": 0.0001, "loss": 0.9908, "step": 3660 }, { "epoch": 0.19525333333333333, "grad_norm": 0.025903646432295178, "learning_rate": 0.0001, "loss": 0.972, "step": 3661 }, { "epoch": 0.19530666666666666, "grad_norm": 0.02579657133362515, "learning_rate": 0.0001, "loss": 0.9203, "step": 3662 }, { "epoch": 0.19536, "grad_norm": 0.02790382339175459, "learning_rate": 0.0001, "loss": 1.0306, "step": 3663 }, { "epoch": 0.19541333333333333, "grad_norm": 0.025906346817223327, "learning_rate": 0.0001, "loss": 0.9497, "step": 3664 }, { "epoch": 0.19546666666666668, "grad_norm": 0.02735645522275257, "learning_rate": 0.0001, "loss": 0.9996, "step": 3665 }, { "epoch": 0.19552, "grad_norm": 0.027401876835391838, "learning_rate": 0.0001, "loss": 0.9898, "step": 3666 }, { "epoch": 0.19557333333333332, "grad_norm": 0.026985162806974883, "learning_rate": 0.0001, "loss": 1.0018, "step": 3667 }, { "epoch": 0.19562666666666667, "grad_norm": 0.028031223967979142, "learning_rate": 0.0001, "loss": 0.9519, "step": 3668 }, { "epoch": 0.19568, "grad_norm": 0.02574595417487729, "learning_rate": 0.0001, "loss": 0.964, "step": 3669 }, { "epoch": 0.19573333333333334, "grad_norm": 0.026185999030864524, "learning_rate": 0.0001, "loss": 1.0519, "step": 3670 }, { "epoch": 0.19578666666666666, "grad_norm": 0.025721592671271915, "learning_rate": 0.0001, "loss": 1.0029, "step": 3671 }, { "epoch": 0.19584, "grad_norm": 0.02625063800281071, "learning_rate": 0.0001, "loss": 0.982, "step": 3672 }, { "epoch": 0.19589333333333334, "grad_norm": 0.02849329487704224, "learning_rate": 0.0001, "loss": 0.963, "step": 3673 }, { "epoch": 0.19594666666666666, "grad_norm": 0.02439895461068646, "learning_rate": 0.0001, "loss": 0.9785, "step": 3674 }, { "epoch": 0.196, "grad_norm": 0.024837637626310954, "learning_rate": 0.0001, "loss": 1.0042, "step": 3675 }, { "epoch": 0.19605333333333333, "grad_norm": 0.02764462891998952, "learning_rate": 0.0001, "loss": 0.9852, "step": 3676 }, { "epoch": 0.19610666666666668, "grad_norm": 0.024420825290900054, "learning_rate": 0.0001, "loss": 0.9804, "step": 3677 }, { "epoch": 0.19616, "grad_norm": 0.024940603221638782, "learning_rate": 0.0001, "loss": 0.9906, "step": 3678 }, { "epoch": 0.19621333333333332, "grad_norm": 0.026638880506615, "learning_rate": 0.0001, "loss": 0.9891, "step": 3679 }, { "epoch": 0.19626666666666667, "grad_norm": 0.02447615462285521, "learning_rate": 0.0001, "loss": 1.0128, "step": 3680 }, { "epoch": 0.19632, "grad_norm": 0.023346794747188232, "learning_rate": 0.0001, "loss": 1.0095, "step": 3681 }, { "epoch": 0.19637333333333334, "grad_norm": 0.0275302696166071, "learning_rate": 0.0001, "loss": 0.9929, "step": 3682 }, { "epoch": 0.19642666666666667, "grad_norm": 0.02708553382970011, "learning_rate": 0.0001, "loss": 1.0151, "step": 3683 }, { "epoch": 0.19648, "grad_norm": 0.024417432913200587, "learning_rate": 0.0001, "loss": 1.0802, "step": 3684 }, { "epoch": 0.19653333333333334, "grad_norm": 0.027668548703664964, "learning_rate": 0.0001, "loss": 0.986, "step": 3685 }, { "epoch": 0.19658666666666666, "grad_norm": 0.02754645547090657, "learning_rate": 0.0001, "loss": 1.0345, "step": 3686 }, { "epoch": 0.19664, "grad_norm": 0.025540740658579746, "learning_rate": 0.0001, "loss": 1.0083, "step": 3687 }, { "epoch": 0.19669333333333333, "grad_norm": 0.024242447669713212, "learning_rate": 0.0001, "loss": 0.9772, "step": 3688 }, { "epoch": 0.19674666666666665, "grad_norm": 0.026037753717685092, "learning_rate": 0.0001, "loss": 0.9515, "step": 3689 }, { "epoch": 0.1968, "grad_norm": 0.02377169212702068, "learning_rate": 0.0001, "loss": 1.028, "step": 3690 }, { "epoch": 0.19685333333333332, "grad_norm": 0.024044858929617323, "learning_rate": 0.0001, "loss": 0.9693, "step": 3691 }, { "epoch": 0.19690666666666667, "grad_norm": 0.025499128783070008, "learning_rate": 0.0001, "loss": 0.9643, "step": 3692 }, { "epoch": 0.19696, "grad_norm": 0.025900685863266635, "learning_rate": 0.0001, "loss": 1.0176, "step": 3693 }, { "epoch": 0.19701333333333335, "grad_norm": 0.02587906628277292, "learning_rate": 0.0001, "loss": 1.0158, "step": 3694 }, { "epoch": 0.19706666666666667, "grad_norm": 0.025280489473282052, "learning_rate": 0.0001, "loss": 1.0019, "step": 3695 }, { "epoch": 0.19712, "grad_norm": 0.025186264154007244, "learning_rate": 0.0001, "loss": 1.0135, "step": 3696 }, { "epoch": 0.19717333333333334, "grad_norm": 0.02247670440571041, "learning_rate": 0.0001, "loss": 1.0084, "step": 3697 }, { "epoch": 0.19722666666666666, "grad_norm": 0.022879763987245498, "learning_rate": 0.0001, "loss": 0.9643, "step": 3698 }, { "epoch": 0.19728, "grad_norm": 0.02749369867061824, "learning_rate": 0.0001, "loss": 0.9518, "step": 3699 }, { "epoch": 0.19733333333333333, "grad_norm": 0.027654290598640604, "learning_rate": 0.0001, "loss": 1.0003, "step": 3700 }, { "epoch": 0.19738666666666665, "grad_norm": 0.024051078434315323, "learning_rate": 0.0001, "loss": 0.9114, "step": 3701 }, { "epoch": 0.19744, "grad_norm": 0.025424997308673276, "learning_rate": 0.0001, "loss": 0.9999, "step": 3702 }, { "epoch": 0.19749333333333333, "grad_norm": 0.026795722677970438, "learning_rate": 0.0001, "loss": 0.8685, "step": 3703 }, { "epoch": 0.19754666666666668, "grad_norm": 0.02409147229606473, "learning_rate": 0.0001, "loss": 1.0095, "step": 3704 }, { "epoch": 0.1976, "grad_norm": 0.03045727363341014, "learning_rate": 0.0001, "loss": 1.0044, "step": 3705 }, { "epoch": 0.19765333333333332, "grad_norm": 0.02756989193109836, "learning_rate": 0.0001, "loss": 0.9856, "step": 3706 }, { "epoch": 0.19770666666666667, "grad_norm": 0.02415310055539668, "learning_rate": 0.0001, "loss": 1.039, "step": 3707 }, { "epoch": 0.19776, "grad_norm": 0.025336275768586276, "learning_rate": 0.0001, "loss": 0.971, "step": 3708 }, { "epoch": 0.19781333333333334, "grad_norm": 0.02898139651495417, "learning_rate": 0.0001, "loss": 0.9746, "step": 3709 }, { "epoch": 0.19786666666666666, "grad_norm": 0.02651434307661715, "learning_rate": 0.0001, "loss": 0.9563, "step": 3710 }, { "epoch": 0.19792, "grad_norm": 0.023739460396023107, "learning_rate": 0.0001, "loss": 1.0134, "step": 3711 }, { "epoch": 0.19797333333333333, "grad_norm": 0.02512279421082305, "learning_rate": 0.0001, "loss": 0.9321, "step": 3712 }, { "epoch": 0.19802666666666666, "grad_norm": 0.02277507376072582, "learning_rate": 0.0001, "loss": 0.982, "step": 3713 }, { "epoch": 0.19808, "grad_norm": 0.024832561109122298, "learning_rate": 0.0001, "loss": 0.9984, "step": 3714 }, { "epoch": 0.19813333333333333, "grad_norm": 0.023916545558309885, "learning_rate": 0.0001, "loss": 0.9195, "step": 3715 }, { "epoch": 0.19818666666666668, "grad_norm": 0.025080199404929268, "learning_rate": 0.0001, "loss": 1.005, "step": 3716 }, { "epoch": 0.19824, "grad_norm": 0.02408285135466368, "learning_rate": 0.0001, "loss": 0.978, "step": 3717 }, { "epoch": 0.19829333333333332, "grad_norm": 0.025882560285844455, "learning_rate": 0.0001, "loss": 0.9621, "step": 3718 }, { "epoch": 0.19834666666666667, "grad_norm": 0.022458135460567685, "learning_rate": 0.0001, "loss": 0.8725, "step": 3719 }, { "epoch": 0.1984, "grad_norm": 0.022909997984635295, "learning_rate": 0.0001, "loss": 1.0114, "step": 3720 }, { "epoch": 0.19845333333333334, "grad_norm": 0.023778868057754275, "learning_rate": 0.0001, "loss": 0.9593, "step": 3721 }, { "epoch": 0.19850666666666666, "grad_norm": 0.025273450317901954, "learning_rate": 0.0001, "loss": 0.9989, "step": 3722 }, { "epoch": 0.19856, "grad_norm": 0.02404703069173558, "learning_rate": 0.0001, "loss": 1.0482, "step": 3723 }, { "epoch": 0.19861333333333334, "grad_norm": 0.023684785435321622, "learning_rate": 0.0001, "loss": 1.0149, "step": 3724 }, { "epoch": 0.19866666666666666, "grad_norm": 0.02779843087905376, "learning_rate": 0.0001, "loss": 1.0111, "step": 3725 }, { "epoch": 0.19872, "grad_norm": 0.023229786389898102, "learning_rate": 0.0001, "loss": 1.008, "step": 3726 }, { "epoch": 0.19877333333333333, "grad_norm": 0.024189147230062887, "learning_rate": 0.0001, "loss": 0.9855, "step": 3727 }, { "epoch": 0.19882666666666668, "grad_norm": 0.024817448932531853, "learning_rate": 0.0001, "loss": 1.0167, "step": 3728 }, { "epoch": 0.19888, "grad_norm": 0.02465571495183219, "learning_rate": 0.0001, "loss": 0.9676, "step": 3729 }, { "epoch": 0.19893333333333332, "grad_norm": 0.0237866121208367, "learning_rate": 0.0001, "loss": 1.0055, "step": 3730 }, { "epoch": 0.19898666666666667, "grad_norm": 0.024365423201641742, "learning_rate": 0.0001, "loss": 0.9644, "step": 3731 }, { "epoch": 0.19904, "grad_norm": 0.025162883880848374, "learning_rate": 0.0001, "loss": 1.0038, "step": 3732 }, { "epoch": 0.19909333333333334, "grad_norm": 0.024477981102318438, "learning_rate": 0.0001, "loss": 0.9974, "step": 3733 }, { "epoch": 0.19914666666666667, "grad_norm": 0.02377156536687535, "learning_rate": 0.0001, "loss": 1.0243, "step": 3734 }, { "epoch": 0.1992, "grad_norm": 0.025617010108787207, "learning_rate": 0.0001, "loss": 1.0112, "step": 3735 }, { "epoch": 0.19925333333333334, "grad_norm": 0.026209587276197734, "learning_rate": 0.0001, "loss": 1.0222, "step": 3736 }, { "epoch": 0.19930666666666666, "grad_norm": 0.02235037149951266, "learning_rate": 0.0001, "loss": 1.0396, "step": 3737 }, { "epoch": 0.19936, "grad_norm": 0.025714588931102053, "learning_rate": 0.0001, "loss": 0.9301, "step": 3738 }, { "epoch": 0.19941333333333333, "grad_norm": 0.026930362372302584, "learning_rate": 0.0001, "loss": 0.9248, "step": 3739 }, { "epoch": 0.19946666666666665, "grad_norm": 0.026131806238581166, "learning_rate": 0.0001, "loss": 0.9643, "step": 3740 }, { "epoch": 0.19952, "grad_norm": 0.025286782127623694, "learning_rate": 0.0001, "loss": 1.0172, "step": 3741 }, { "epoch": 0.19957333333333332, "grad_norm": 0.027316706917672375, "learning_rate": 0.0001, "loss": 1.0267, "step": 3742 }, { "epoch": 0.19962666666666667, "grad_norm": 0.026745623654205124, "learning_rate": 0.0001, "loss": 1.0143, "step": 3743 }, { "epoch": 0.19968, "grad_norm": 0.026199884405598, "learning_rate": 0.0001, "loss": 0.9248, "step": 3744 }, { "epoch": 0.19973333333333335, "grad_norm": 0.025682544820224206, "learning_rate": 0.0001, "loss": 0.9399, "step": 3745 }, { "epoch": 0.19978666666666667, "grad_norm": 0.025580766642949296, "learning_rate": 0.0001, "loss": 0.9323, "step": 3746 }, { "epoch": 0.19984, "grad_norm": 0.0245724762396678, "learning_rate": 0.0001, "loss": 0.9999, "step": 3747 }, { "epoch": 0.19989333333333334, "grad_norm": 0.026573387539112734, "learning_rate": 0.0001, "loss": 0.9568, "step": 3748 }, { "epoch": 0.19994666666666666, "grad_norm": 0.024893891883652996, "learning_rate": 0.0001, "loss": 1.0125, "step": 3749 }, { "epoch": 0.2, "grad_norm": 0.023737414788091098, "learning_rate": 0.0001, "loss": 1.0078, "step": 3750 }, { "epoch": 1.0000533333333332, "grad_norm": 0.02583156688549282, "learning_rate": 0.0001, "loss": 0.969, "step": 3751 }, { "epoch": 1.0001066666666667, "grad_norm": 0.025767466056066373, "learning_rate": 0.0001, "loss": 0.9517, "step": 3752 }, { "epoch": 1.00016, "grad_norm": 0.023190266713711563, "learning_rate": 0.0001, "loss": 1.0269, "step": 3753 }, { "epoch": 1.0002133333333334, "grad_norm": 0.024068071963363528, "learning_rate": 0.0001, "loss": 0.9344, "step": 3754 }, { "epoch": 1.0002666666666666, "grad_norm": 0.024698629782457838, "learning_rate": 0.0001, "loss": 0.9436, "step": 3755 }, { "epoch": 1.00032, "grad_norm": 0.025675555265607906, "learning_rate": 0.0001, "loss": 1.0053, "step": 3756 }, { "epoch": 1.0003733333333333, "grad_norm": 0.025284813922952305, "learning_rate": 0.0001, "loss": 0.9646, "step": 3757 }, { "epoch": 1.0004266666666666, "grad_norm": 0.026656838635101782, "learning_rate": 0.0001, "loss": 0.989, "step": 3758 }, { "epoch": 1.00048, "grad_norm": 0.024492340764220032, "learning_rate": 0.0001, "loss": 0.9519, "step": 3759 }, { "epoch": 1.0005333333333333, "grad_norm": 0.02732808376026254, "learning_rate": 0.0001, "loss": 1.0382, "step": 3760 }, { "epoch": 1.0005866666666667, "grad_norm": 0.02633970557836499, "learning_rate": 0.0001, "loss": 0.9623, "step": 3761 }, { "epoch": 1.00064, "grad_norm": 0.024122880625484826, "learning_rate": 0.0001, "loss": 1.0633, "step": 3762 }, { "epoch": 1.0006933333333334, "grad_norm": 0.025902440165373398, "learning_rate": 0.0001, "loss": 0.9689, "step": 3763 }, { "epoch": 1.0007466666666667, "grad_norm": 0.024959689762436676, "learning_rate": 0.0001, "loss": 1.0171, "step": 3764 }, { "epoch": 1.0008, "grad_norm": 0.023597387979281032, "learning_rate": 0.0001, "loss": 1.0097, "step": 3765 }, { "epoch": 1.0008533333333334, "grad_norm": 0.024290691876415485, "learning_rate": 0.0001, "loss": 0.9987, "step": 3766 }, { "epoch": 1.0009066666666666, "grad_norm": 0.024424096330799287, "learning_rate": 0.0001, "loss": 1.0003, "step": 3767 }, { "epoch": 1.00096, "grad_norm": 0.024906420192111048, "learning_rate": 0.0001, "loss": 0.9993, "step": 3768 }, { "epoch": 1.0010133333333333, "grad_norm": 0.026737977038396483, "learning_rate": 0.0001, "loss": 0.9776, "step": 3769 }, { "epoch": 1.0010666666666668, "grad_norm": 0.025471343808850327, "learning_rate": 0.0001, "loss": 0.9091, "step": 3770 }, { "epoch": 1.00112, "grad_norm": 0.02422831139123784, "learning_rate": 0.0001, "loss": 0.943, "step": 3771 }, { "epoch": 1.0011733333333332, "grad_norm": 0.026959526279475662, "learning_rate": 0.0001, "loss": 1.017, "step": 3772 }, { "epoch": 1.0012266666666667, "grad_norm": 0.025588070743008312, "learning_rate": 0.0001, "loss": 1.0003, "step": 3773 }, { "epoch": 1.00128, "grad_norm": 0.023180874823010574, "learning_rate": 0.0001, "loss": 1.0122, "step": 3774 }, { "epoch": 1.0013333333333334, "grad_norm": 0.02532615302502994, "learning_rate": 0.0001, "loss": 0.9504, "step": 3775 }, { "epoch": 1.0013866666666666, "grad_norm": 0.024971424816228688, "learning_rate": 0.0001, "loss": 1.0135, "step": 3776 }, { "epoch": 1.00144, "grad_norm": 0.025114845658459596, "learning_rate": 0.0001, "loss": 0.979, "step": 3777 }, { "epoch": 1.0014933333333333, "grad_norm": 0.025751500235605494, "learning_rate": 0.0001, "loss": 1.0207, "step": 3778 }, { "epoch": 1.0015466666666666, "grad_norm": 0.026734131475627965, "learning_rate": 0.0001, "loss": 1.0173, "step": 3779 }, { "epoch": 1.0016, "grad_norm": 0.024870494690413282, "learning_rate": 0.0001, "loss": 0.9592, "step": 3780 }, { "epoch": 1.0016533333333333, "grad_norm": 0.024180328853293184, "learning_rate": 0.0001, "loss": 1.0172, "step": 3781 }, { "epoch": 1.0017066666666667, "grad_norm": 0.025123868598353753, "learning_rate": 0.0001, "loss": 0.9466, "step": 3782 }, { "epoch": 1.00176, "grad_norm": 0.02382614320796107, "learning_rate": 0.0001, "loss": 0.9916, "step": 3783 }, { "epoch": 1.0018133333333332, "grad_norm": 0.027970412257055932, "learning_rate": 0.0001, "loss": 0.9915, "step": 3784 }, { "epoch": 1.0018666666666667, "grad_norm": 0.024919940175561473, "learning_rate": 0.0001, "loss": 1.037, "step": 3785 }, { "epoch": 1.00192, "grad_norm": 0.025921238321606126, "learning_rate": 0.0001, "loss": 0.9393, "step": 3786 }, { "epoch": 1.0019733333333334, "grad_norm": 0.025651710213165885, "learning_rate": 0.0001, "loss": 0.9923, "step": 3787 }, { "epoch": 1.0020266666666666, "grad_norm": 0.026151744066692167, "learning_rate": 0.0001, "loss": 1.007, "step": 3788 }, { "epoch": 1.00208, "grad_norm": 0.028067804418459005, "learning_rate": 0.0001, "loss": 0.9893, "step": 3789 }, { "epoch": 1.0021333333333333, "grad_norm": 0.02383620860440485, "learning_rate": 0.0001, "loss": 0.9311, "step": 3790 }, { "epoch": 1.0021866666666666, "grad_norm": 0.024445530135626326, "learning_rate": 0.0001, "loss": 1.0057, "step": 3791 }, { "epoch": 1.00224, "grad_norm": 0.02787918238493275, "learning_rate": 0.0001, "loss": 1.0022, "step": 3792 }, { "epoch": 1.0022933333333333, "grad_norm": 0.025442137057842738, "learning_rate": 0.0001, "loss": 0.9762, "step": 3793 }, { "epoch": 1.0023466666666667, "grad_norm": 0.024497796956759726, "learning_rate": 0.0001, "loss": 0.9993, "step": 3794 }, { "epoch": 1.0024, "grad_norm": 0.02684164629802733, "learning_rate": 0.0001, "loss": 0.9812, "step": 3795 }, { "epoch": 1.0024533333333334, "grad_norm": 0.026595629506693776, "learning_rate": 0.0001, "loss": 0.9538, "step": 3796 }, { "epoch": 1.0025066666666667, "grad_norm": 0.024263126691609137, "learning_rate": 0.0001, "loss": 0.9972, "step": 3797 }, { "epoch": 1.00256, "grad_norm": 0.024859150556965786, "learning_rate": 0.0001, "loss": 0.9343, "step": 3798 }, { "epoch": 1.0026133333333334, "grad_norm": 0.024944097721154367, "learning_rate": 0.0001, "loss": 1.0017, "step": 3799 }, { "epoch": 1.0026666666666666, "grad_norm": 0.024998940149307168, "learning_rate": 0.0001, "loss": 1.0006, "step": 3800 }, { "epoch": 1.0026666666666666, "eval_accuracy": 0.6157979728513443, "eval_loss": 1.3785719871520996, "eval_runtime": 62.3541, "eval_samples_per_second": 16.037, "eval_steps_per_second": 0.513, "step": 3800 }, { "epoch": 1.00272, "grad_norm": 0.02676081968569236, "learning_rate": 0.0001, "loss": 0.9999, "step": 3801 }, { "epoch": 1.0027733333333333, "grad_norm": 0.02477033221128215, "learning_rate": 0.0001, "loss": 1.0145, "step": 3802 }, { "epoch": 1.0028266666666668, "grad_norm": 0.02541571130122805, "learning_rate": 0.0001, "loss": 0.9741, "step": 3803 }, { "epoch": 1.00288, "grad_norm": 0.024541224579099834, "learning_rate": 0.0001, "loss": 1.0018, "step": 3804 }, { "epoch": 1.0029333333333332, "grad_norm": 0.025648522846961612, "learning_rate": 0.0001, "loss": 1.001, "step": 3805 }, { "epoch": 1.0029866666666667, "grad_norm": 0.023858318524824867, "learning_rate": 0.0001, "loss": 0.9256, "step": 3806 }, { "epoch": 1.00304, "grad_norm": 0.025049654995340273, "learning_rate": 0.0001, "loss": 0.9574, "step": 3807 }, { "epoch": 1.0030933333333334, "grad_norm": 0.024949732571705685, "learning_rate": 0.0001, "loss": 0.9497, "step": 3808 }, { "epoch": 1.0031466666666666, "grad_norm": 0.02564584060086987, "learning_rate": 0.0001, "loss": 0.9263, "step": 3809 }, { "epoch": 1.0032, "grad_norm": 0.026973217919570792, "learning_rate": 0.0001, "loss": 0.9812, "step": 3810 }, { "epoch": 1.0032533333333333, "grad_norm": 0.027077102384985577, "learning_rate": 0.0001, "loss": 1.0009, "step": 3811 }, { "epoch": 1.0033066666666666, "grad_norm": 0.026690750793033714, "learning_rate": 0.0001, "loss": 0.9072, "step": 3812 }, { "epoch": 1.00336, "grad_norm": 0.025856664830476023, "learning_rate": 0.0001, "loss": 0.9952, "step": 3813 }, { "epoch": 1.0034133333333333, "grad_norm": 0.028384591640819024, "learning_rate": 0.0001, "loss": 0.9396, "step": 3814 }, { "epoch": 1.0034666666666667, "grad_norm": 0.027722817047142564, "learning_rate": 0.0001, "loss": 1.0354, "step": 3815 }, { "epoch": 1.00352, "grad_norm": 0.025488262282887, "learning_rate": 0.0001, "loss": 0.9958, "step": 3816 }, { "epoch": 1.0035733333333334, "grad_norm": 0.030019038306814454, "learning_rate": 0.0001, "loss": 1.0126, "step": 3817 }, { "epoch": 1.0036266666666667, "grad_norm": 0.02629645823318278, "learning_rate": 0.0001, "loss": 1.0159, "step": 3818 }, { "epoch": 1.00368, "grad_norm": 0.027243965030957763, "learning_rate": 0.0001, "loss": 0.9749, "step": 3819 }, { "epoch": 1.0037333333333334, "grad_norm": 0.026195299873453207, "learning_rate": 0.0001, "loss": 1.0183, "step": 3820 }, { "epoch": 1.0037866666666666, "grad_norm": 0.026525040834195754, "learning_rate": 0.0001, "loss": 0.9361, "step": 3821 }, { "epoch": 1.00384, "grad_norm": 0.027066842011141658, "learning_rate": 0.0001, "loss": 1.0625, "step": 3822 }, { "epoch": 1.0038933333333333, "grad_norm": 0.02690871906514206, "learning_rate": 0.0001, "loss": 0.9528, "step": 3823 }, { "epoch": 1.0039466666666668, "grad_norm": 0.028042714402612523, "learning_rate": 0.0001, "loss": 0.934, "step": 3824 }, { "epoch": 1.004, "grad_norm": 0.027483002895225952, "learning_rate": 0.0001, "loss": 0.9812, "step": 3825 }, { "epoch": 1.0040533333333332, "grad_norm": 0.02549475557459848, "learning_rate": 0.0001, "loss": 0.9898, "step": 3826 }, { "epoch": 1.0041066666666667, "grad_norm": 0.028867818505548464, "learning_rate": 0.0001, "loss": 0.9787, "step": 3827 }, { "epoch": 1.00416, "grad_norm": 0.027840721097360882, "learning_rate": 0.0001, "loss": 0.9403, "step": 3828 }, { "epoch": 1.0042133333333334, "grad_norm": 0.028739634734158522, "learning_rate": 0.0001, "loss": 1.0051, "step": 3829 }, { "epoch": 1.0042666666666666, "grad_norm": 0.029358516605755804, "learning_rate": 0.0001, "loss": 0.9842, "step": 3830 }, { "epoch": 1.00432, "grad_norm": 0.024433513954576016, "learning_rate": 0.0001, "loss": 1.0085, "step": 3831 }, { "epoch": 1.0043733333333333, "grad_norm": 0.02542992876746367, "learning_rate": 0.0001, "loss": 0.9656, "step": 3832 }, { "epoch": 1.0044266666666666, "grad_norm": 0.027128584019290154, "learning_rate": 0.0001, "loss": 1.0082, "step": 3833 }, { "epoch": 1.00448, "grad_norm": 0.024676446454077985, "learning_rate": 0.0001, "loss": 0.9632, "step": 3834 }, { "epoch": 1.0045333333333333, "grad_norm": 0.028389944773164737, "learning_rate": 0.0001, "loss": 0.9747, "step": 3835 }, { "epoch": 1.0045866666666667, "grad_norm": 0.024912339157538776, "learning_rate": 0.0001, "loss": 1.0229, "step": 3836 }, { "epoch": 1.00464, "grad_norm": 0.026911879634413164, "learning_rate": 0.0001, "loss": 0.941, "step": 3837 }, { "epoch": 1.0046933333333334, "grad_norm": 0.02433614037110017, "learning_rate": 0.0001, "loss": 0.9709, "step": 3838 }, { "epoch": 1.0047466666666667, "grad_norm": 0.02361020269784555, "learning_rate": 0.0001, "loss": 0.9676, "step": 3839 }, { "epoch": 1.0048, "grad_norm": 0.02356740682536174, "learning_rate": 0.0001, "loss": 1.0094, "step": 3840 }, { "epoch": 1.0048533333333334, "grad_norm": 0.023288668709623876, "learning_rate": 0.0001, "loss": 0.9866, "step": 3841 }, { "epoch": 1.0049066666666666, "grad_norm": 0.024066905474937058, "learning_rate": 0.0001, "loss": 0.9972, "step": 3842 }, { "epoch": 1.00496, "grad_norm": 0.024166394354955326, "learning_rate": 0.0001, "loss": 0.99, "step": 3843 }, { "epoch": 1.0050133333333333, "grad_norm": 0.026007638091742613, "learning_rate": 0.0001, "loss": 0.9763, "step": 3844 }, { "epoch": 1.0050666666666668, "grad_norm": 0.02370967808483521, "learning_rate": 0.0001, "loss": 1.0394, "step": 3845 }, { "epoch": 1.00512, "grad_norm": 0.022946534268108297, "learning_rate": 0.0001, "loss": 0.9743, "step": 3846 }, { "epoch": 1.0051733333333333, "grad_norm": 0.024230813296235713, "learning_rate": 0.0001, "loss": 0.9858, "step": 3847 }, { "epoch": 1.0052266666666667, "grad_norm": 0.02492538319142767, "learning_rate": 0.0001, "loss": 0.9663, "step": 3848 }, { "epoch": 1.00528, "grad_norm": 0.024241620251644502, "learning_rate": 0.0001, "loss": 1.0067, "step": 3849 }, { "epoch": 1.0053333333333334, "grad_norm": 0.02819803066565441, "learning_rate": 0.0001, "loss": 0.9244, "step": 3850 }, { "epoch": 1.0053866666666667, "grad_norm": 0.026367339032643284, "learning_rate": 0.0001, "loss": 0.9711, "step": 3851 }, { "epoch": 1.0054400000000001, "grad_norm": 0.026739471013831836, "learning_rate": 0.0001, "loss": 1.0729, "step": 3852 }, { "epoch": 1.0054933333333334, "grad_norm": 0.023863081744223535, "learning_rate": 0.0001, "loss": 0.9784, "step": 3853 }, { "epoch": 1.0055466666666666, "grad_norm": 0.023948223319405243, "learning_rate": 0.0001, "loss": 0.9435, "step": 3854 }, { "epoch": 1.0056, "grad_norm": 0.023754696749724448, "learning_rate": 0.0001, "loss": 0.9964, "step": 3855 }, { "epoch": 1.0056533333333333, "grad_norm": 0.024714904031646112, "learning_rate": 0.0001, "loss": 1.0153, "step": 3856 }, { "epoch": 1.0057066666666667, "grad_norm": 0.02338660274367247, "learning_rate": 0.0001, "loss": 0.9861, "step": 3857 }, { "epoch": 1.00576, "grad_norm": 0.023556395855848792, "learning_rate": 0.0001, "loss": 1.0091, "step": 3858 }, { "epoch": 1.0058133333333332, "grad_norm": 0.025186956686858414, "learning_rate": 0.0001, "loss": 0.9453, "step": 3859 }, { "epoch": 1.0058666666666667, "grad_norm": 0.024518714045880595, "learning_rate": 0.0001, "loss": 1.0089, "step": 3860 }, { "epoch": 1.00592, "grad_norm": 0.02368122266291138, "learning_rate": 0.0001, "loss": 0.9054, "step": 3861 }, { "epoch": 1.0059733333333334, "grad_norm": 0.024944739480370987, "learning_rate": 0.0001, "loss": 1.0076, "step": 3862 }, { "epoch": 1.0060266666666666, "grad_norm": 0.023518169222986534, "learning_rate": 0.0001, "loss": 0.9718, "step": 3863 }, { "epoch": 1.00608, "grad_norm": 0.02517444198431426, "learning_rate": 0.0001, "loss": 0.9772, "step": 3864 }, { "epoch": 1.0061333333333333, "grad_norm": 0.025304002093735657, "learning_rate": 0.0001, "loss": 0.9341, "step": 3865 }, { "epoch": 1.0061866666666666, "grad_norm": 0.023000230861759997, "learning_rate": 0.0001, "loss": 1.0419, "step": 3866 }, { "epoch": 1.00624, "grad_norm": 0.02580258604109287, "learning_rate": 0.0001, "loss": 1.0165, "step": 3867 }, { "epoch": 1.0062933333333333, "grad_norm": 0.02870867445488332, "learning_rate": 0.0001, "loss": 0.9631, "step": 3868 }, { "epoch": 1.0063466666666667, "grad_norm": 0.02313878180800255, "learning_rate": 0.0001, "loss": 0.9551, "step": 3869 }, { "epoch": 1.0064, "grad_norm": 0.02472746442555317, "learning_rate": 0.0001, "loss": 1.041, "step": 3870 }, { "epoch": 1.0064533333333334, "grad_norm": 0.023698142171947, "learning_rate": 0.0001, "loss": 1.0161, "step": 3871 }, { "epoch": 1.0065066666666667, "grad_norm": 0.022870216701590215, "learning_rate": 0.0001, "loss": 1.0082, "step": 3872 }, { "epoch": 1.00656, "grad_norm": 0.02372377929899294, "learning_rate": 0.0001, "loss": 0.9958, "step": 3873 }, { "epoch": 1.0066133333333334, "grad_norm": 0.02408693347142562, "learning_rate": 0.0001, "loss": 1.0086, "step": 3874 }, { "epoch": 1.0066666666666666, "grad_norm": 0.02352546623984074, "learning_rate": 0.0001, "loss": 1.0069, "step": 3875 }, { "epoch": 1.00672, "grad_norm": 0.025157397473635622, "learning_rate": 0.0001, "loss": 0.9531, "step": 3876 }, { "epoch": 1.0067733333333333, "grad_norm": 0.02575128063178392, "learning_rate": 0.0001, "loss": 0.9834, "step": 3877 }, { "epoch": 1.0068266666666668, "grad_norm": 0.025326275022360796, "learning_rate": 0.0001, "loss": 0.9784, "step": 3878 }, { "epoch": 1.00688, "grad_norm": 0.025939841327391758, "learning_rate": 0.0001, "loss": 1.0596, "step": 3879 }, { "epoch": 1.0069333333333332, "grad_norm": 0.02377417489879775, "learning_rate": 0.0001, "loss": 0.9674, "step": 3880 }, { "epoch": 1.0069866666666667, "grad_norm": 0.025410850430155393, "learning_rate": 0.0001, "loss": 1.0393, "step": 3881 }, { "epoch": 1.00704, "grad_norm": 0.024475426964721915, "learning_rate": 0.0001, "loss": 0.9371, "step": 3882 }, { "epoch": 1.0070933333333334, "grad_norm": 0.024786067375904268, "learning_rate": 0.0001, "loss": 0.9718, "step": 3883 }, { "epoch": 1.0071466666666666, "grad_norm": 0.02634910784073417, "learning_rate": 0.0001, "loss": 1.0171, "step": 3884 }, { "epoch": 1.0072, "grad_norm": 0.02492780368449725, "learning_rate": 0.0001, "loss": 0.9597, "step": 3885 }, { "epoch": 1.0072533333333333, "grad_norm": 0.02513263545153101, "learning_rate": 0.0001, "loss": 0.9388, "step": 3886 }, { "epoch": 1.0073066666666666, "grad_norm": 0.02306762440181721, "learning_rate": 0.0001, "loss": 0.9533, "step": 3887 }, { "epoch": 1.00736, "grad_norm": 0.03183415485160566, "learning_rate": 0.0001, "loss": 0.9386, "step": 3888 }, { "epoch": 1.0074133333333333, "grad_norm": 0.024637118161564903, "learning_rate": 0.0001, "loss": 0.9909, "step": 3889 }, { "epoch": 1.0074666666666667, "grad_norm": 0.026275857452338625, "learning_rate": 0.0001, "loss": 0.9637, "step": 3890 }, { "epoch": 1.00752, "grad_norm": 0.024990904414050916, "learning_rate": 0.0001, "loss": 0.9488, "step": 3891 }, { "epoch": 1.0075733333333334, "grad_norm": 0.025281662100547057, "learning_rate": 0.0001, "loss": 1.0322, "step": 3892 }, { "epoch": 1.0076266666666667, "grad_norm": 0.02395083557628087, "learning_rate": 0.0001, "loss": 1.0, "step": 3893 }, { "epoch": 1.00768, "grad_norm": 0.02422446580071551, "learning_rate": 0.0001, "loss": 1.0211, "step": 3894 }, { "epoch": 1.0077333333333334, "grad_norm": 0.024066486254591603, "learning_rate": 0.0001, "loss": 1.0202, "step": 3895 }, { "epoch": 1.0077866666666666, "grad_norm": 0.024478756761334316, "learning_rate": 0.0001, "loss": 0.9626, "step": 3896 }, { "epoch": 1.00784, "grad_norm": 0.02492771068975414, "learning_rate": 0.0001, "loss": 0.9958, "step": 3897 }, { "epoch": 1.0078933333333333, "grad_norm": 0.02316381871817615, "learning_rate": 0.0001, "loss": 1.0165, "step": 3898 }, { "epoch": 1.0079466666666668, "grad_norm": 0.024045023185481573, "learning_rate": 0.0001, "loss": 1.0058, "step": 3899 }, { "epoch": 1.008, "grad_norm": 0.024201023608132647, "learning_rate": 0.0001, "loss": 0.9634, "step": 3900 }, { "epoch": 1.0080533333333332, "grad_norm": 0.02519619252479933, "learning_rate": 0.0001, "loss": 0.9832, "step": 3901 }, { "epoch": 1.0081066666666667, "grad_norm": 0.024983110720075363, "learning_rate": 0.0001, "loss": 0.9675, "step": 3902 }, { "epoch": 1.00816, "grad_norm": 0.025996222696692026, "learning_rate": 0.0001, "loss": 0.9623, "step": 3903 }, { "epoch": 1.0082133333333334, "grad_norm": 0.02415428830548552, "learning_rate": 0.0001, "loss": 0.9319, "step": 3904 }, { "epoch": 1.0082666666666666, "grad_norm": 0.025816059098976184, "learning_rate": 0.0001, "loss": 1.0152, "step": 3905 }, { "epoch": 1.00832, "grad_norm": 0.02460610825175619, "learning_rate": 0.0001, "loss": 1.0121, "step": 3906 }, { "epoch": 1.0083733333333333, "grad_norm": 0.024922569865508743, "learning_rate": 0.0001, "loss": 1.0155, "step": 3907 }, { "epoch": 1.0084266666666666, "grad_norm": 0.02385833601886371, "learning_rate": 0.0001, "loss": 1.0157, "step": 3908 }, { "epoch": 1.00848, "grad_norm": 0.028487739023755433, "learning_rate": 0.0001, "loss": 0.9686, "step": 3909 }, { "epoch": 1.0085333333333333, "grad_norm": 0.024221722699809912, "learning_rate": 0.0001, "loss": 0.9544, "step": 3910 }, { "epoch": 1.0085866666666667, "grad_norm": 0.02412116896201808, "learning_rate": 0.0001, "loss": 0.9866, "step": 3911 }, { "epoch": 1.00864, "grad_norm": 0.023853438086638173, "learning_rate": 0.0001, "loss": 1.0404, "step": 3912 }, { "epoch": 1.0086933333333334, "grad_norm": 0.025379814422142766, "learning_rate": 0.0001, "loss": 1.0142, "step": 3913 }, { "epoch": 1.0087466666666667, "grad_norm": 0.02584030350418239, "learning_rate": 0.0001, "loss": 0.9854, "step": 3914 }, { "epoch": 1.0088, "grad_norm": 0.02573667152334552, "learning_rate": 0.0001, "loss": 0.9684, "step": 3915 }, { "epoch": 1.0088533333333334, "grad_norm": 0.023662823012658922, "learning_rate": 0.0001, "loss": 0.9751, "step": 3916 }, { "epoch": 1.0089066666666666, "grad_norm": 0.02310282829034401, "learning_rate": 0.0001, "loss": 0.9236, "step": 3917 }, { "epoch": 1.00896, "grad_norm": 0.02397406133501, "learning_rate": 0.0001, "loss": 0.9716, "step": 3918 }, { "epoch": 1.0090133333333333, "grad_norm": 0.02685420607446201, "learning_rate": 0.0001, "loss": 0.9712, "step": 3919 }, { "epoch": 1.0090666666666666, "grad_norm": 0.02429517539211287, "learning_rate": 0.0001, "loss": 0.9978, "step": 3920 }, { "epoch": 1.00912, "grad_norm": 0.02397681407753184, "learning_rate": 0.0001, "loss": 0.9789, "step": 3921 }, { "epoch": 1.0091733333333333, "grad_norm": 0.025469894167383652, "learning_rate": 0.0001, "loss": 1.0403, "step": 3922 }, { "epoch": 1.0092266666666667, "grad_norm": 0.024472834585150597, "learning_rate": 0.0001, "loss": 1.0312, "step": 3923 }, { "epoch": 1.00928, "grad_norm": 0.025758701520334885, "learning_rate": 0.0001, "loss": 1.0013, "step": 3924 }, { "epoch": 1.0093333333333334, "grad_norm": 0.02686868870186343, "learning_rate": 0.0001, "loss": 0.9843, "step": 3925 }, { "epoch": 1.0093866666666667, "grad_norm": 0.027070017538439996, "learning_rate": 0.0001, "loss": 0.9323, "step": 3926 }, { "epoch": 1.00944, "grad_norm": 0.02627622425993862, "learning_rate": 0.0001, "loss": 1.0077, "step": 3927 }, { "epoch": 1.0094933333333334, "grad_norm": 0.026679032660493252, "learning_rate": 0.0001, "loss": 1.0319, "step": 3928 }, { "epoch": 1.0095466666666666, "grad_norm": 0.02378349567813148, "learning_rate": 0.0001, "loss": 1.025, "step": 3929 }, { "epoch": 1.0096, "grad_norm": 0.029272395542631825, "learning_rate": 0.0001, "loss": 0.922, "step": 3930 }, { "epoch": 1.0096533333333333, "grad_norm": 0.025007187701308414, "learning_rate": 0.0001, "loss": 1.0122, "step": 3931 }, { "epoch": 1.0097066666666668, "grad_norm": 0.02566341332410845, "learning_rate": 0.0001, "loss": 0.9675, "step": 3932 }, { "epoch": 1.00976, "grad_norm": 0.02359052261343419, "learning_rate": 0.0001, "loss": 1.049, "step": 3933 }, { "epoch": 1.0098133333333332, "grad_norm": 0.024915786571942964, "learning_rate": 0.0001, "loss": 1.0307, "step": 3934 }, { "epoch": 1.0098666666666667, "grad_norm": 0.023903042905324617, "learning_rate": 0.0001, "loss": 0.9947, "step": 3935 }, { "epoch": 1.00992, "grad_norm": 0.02532916927496072, "learning_rate": 0.0001, "loss": 0.9717, "step": 3936 }, { "epoch": 1.0099733333333334, "grad_norm": 0.024214396435361586, "learning_rate": 0.0001, "loss": 0.9991, "step": 3937 }, { "epoch": 1.0100266666666666, "grad_norm": 0.02473817481196218, "learning_rate": 0.0001, "loss": 0.9798, "step": 3938 }, { "epoch": 1.01008, "grad_norm": 0.027558083922269924, "learning_rate": 0.0001, "loss": 0.963, "step": 3939 }, { "epoch": 1.0101333333333333, "grad_norm": 0.026634231032450318, "learning_rate": 0.0001, "loss": 1.0061, "step": 3940 }, { "epoch": 1.0101866666666666, "grad_norm": 0.025605328208565297, "learning_rate": 0.0001, "loss": 1.0273, "step": 3941 }, { "epoch": 1.01024, "grad_norm": 0.024913270335292004, "learning_rate": 0.0001, "loss": 0.9813, "step": 3942 }, { "epoch": 1.0102933333333333, "grad_norm": 0.027137800430893772, "learning_rate": 0.0001, "loss": 0.9418, "step": 3943 }, { "epoch": 1.0103466666666667, "grad_norm": 0.022508277294662083, "learning_rate": 0.0001, "loss": 0.947, "step": 3944 }, { "epoch": 1.0104, "grad_norm": 0.026156829849488854, "learning_rate": 0.0001, "loss": 1.0003, "step": 3945 }, { "epoch": 1.0104533333333334, "grad_norm": 0.024856597141466527, "learning_rate": 0.0001, "loss": 0.9806, "step": 3946 }, { "epoch": 1.0105066666666667, "grad_norm": 0.02587737558736356, "learning_rate": 0.0001, "loss": 1.0069, "step": 3947 }, { "epoch": 1.01056, "grad_norm": 0.025866966914672312, "learning_rate": 0.0001, "loss": 1.002, "step": 3948 }, { "epoch": 1.0106133333333334, "grad_norm": 0.02578345355089943, "learning_rate": 0.0001, "loss": 0.9885, "step": 3949 }, { "epoch": 1.0106666666666666, "grad_norm": 0.024272730842819067, "learning_rate": 0.0001, "loss": 0.9969, "step": 3950 }, { "epoch": 1.01072, "grad_norm": 0.02454699127260331, "learning_rate": 0.0001, "loss": 0.9871, "step": 3951 }, { "epoch": 1.0107733333333333, "grad_norm": 0.025084289388201862, "learning_rate": 0.0001, "loss": 0.9932, "step": 3952 }, { "epoch": 1.0108266666666668, "grad_norm": 0.025110014537504905, "learning_rate": 0.0001, "loss": 1.0286, "step": 3953 }, { "epoch": 1.01088, "grad_norm": 0.025461352803916277, "learning_rate": 0.0001, "loss": 0.8733, "step": 3954 }, { "epoch": 1.0109333333333332, "grad_norm": 0.025551794767601287, "learning_rate": 0.0001, "loss": 0.9828, "step": 3955 }, { "epoch": 1.0109866666666667, "grad_norm": 0.02453816479545975, "learning_rate": 0.0001, "loss": 0.9339, "step": 3956 }, { "epoch": 1.01104, "grad_norm": 0.024866890430422138, "learning_rate": 0.0001, "loss": 0.984, "step": 3957 }, { "epoch": 1.0110933333333334, "grad_norm": 0.024973532375632223, "learning_rate": 0.0001, "loss": 0.9579, "step": 3958 }, { "epoch": 1.0111466666666666, "grad_norm": 0.02431623027174192, "learning_rate": 0.0001, "loss": 0.9753, "step": 3959 }, { "epoch": 1.0112, "grad_norm": 0.025963366166829958, "learning_rate": 0.0001, "loss": 1.018, "step": 3960 }, { "epoch": 1.0112533333333333, "grad_norm": 0.024512873443969338, "learning_rate": 0.0001, "loss": 0.9495, "step": 3961 }, { "epoch": 1.0113066666666666, "grad_norm": 0.024690236963096312, "learning_rate": 0.0001, "loss": 1.0138, "step": 3962 }, { "epoch": 1.01136, "grad_norm": 0.026952975233490533, "learning_rate": 0.0001, "loss": 0.9717, "step": 3963 }, { "epoch": 1.0114133333333333, "grad_norm": 0.025970917220198307, "learning_rate": 0.0001, "loss": 1.0182, "step": 3964 }, { "epoch": 1.0114666666666667, "grad_norm": 0.028044438358287054, "learning_rate": 0.0001, "loss": 0.942, "step": 3965 }, { "epoch": 1.01152, "grad_norm": 0.024586269578215227, "learning_rate": 0.0001, "loss": 1.0192, "step": 3966 }, { "epoch": 1.0115733333333334, "grad_norm": 0.024749090695704298, "learning_rate": 0.0001, "loss": 1.0176, "step": 3967 }, { "epoch": 1.0116266666666667, "grad_norm": 0.024798089095539357, "learning_rate": 0.0001, "loss": 0.9343, "step": 3968 }, { "epoch": 1.01168, "grad_norm": 0.02241221459139068, "learning_rate": 0.0001, "loss": 0.9105, "step": 3969 }, { "epoch": 1.0117333333333334, "grad_norm": 0.0254296600033354, "learning_rate": 0.0001, "loss": 0.9817, "step": 3970 }, { "epoch": 1.0117866666666666, "grad_norm": 0.0254723803964814, "learning_rate": 0.0001, "loss": 0.983, "step": 3971 }, { "epoch": 1.01184, "grad_norm": 0.025381602148877195, "learning_rate": 0.0001, "loss": 0.9237, "step": 3972 }, { "epoch": 1.0118933333333333, "grad_norm": 0.023837126630587492, "learning_rate": 0.0001, "loss": 0.9348, "step": 3973 }, { "epoch": 1.0119466666666668, "grad_norm": 0.024620497736742967, "learning_rate": 0.0001, "loss": 0.983, "step": 3974 }, { "epoch": 1.012, "grad_norm": 0.02473227159088827, "learning_rate": 0.0001, "loss": 0.957, "step": 3975 }, { "epoch": 1.0120533333333332, "grad_norm": 0.02517371402328296, "learning_rate": 0.0001, "loss": 0.9337, "step": 3976 }, { "epoch": 1.0121066666666667, "grad_norm": 0.02455988206688856, "learning_rate": 0.0001, "loss": 0.9646, "step": 3977 }, { "epoch": 1.01216, "grad_norm": 0.02457190786840691, "learning_rate": 0.0001, "loss": 0.9357, "step": 3978 }, { "epoch": 1.0122133333333334, "grad_norm": 0.024610392641510402, "learning_rate": 0.0001, "loss": 0.9939, "step": 3979 }, { "epoch": 1.0122666666666666, "grad_norm": 0.02498208024904959, "learning_rate": 0.0001, "loss": 1.0262, "step": 3980 }, { "epoch": 1.01232, "grad_norm": 0.023628188763282973, "learning_rate": 0.0001, "loss": 0.9663, "step": 3981 }, { "epoch": 1.0123733333333333, "grad_norm": 0.027172493495719062, "learning_rate": 0.0001, "loss": 0.9941, "step": 3982 }, { "epoch": 1.0124266666666666, "grad_norm": 0.024535346568434632, "learning_rate": 0.0001, "loss": 0.9499, "step": 3983 }, { "epoch": 1.01248, "grad_norm": 0.02555108171437443, "learning_rate": 0.0001, "loss": 0.9294, "step": 3984 }, { "epoch": 1.0125333333333333, "grad_norm": 0.025212243792050403, "learning_rate": 0.0001, "loss": 0.9603, "step": 3985 }, { "epoch": 1.0125866666666667, "grad_norm": 0.02779406650842899, "learning_rate": 0.0001, "loss": 1.0161, "step": 3986 }, { "epoch": 1.01264, "grad_norm": 0.025746386753390013, "learning_rate": 0.0001, "loss": 1.0195, "step": 3987 }, { "epoch": 1.0126933333333332, "grad_norm": 0.02383907129600073, "learning_rate": 0.0001, "loss": 0.9765, "step": 3988 }, { "epoch": 1.0127466666666667, "grad_norm": 0.02493137688748293, "learning_rate": 0.0001, "loss": 1.0231, "step": 3989 }, { "epoch": 1.0128, "grad_norm": 0.024319146593413474, "learning_rate": 0.0001, "loss": 1.0322, "step": 3990 }, { "epoch": 1.0128533333333334, "grad_norm": 0.02377903980775023, "learning_rate": 0.0001, "loss": 1.0029, "step": 3991 }, { "epoch": 1.0129066666666666, "grad_norm": 0.023545792662725357, "learning_rate": 0.0001, "loss": 1.0181, "step": 3992 }, { "epoch": 1.01296, "grad_norm": 0.023825684225529657, "learning_rate": 0.0001, "loss": 1.0028, "step": 3993 }, { "epoch": 1.0130133333333333, "grad_norm": 0.025730787037393635, "learning_rate": 0.0001, "loss": 0.9858, "step": 3994 }, { "epoch": 1.0130666666666666, "grad_norm": 0.022567936666779954, "learning_rate": 0.0001, "loss": 0.9804, "step": 3995 }, { "epoch": 1.01312, "grad_norm": 0.024661724532625325, "learning_rate": 0.0001, "loss": 0.9422, "step": 3996 }, { "epoch": 1.0131733333333333, "grad_norm": 0.027402951746011203, "learning_rate": 0.0001, "loss": 0.924, "step": 3997 }, { "epoch": 1.0132266666666667, "grad_norm": 0.02300211429546036, "learning_rate": 0.0001, "loss": 0.949, "step": 3998 }, { "epoch": 1.01328, "grad_norm": 0.02459167375639152, "learning_rate": 0.0001, "loss": 0.9511, "step": 3999 }, { "epoch": 1.0133333333333334, "grad_norm": 0.025300118203461036, "learning_rate": 0.0001, "loss": 1.0238, "step": 4000 }, { "epoch": 1.0133333333333334, "eval_accuracy": 0.6161377233270118, "eval_loss": 1.3768357038497925, "eval_runtime": 62.9053, "eval_samples_per_second": 15.897, "eval_steps_per_second": 0.509, "step": 4000 }, { "epoch": 1.0133866666666667, "grad_norm": 0.024401736334903317, "learning_rate": 0.0001, "loss": 0.9818, "step": 4001 }, { "epoch": 1.01344, "grad_norm": 0.023402635337184424, "learning_rate": 0.0001, "loss": 0.9708, "step": 4002 }, { "epoch": 1.0134933333333334, "grad_norm": 0.02497774166628667, "learning_rate": 0.0001, "loss": 0.9473, "step": 4003 }, { "epoch": 1.0135466666666666, "grad_norm": 0.02419492904661464, "learning_rate": 0.0001, "loss": 1.0225, "step": 4004 }, { "epoch": 1.0136, "grad_norm": 0.02299012056879063, "learning_rate": 0.0001, "loss": 1.0157, "step": 4005 }, { "epoch": 1.0136533333333333, "grad_norm": 0.026349668112276726, "learning_rate": 0.0001, "loss": 1.0222, "step": 4006 }, { "epoch": 1.0137066666666668, "grad_norm": 0.024598253297648823, "learning_rate": 0.0001, "loss": 1.0073, "step": 4007 }, { "epoch": 1.01376, "grad_norm": 0.023309102052932056, "learning_rate": 0.0001, "loss": 0.9801, "step": 4008 }, { "epoch": 1.0138133333333332, "grad_norm": 0.02424135192534958, "learning_rate": 0.0001, "loss": 0.9553, "step": 4009 }, { "epoch": 1.0138666666666667, "grad_norm": 0.025371776868437983, "learning_rate": 0.0001, "loss": 0.9693, "step": 4010 }, { "epoch": 1.01392, "grad_norm": 0.024813713429698656, "learning_rate": 0.0001, "loss": 0.9857, "step": 4011 }, { "epoch": 1.0139733333333334, "grad_norm": 0.025245780676116235, "learning_rate": 0.0001, "loss": 0.9853, "step": 4012 }, { "epoch": 1.0140266666666666, "grad_norm": 0.024615087755400396, "learning_rate": 0.0001, "loss": 0.9747, "step": 4013 }, { "epoch": 1.01408, "grad_norm": 0.026190527911027765, "learning_rate": 0.0001, "loss": 0.9785, "step": 4014 }, { "epoch": 1.0141333333333333, "grad_norm": 0.024047436758947036, "learning_rate": 0.0001, "loss": 0.9604, "step": 4015 }, { "epoch": 1.0141866666666666, "grad_norm": 0.025549809797534087, "learning_rate": 0.0001, "loss": 0.89, "step": 4016 }, { "epoch": 1.01424, "grad_norm": 0.02406558530305454, "learning_rate": 0.0001, "loss": 0.9834, "step": 4017 }, { "epoch": 1.0142933333333333, "grad_norm": 0.024026534000748667, "learning_rate": 0.0001, "loss": 0.9999, "step": 4018 }, { "epoch": 1.0143466666666667, "grad_norm": 0.024051943080777256, "learning_rate": 0.0001, "loss": 0.9655, "step": 4019 }, { "epoch": 1.0144, "grad_norm": 0.024397535425769865, "learning_rate": 0.0001, "loss": 1.0189, "step": 4020 }, { "epoch": 1.0144533333333334, "grad_norm": 0.025146324396967155, "learning_rate": 0.0001, "loss": 0.9533, "step": 4021 }, { "epoch": 1.0145066666666667, "grad_norm": 0.02591941322480823, "learning_rate": 0.0001, "loss": 1.0114, "step": 4022 }, { "epoch": 1.01456, "grad_norm": 0.024450737815708903, "learning_rate": 0.0001, "loss": 0.9919, "step": 4023 }, { "epoch": 1.0146133333333334, "grad_norm": 0.024729552651682703, "learning_rate": 0.0001, "loss": 0.9886, "step": 4024 }, { "epoch": 1.0146666666666666, "grad_norm": 0.02429522960476348, "learning_rate": 0.0001, "loss": 1.0018, "step": 4025 }, { "epoch": 1.01472, "grad_norm": 0.02403209266263719, "learning_rate": 0.0001, "loss": 0.9514, "step": 4026 }, { "epoch": 1.0147733333333333, "grad_norm": 0.02691841914983897, "learning_rate": 0.0001, "loss": 1.0073, "step": 4027 }, { "epoch": 1.0148266666666668, "grad_norm": 0.023168551860072908, "learning_rate": 0.0001, "loss": 0.9494, "step": 4028 }, { "epoch": 1.01488, "grad_norm": 0.02401694891768317, "learning_rate": 0.0001, "loss": 1.0635, "step": 4029 }, { "epoch": 1.0149333333333332, "grad_norm": 0.027310443599578148, "learning_rate": 0.0001, "loss": 1.0053, "step": 4030 }, { "epoch": 1.0149866666666667, "grad_norm": 0.02303301050801776, "learning_rate": 0.0001, "loss": 1.016, "step": 4031 }, { "epoch": 1.01504, "grad_norm": 0.026779989522999547, "learning_rate": 0.0001, "loss": 1.0298, "step": 4032 }, { "epoch": 1.0150933333333334, "grad_norm": 0.02504550359186479, "learning_rate": 0.0001, "loss": 1.0015, "step": 4033 }, { "epoch": 1.0151466666666666, "grad_norm": 0.023393612089213586, "learning_rate": 0.0001, "loss": 0.9489, "step": 4034 }, { "epoch": 1.0152, "grad_norm": 0.024182630595674392, "learning_rate": 0.0001, "loss": 0.9895, "step": 4035 }, { "epoch": 1.0152533333333333, "grad_norm": 0.024542390551731717, "learning_rate": 0.0001, "loss": 1.0128, "step": 4036 }, { "epoch": 1.0153066666666666, "grad_norm": 0.023969144773092012, "learning_rate": 0.0001, "loss": 0.966, "step": 4037 }, { "epoch": 1.01536, "grad_norm": 0.02291007402333025, "learning_rate": 0.0001, "loss": 0.9198, "step": 4038 }, { "epoch": 1.0154133333333333, "grad_norm": 0.025245568094686928, "learning_rate": 0.0001, "loss": 0.9658, "step": 4039 }, { "epoch": 1.0154666666666667, "grad_norm": 0.024970843564914694, "learning_rate": 0.0001, "loss": 1.0622, "step": 4040 }, { "epoch": 1.01552, "grad_norm": 0.023429104818229865, "learning_rate": 0.0001, "loss": 0.9832, "step": 4041 }, { "epoch": 1.0155733333333334, "grad_norm": 0.02434959741679764, "learning_rate": 0.0001, "loss": 0.9836, "step": 4042 }, { "epoch": 1.0156266666666667, "grad_norm": 0.02375572110687424, "learning_rate": 0.0001, "loss": 1.0189, "step": 4043 }, { "epoch": 1.01568, "grad_norm": 0.026574508512991344, "learning_rate": 0.0001, "loss": 0.9504, "step": 4044 }, { "epoch": 1.0157333333333334, "grad_norm": 0.024431818279765077, "learning_rate": 0.0001, "loss": 0.9453, "step": 4045 }, { "epoch": 1.0157866666666666, "grad_norm": 0.023777427544750915, "learning_rate": 0.0001, "loss": 0.9832, "step": 4046 }, { "epoch": 1.01584, "grad_norm": 0.025062910784340715, "learning_rate": 0.0001, "loss": 0.9962, "step": 4047 }, { "epoch": 1.0158933333333333, "grad_norm": 0.023794493320734536, "learning_rate": 0.0001, "loss": 0.9746, "step": 4048 }, { "epoch": 1.0159466666666668, "grad_norm": 0.024085905171688026, "learning_rate": 0.0001, "loss": 0.9894, "step": 4049 }, { "epoch": 1.016, "grad_norm": 0.024223923209526387, "learning_rate": 0.0001, "loss": 1.033, "step": 4050 }, { "epoch": 1.0160533333333333, "grad_norm": 0.025194317917699497, "learning_rate": 0.0001, "loss": 0.9578, "step": 4051 }, { "epoch": 1.0161066666666667, "grad_norm": 0.024968025709456148, "learning_rate": 0.0001, "loss": 0.9592, "step": 4052 }, { "epoch": 1.01616, "grad_norm": 0.024216756749862272, "learning_rate": 0.0001, "loss": 0.9876, "step": 4053 }, { "epoch": 1.0162133333333334, "grad_norm": 0.024117816729277014, "learning_rate": 0.0001, "loss": 0.9617, "step": 4054 }, { "epoch": 1.0162666666666667, "grad_norm": 0.025676151494944354, "learning_rate": 0.0001, "loss": 0.9961, "step": 4055 }, { "epoch": 1.01632, "grad_norm": 0.024080141217131198, "learning_rate": 0.0001, "loss": 1.0059, "step": 4056 }, { "epoch": 1.0163733333333334, "grad_norm": 0.024149229752895424, "learning_rate": 0.0001, "loss": 1.0015, "step": 4057 }, { "epoch": 1.0164266666666666, "grad_norm": 0.023416754536336102, "learning_rate": 0.0001, "loss": 1.0077, "step": 4058 }, { "epoch": 1.01648, "grad_norm": 0.023816267182400135, "learning_rate": 0.0001, "loss": 0.9323, "step": 4059 }, { "epoch": 1.0165333333333333, "grad_norm": 0.025524821110679243, "learning_rate": 0.0001, "loss": 0.9075, "step": 4060 }, { "epoch": 1.0165866666666667, "grad_norm": 0.024900996036066107, "learning_rate": 0.0001, "loss": 0.9891, "step": 4061 }, { "epoch": 1.01664, "grad_norm": 0.022898840636870473, "learning_rate": 0.0001, "loss": 0.9297, "step": 4062 }, { "epoch": 1.0166933333333332, "grad_norm": 0.02390264006647945, "learning_rate": 0.0001, "loss": 0.9756, "step": 4063 }, { "epoch": 1.0167466666666667, "grad_norm": 0.02692670940626363, "learning_rate": 0.0001, "loss": 0.9812, "step": 4064 }, { "epoch": 1.0168, "grad_norm": 0.02417870633043578, "learning_rate": 0.0001, "loss": 0.9865, "step": 4065 }, { "epoch": 1.0168533333333334, "grad_norm": 0.022452071696152848, "learning_rate": 0.0001, "loss": 0.9392, "step": 4066 }, { "epoch": 1.0169066666666666, "grad_norm": 0.027166134747440597, "learning_rate": 0.0001, "loss": 0.9958, "step": 4067 }, { "epoch": 1.01696, "grad_norm": 0.024389623165115743, "learning_rate": 0.0001, "loss": 0.9829, "step": 4068 }, { "epoch": 1.0170133333333333, "grad_norm": 0.027244323896705912, "learning_rate": 0.0001, "loss": 1.0196, "step": 4069 }, { "epoch": 1.0170666666666666, "grad_norm": 0.024583748425092932, "learning_rate": 0.0001, "loss": 0.9998, "step": 4070 }, { "epoch": 1.01712, "grad_norm": 0.027111702844846472, "learning_rate": 0.0001, "loss": 0.9265, "step": 4071 }, { "epoch": 1.0171733333333333, "grad_norm": 0.025525220157123316, "learning_rate": 0.0001, "loss": 0.99, "step": 4072 }, { "epoch": 1.0172266666666667, "grad_norm": 0.02443430865262133, "learning_rate": 0.0001, "loss": 0.9893, "step": 4073 }, { "epoch": 1.01728, "grad_norm": 0.02589414859861792, "learning_rate": 0.0001, "loss": 0.9881, "step": 4074 }, { "epoch": 1.0173333333333334, "grad_norm": 0.027781153821673298, "learning_rate": 0.0001, "loss": 0.9605, "step": 4075 }, { "epoch": 1.0173866666666667, "grad_norm": 0.024385649993450255, "learning_rate": 0.0001, "loss": 1.0133, "step": 4076 }, { "epoch": 1.01744, "grad_norm": 0.025145601432764404, "learning_rate": 0.0001, "loss": 0.9726, "step": 4077 }, { "epoch": 1.0174933333333334, "grad_norm": 0.023627818063698913, "learning_rate": 0.0001, "loss": 1.0298, "step": 4078 }, { "epoch": 1.0175466666666666, "grad_norm": 0.025863232127185786, "learning_rate": 0.0001, "loss": 0.9883, "step": 4079 }, { "epoch": 1.0176, "grad_norm": 0.02415786960376307, "learning_rate": 0.0001, "loss": 1.027, "step": 4080 }, { "epoch": 1.0176533333333333, "grad_norm": 0.022401420445532387, "learning_rate": 0.0001, "loss": 0.9905, "step": 4081 }, { "epoch": 1.0177066666666668, "grad_norm": 0.023892468048364507, "learning_rate": 0.0001, "loss": 1.0035, "step": 4082 }, { "epoch": 1.01776, "grad_norm": 0.024805797385968723, "learning_rate": 0.0001, "loss": 0.9902, "step": 4083 }, { "epoch": 1.0178133333333332, "grad_norm": 0.02529069363410495, "learning_rate": 0.0001, "loss": 0.9747, "step": 4084 }, { "epoch": 1.0178666666666667, "grad_norm": 0.0266347508649238, "learning_rate": 0.0001, "loss": 1.0264, "step": 4085 }, { "epoch": 1.01792, "grad_norm": 0.025288145408278596, "learning_rate": 0.0001, "loss": 0.9943, "step": 4086 }, { "epoch": 1.0179733333333334, "grad_norm": 0.027402681329733586, "learning_rate": 0.0001, "loss": 0.9726, "step": 4087 }, { "epoch": 1.0180266666666666, "grad_norm": 0.024045769225857952, "learning_rate": 0.0001, "loss": 1.0117, "step": 4088 }, { "epoch": 1.01808, "grad_norm": 0.02728435886219315, "learning_rate": 0.0001, "loss": 1.0374, "step": 4089 }, { "epoch": 1.0181333333333333, "grad_norm": 0.02424342889023854, "learning_rate": 0.0001, "loss": 0.9581, "step": 4090 }, { "epoch": 1.0181866666666666, "grad_norm": 0.02425626815271567, "learning_rate": 0.0001, "loss": 0.9588, "step": 4091 }, { "epoch": 1.01824, "grad_norm": 0.026728037033616505, "learning_rate": 0.0001, "loss": 1.0259, "step": 4092 }, { "epoch": 1.0182933333333333, "grad_norm": 0.02572072699101144, "learning_rate": 0.0001, "loss": 1.0143, "step": 4093 }, { "epoch": 1.0183466666666667, "grad_norm": 0.026001246581351466, "learning_rate": 0.0001, "loss": 1.0004, "step": 4094 }, { "epoch": 1.0184, "grad_norm": 0.02415717685516126, "learning_rate": 0.0001, "loss": 1.059, "step": 4095 }, { "epoch": 1.0184533333333334, "grad_norm": 0.025311895054499572, "learning_rate": 0.0001, "loss": 1.0487, "step": 4096 }, { "epoch": 1.0185066666666667, "grad_norm": 0.028551152825276697, "learning_rate": 0.0001, "loss": 0.9838, "step": 4097 }, { "epoch": 1.01856, "grad_norm": 0.023966585706657082, "learning_rate": 0.0001, "loss": 0.9953, "step": 4098 }, { "epoch": 1.0186133333333334, "grad_norm": 0.02747707946971332, "learning_rate": 0.0001, "loss": 0.9968, "step": 4099 }, { "epoch": 1.0186666666666666, "grad_norm": 0.02666619967922408, "learning_rate": 0.0001, "loss": 0.9271, "step": 4100 }, { "epoch": 1.01872, "grad_norm": 0.02493553000123412, "learning_rate": 0.0001, "loss": 0.975, "step": 4101 }, { "epoch": 1.0187733333333333, "grad_norm": 0.025303131629016814, "learning_rate": 0.0001, "loss": 1.0137, "step": 4102 }, { "epoch": 1.0188266666666668, "grad_norm": 0.02336137932285871, "learning_rate": 0.0001, "loss": 0.9564, "step": 4103 }, { "epoch": 1.01888, "grad_norm": 0.024758310752105085, "learning_rate": 0.0001, "loss": 0.9517, "step": 4104 }, { "epoch": 1.0189333333333332, "grad_norm": 0.023055098682861964, "learning_rate": 0.0001, "loss": 0.9556, "step": 4105 }, { "epoch": 1.0189866666666667, "grad_norm": 0.024169489796884106, "learning_rate": 0.0001, "loss": 0.9978, "step": 4106 }, { "epoch": 1.01904, "grad_norm": 0.023721781034357355, "learning_rate": 0.0001, "loss": 0.9731, "step": 4107 }, { "epoch": 1.0190933333333334, "grad_norm": 0.022618999494931243, "learning_rate": 0.0001, "loss": 1.0247, "step": 4108 }, { "epoch": 1.0191466666666666, "grad_norm": 0.022910364900022497, "learning_rate": 0.0001, "loss": 1.0294, "step": 4109 }, { "epoch": 1.0192, "grad_norm": 0.023620911972919097, "learning_rate": 0.0001, "loss": 1.0164, "step": 4110 }, { "epoch": 1.0192533333333333, "grad_norm": 0.024055717715391535, "learning_rate": 0.0001, "loss": 0.9387, "step": 4111 }, { "epoch": 1.0193066666666666, "grad_norm": 0.02370950132239785, "learning_rate": 0.0001, "loss": 0.957, "step": 4112 }, { "epoch": 1.01936, "grad_norm": 0.024351229965112582, "learning_rate": 0.0001, "loss": 1.0425, "step": 4113 }, { "epoch": 1.0194133333333333, "grad_norm": 0.02450065003645881, "learning_rate": 0.0001, "loss": 0.9259, "step": 4114 }, { "epoch": 1.0194666666666667, "grad_norm": 0.024324340524869238, "learning_rate": 0.0001, "loss": 0.9462, "step": 4115 }, { "epoch": 1.01952, "grad_norm": 0.026641537297933622, "learning_rate": 0.0001, "loss": 1.0397, "step": 4116 }, { "epoch": 1.0195733333333334, "grad_norm": 0.025506364472169096, "learning_rate": 0.0001, "loss": 0.9699, "step": 4117 }, { "epoch": 1.0196266666666667, "grad_norm": 0.024630710957555407, "learning_rate": 0.0001, "loss": 1.0045, "step": 4118 }, { "epoch": 1.01968, "grad_norm": 0.025051292008608856, "learning_rate": 0.0001, "loss": 0.9806, "step": 4119 }, { "epoch": 1.0197333333333334, "grad_norm": 0.025467829572196843, "learning_rate": 0.0001, "loss": 0.9074, "step": 4120 }, { "epoch": 1.0197866666666666, "grad_norm": 0.02743346218508081, "learning_rate": 0.0001, "loss": 1.0279, "step": 4121 }, { "epoch": 1.01984, "grad_norm": 0.02601745208831305, "learning_rate": 0.0001, "loss": 0.9906, "step": 4122 }, { "epoch": 1.0198933333333333, "grad_norm": 0.02903390203321502, "learning_rate": 0.0001, "loss": 1.0284, "step": 4123 }, { "epoch": 1.0199466666666668, "grad_norm": 0.025683327480831745, "learning_rate": 0.0001, "loss": 0.9778, "step": 4124 }, { "epoch": 1.02, "grad_norm": 0.025153452159095372, "learning_rate": 0.0001, "loss": 1.0026, "step": 4125 }, { "epoch": 1.0200533333333333, "grad_norm": 0.027200766342311482, "learning_rate": 0.0001, "loss": 0.9843, "step": 4126 }, { "epoch": 1.0201066666666667, "grad_norm": 0.023780357847930044, "learning_rate": 0.0001, "loss": 0.9685, "step": 4127 }, { "epoch": 1.02016, "grad_norm": 0.024822824017287352, "learning_rate": 0.0001, "loss": 0.9263, "step": 4128 }, { "epoch": 1.0202133333333334, "grad_norm": 0.024840871724469853, "learning_rate": 0.0001, "loss": 0.9687, "step": 4129 }, { "epoch": 1.0202666666666667, "grad_norm": 0.024890630484610606, "learning_rate": 0.0001, "loss": 1.0348, "step": 4130 }, { "epoch": 1.02032, "grad_norm": 0.024998941243433395, "learning_rate": 0.0001, "loss": 0.9891, "step": 4131 }, { "epoch": 1.0203733333333334, "grad_norm": 0.026874930646019864, "learning_rate": 0.0001, "loss": 0.989, "step": 4132 }, { "epoch": 1.0204266666666666, "grad_norm": 0.02554332070339355, "learning_rate": 0.0001, "loss": 0.99, "step": 4133 }, { "epoch": 1.02048, "grad_norm": 0.025183354741602923, "learning_rate": 0.0001, "loss": 0.9369, "step": 4134 }, { "epoch": 1.0205333333333333, "grad_norm": 0.025269493984554588, "learning_rate": 0.0001, "loss": 1.0412, "step": 4135 }, { "epoch": 1.0205866666666668, "grad_norm": 0.027601872952328098, "learning_rate": 0.0001, "loss": 0.9847, "step": 4136 }, { "epoch": 1.02064, "grad_norm": 0.025037202311629606, "learning_rate": 0.0001, "loss": 0.9977, "step": 4137 }, { "epoch": 1.0206933333333332, "grad_norm": 0.025137580913825897, "learning_rate": 0.0001, "loss": 0.9892, "step": 4138 }, { "epoch": 1.0207466666666667, "grad_norm": 0.02455992193506293, "learning_rate": 0.0001, "loss": 0.9874, "step": 4139 }, { "epoch": 1.0208, "grad_norm": 0.02484563850529631, "learning_rate": 0.0001, "loss": 0.9826, "step": 4140 }, { "epoch": 1.0208533333333334, "grad_norm": 0.024308699085402764, "learning_rate": 0.0001, "loss": 0.9658, "step": 4141 }, { "epoch": 1.0209066666666666, "grad_norm": 0.02428214467306464, "learning_rate": 0.0001, "loss": 0.9546, "step": 4142 }, { "epoch": 1.02096, "grad_norm": 0.025557876713386184, "learning_rate": 0.0001, "loss": 1.019, "step": 4143 }, { "epoch": 1.0210133333333333, "grad_norm": 0.023962139855590255, "learning_rate": 0.0001, "loss": 0.9513, "step": 4144 }, { "epoch": 1.0210666666666666, "grad_norm": 0.025337579379357815, "learning_rate": 0.0001, "loss": 1.0168, "step": 4145 }, { "epoch": 1.02112, "grad_norm": 0.02640176571145335, "learning_rate": 0.0001, "loss": 0.9945, "step": 4146 }, { "epoch": 1.0211733333333333, "grad_norm": 0.024657297930128243, "learning_rate": 0.0001, "loss": 1.0095, "step": 4147 }, { "epoch": 1.0212266666666667, "grad_norm": 0.026551045089252306, "learning_rate": 0.0001, "loss": 0.9692, "step": 4148 }, { "epoch": 1.02128, "grad_norm": 0.028461246081560882, "learning_rate": 0.0001, "loss": 1.0321, "step": 4149 }, { "epoch": 1.0213333333333334, "grad_norm": 0.02469780131154835, "learning_rate": 0.0001, "loss": 0.9469, "step": 4150 }, { "epoch": 1.0213866666666667, "grad_norm": 0.02433568030963084, "learning_rate": 0.0001, "loss": 0.982, "step": 4151 }, { "epoch": 1.02144, "grad_norm": 0.026237101797698188, "learning_rate": 0.0001, "loss": 1.0093, "step": 4152 }, { "epoch": 1.0214933333333334, "grad_norm": 0.026802775825936494, "learning_rate": 0.0001, "loss": 0.9595, "step": 4153 }, { "epoch": 1.0215466666666666, "grad_norm": 0.028156450452574942, "learning_rate": 0.0001, "loss": 1.0156, "step": 4154 }, { "epoch": 1.0216, "grad_norm": 0.023727973803753705, "learning_rate": 0.0001, "loss": 1.0037, "step": 4155 }, { "epoch": 1.0216533333333333, "grad_norm": 0.02522283179229633, "learning_rate": 0.0001, "loss": 0.9382, "step": 4156 }, { "epoch": 1.0217066666666668, "grad_norm": 0.027478685831952232, "learning_rate": 0.0001, "loss": 0.9917, "step": 4157 }, { "epoch": 1.02176, "grad_norm": 0.024920031103950604, "learning_rate": 0.0001, "loss": 1.0197, "step": 4158 }, { "epoch": 1.0218133333333332, "grad_norm": 0.024504692151936566, "learning_rate": 0.0001, "loss": 0.9405, "step": 4159 }, { "epoch": 1.0218666666666667, "grad_norm": 0.024260429066378746, "learning_rate": 0.0001, "loss": 0.9757, "step": 4160 }, { "epoch": 1.02192, "grad_norm": 0.023630107797452223, "learning_rate": 0.0001, "loss": 0.9681, "step": 4161 }, { "epoch": 1.0219733333333334, "grad_norm": 0.022815903287836063, "learning_rate": 0.0001, "loss": 0.9942, "step": 4162 }, { "epoch": 1.0220266666666666, "grad_norm": 0.025335160376828387, "learning_rate": 0.0001, "loss": 0.9618, "step": 4163 }, { "epoch": 1.02208, "grad_norm": 0.023801613003010504, "learning_rate": 0.0001, "loss": 0.9105, "step": 4164 }, { "epoch": 1.0221333333333333, "grad_norm": 0.025765969566585438, "learning_rate": 0.0001, "loss": 0.9913, "step": 4165 }, { "epoch": 1.0221866666666666, "grad_norm": 0.024706388519419517, "learning_rate": 0.0001, "loss": 0.9767, "step": 4166 }, { "epoch": 1.02224, "grad_norm": 0.02401186234107778, "learning_rate": 0.0001, "loss": 0.9677, "step": 4167 }, { "epoch": 1.0222933333333333, "grad_norm": 0.023986236191737748, "learning_rate": 0.0001, "loss": 0.9589, "step": 4168 }, { "epoch": 1.0223466666666667, "grad_norm": 0.026289493691338265, "learning_rate": 0.0001, "loss": 0.9787, "step": 4169 }, { "epoch": 1.0224, "grad_norm": 0.02580269656502028, "learning_rate": 0.0001, "loss": 1.0282, "step": 4170 }, { "epoch": 1.0224533333333334, "grad_norm": 0.025636308556642784, "learning_rate": 0.0001, "loss": 0.9843, "step": 4171 }, { "epoch": 1.0225066666666667, "grad_norm": 0.02499546340605594, "learning_rate": 0.0001, "loss": 0.962, "step": 4172 }, { "epoch": 1.02256, "grad_norm": 0.027178549477794973, "learning_rate": 0.0001, "loss": 0.9937, "step": 4173 }, { "epoch": 1.0226133333333334, "grad_norm": 0.02583047036758767, "learning_rate": 0.0001, "loss": 1.0053, "step": 4174 }, { "epoch": 1.0226666666666666, "grad_norm": 0.024759252493346113, "learning_rate": 0.0001, "loss": 0.9589, "step": 4175 }, { "epoch": 1.02272, "grad_norm": 0.024439241924788545, "learning_rate": 0.0001, "loss": 1.0136, "step": 4176 }, { "epoch": 1.0227733333333333, "grad_norm": 0.026144269417161206, "learning_rate": 0.0001, "loss": 0.9252, "step": 4177 }, { "epoch": 1.0228266666666668, "grad_norm": 0.023662733735556274, "learning_rate": 0.0001, "loss": 1.0158, "step": 4178 }, { "epoch": 1.02288, "grad_norm": 0.024509834819547736, "learning_rate": 0.0001, "loss": 1.0185, "step": 4179 }, { "epoch": 1.0229333333333333, "grad_norm": 0.02378596626010149, "learning_rate": 0.0001, "loss": 0.9898, "step": 4180 }, { "epoch": 1.0229866666666667, "grad_norm": 0.023872125258735732, "learning_rate": 0.0001, "loss": 1.0012, "step": 4181 }, { "epoch": 1.02304, "grad_norm": 0.024248945886809987, "learning_rate": 0.0001, "loss": 1.0095, "step": 4182 }, { "epoch": 1.0230933333333334, "grad_norm": 0.02638296427452288, "learning_rate": 0.0001, "loss": 0.9711, "step": 4183 }, { "epoch": 1.0231466666666666, "grad_norm": 0.023752798479666513, "learning_rate": 0.0001, "loss": 0.9796, "step": 4184 }, { "epoch": 1.0232, "grad_norm": 0.0244903761632705, "learning_rate": 0.0001, "loss": 1.0132, "step": 4185 }, { "epoch": 1.0232533333333333, "grad_norm": 0.02400288051199754, "learning_rate": 0.0001, "loss": 1.0209, "step": 4186 }, { "epoch": 1.0233066666666666, "grad_norm": 0.02470766224948326, "learning_rate": 0.0001, "loss": 1.0381, "step": 4187 }, { "epoch": 1.02336, "grad_norm": 0.02355413659345114, "learning_rate": 0.0001, "loss": 0.9814, "step": 4188 }, { "epoch": 1.0234133333333333, "grad_norm": 0.02388100247943962, "learning_rate": 0.0001, "loss": 0.9646, "step": 4189 }, { "epoch": 1.0234666666666667, "grad_norm": 0.025357342699613802, "learning_rate": 0.0001, "loss": 1.018, "step": 4190 }, { "epoch": 1.02352, "grad_norm": 0.02575088633592105, "learning_rate": 0.0001, "loss": 1.0206, "step": 4191 }, { "epoch": 1.0235733333333332, "grad_norm": 0.029527897800382896, "learning_rate": 0.0001, "loss": 1.0282, "step": 4192 }, { "epoch": 1.0236266666666667, "grad_norm": 0.025043147558702156, "learning_rate": 0.0001, "loss": 0.9015, "step": 4193 }, { "epoch": 1.02368, "grad_norm": 0.024580433160842255, "learning_rate": 0.0001, "loss": 0.961, "step": 4194 }, { "epoch": 1.0237333333333334, "grad_norm": 0.02340031743784862, "learning_rate": 0.0001, "loss": 0.9368, "step": 4195 }, { "epoch": 1.0237866666666666, "grad_norm": 0.02420780125366667, "learning_rate": 0.0001, "loss": 0.9748, "step": 4196 }, { "epoch": 1.02384, "grad_norm": 0.026050326311486207, "learning_rate": 0.0001, "loss": 0.9945, "step": 4197 }, { "epoch": 1.0238933333333333, "grad_norm": 0.025149369827947087, "learning_rate": 0.0001, "loss": 1.0157, "step": 4198 }, { "epoch": 1.0239466666666666, "grad_norm": 0.023892363656792412, "learning_rate": 0.0001, "loss": 1.0185, "step": 4199 }, { "epoch": 1.024, "grad_norm": 0.02566189572365672, "learning_rate": 0.0001, "loss": 1.0397, "step": 4200 }, { "epoch": 1.024, "eval_accuracy": 0.6163969977237055, "eval_loss": 1.3754934072494507, "eval_runtime": 63.0025, "eval_samples_per_second": 15.872, "eval_steps_per_second": 0.508, "step": 4200 }, { "epoch": 1.0240533333333333, "grad_norm": 0.025757819350837697, "learning_rate": 0.0001, "loss": 1.0339, "step": 4201 }, { "epoch": 1.0241066666666667, "grad_norm": 0.02274859172447308, "learning_rate": 0.0001, "loss": 0.9495, "step": 4202 }, { "epoch": 1.02416, "grad_norm": 0.023509825243217135, "learning_rate": 0.0001, "loss": 0.9566, "step": 4203 }, { "epoch": 1.0242133333333334, "grad_norm": 0.025230977021746055, "learning_rate": 0.0001, "loss": 0.9614, "step": 4204 }, { "epoch": 1.0242666666666667, "grad_norm": 0.024245317829138035, "learning_rate": 0.0001, "loss": 0.9866, "step": 4205 }, { "epoch": 1.02432, "grad_norm": 0.027243114802443805, "learning_rate": 0.0001, "loss": 1.0232, "step": 4206 }, { "epoch": 1.0243733333333334, "grad_norm": 0.02443178643907904, "learning_rate": 0.0001, "loss": 0.9984, "step": 4207 }, { "epoch": 1.0244266666666666, "grad_norm": 0.02383922271287295, "learning_rate": 0.0001, "loss": 0.965, "step": 4208 }, { "epoch": 1.02448, "grad_norm": 0.023755291448099566, "learning_rate": 0.0001, "loss": 0.9866, "step": 4209 }, { "epoch": 1.0245333333333333, "grad_norm": 0.026294497879866312, "learning_rate": 0.0001, "loss": 0.9128, "step": 4210 }, { "epoch": 1.0245866666666668, "grad_norm": 0.02690498125505039, "learning_rate": 0.0001, "loss": 1.0432, "step": 4211 }, { "epoch": 1.02464, "grad_norm": 0.02477867275406131, "learning_rate": 0.0001, "loss": 1.0045, "step": 4212 }, { "epoch": 1.0246933333333332, "grad_norm": 0.024827954229988305, "learning_rate": 0.0001, "loss": 1.0086, "step": 4213 }, { "epoch": 1.0247466666666667, "grad_norm": 0.024371325373032684, "learning_rate": 0.0001, "loss": 0.9951, "step": 4214 }, { "epoch": 1.0248, "grad_norm": 0.02561491411833602, "learning_rate": 0.0001, "loss": 0.9881, "step": 4215 }, { "epoch": 1.0248533333333334, "grad_norm": 0.02796261491312149, "learning_rate": 0.0001, "loss": 0.9938, "step": 4216 }, { "epoch": 1.0249066666666666, "grad_norm": 0.026632895693282723, "learning_rate": 0.0001, "loss": 1.022, "step": 4217 }, { "epoch": 1.02496, "grad_norm": 0.02589439772571267, "learning_rate": 0.0001, "loss": 0.9488, "step": 4218 }, { "epoch": 1.0250133333333333, "grad_norm": 0.02521081036334982, "learning_rate": 0.0001, "loss": 0.9876, "step": 4219 }, { "epoch": 1.0250666666666666, "grad_norm": 0.02529107487237992, "learning_rate": 0.0001, "loss": 1.003, "step": 4220 }, { "epoch": 1.02512, "grad_norm": 0.024515291844046043, "learning_rate": 0.0001, "loss": 1.0483, "step": 4221 }, { "epoch": 1.0251733333333333, "grad_norm": 0.024838117340690215, "learning_rate": 0.0001, "loss": 1.0325, "step": 4222 }, { "epoch": 1.0252266666666667, "grad_norm": 0.023670168335518684, "learning_rate": 0.0001, "loss": 0.9958, "step": 4223 }, { "epoch": 1.02528, "grad_norm": 0.02661077691417788, "learning_rate": 0.0001, "loss": 0.9624, "step": 4224 }, { "epoch": 1.0253333333333334, "grad_norm": 0.02478137932288543, "learning_rate": 0.0001, "loss": 0.984, "step": 4225 }, { "epoch": 1.0253866666666667, "grad_norm": 0.025248234730067518, "learning_rate": 0.0001, "loss": 1.0537, "step": 4226 }, { "epoch": 1.02544, "grad_norm": 0.027711947373968007, "learning_rate": 0.0001, "loss": 0.951, "step": 4227 }, { "epoch": 1.0254933333333334, "grad_norm": 0.023258435108042007, "learning_rate": 0.0001, "loss": 1.0048, "step": 4228 }, { "epoch": 1.0255466666666666, "grad_norm": 0.02754599791450017, "learning_rate": 0.0001, "loss": 0.9063, "step": 4229 }, { "epoch": 1.0256, "grad_norm": 0.024617906423117997, "learning_rate": 0.0001, "loss": 1.005, "step": 4230 }, { "epoch": 1.0256533333333333, "grad_norm": 0.028169952580668345, "learning_rate": 0.0001, "loss": 0.9533, "step": 4231 }, { "epoch": 1.0257066666666668, "grad_norm": 0.025525385289548435, "learning_rate": 0.0001, "loss": 0.9548, "step": 4232 }, { "epoch": 1.02576, "grad_norm": 0.022582059247794162, "learning_rate": 0.0001, "loss": 1.0072, "step": 4233 }, { "epoch": 1.0258133333333332, "grad_norm": 0.02616881260705403, "learning_rate": 0.0001, "loss": 0.9236, "step": 4234 }, { "epoch": 1.0258666666666667, "grad_norm": 0.02423244185384149, "learning_rate": 0.0001, "loss": 0.9537, "step": 4235 }, { "epoch": 1.02592, "grad_norm": 0.025208082299036275, "learning_rate": 0.0001, "loss": 0.9682, "step": 4236 }, { "epoch": 1.0259733333333334, "grad_norm": 0.02399358357271551, "learning_rate": 0.0001, "loss": 1.0263, "step": 4237 }, { "epoch": 1.0260266666666666, "grad_norm": 0.023129095037977093, "learning_rate": 0.0001, "loss": 0.9521, "step": 4238 }, { "epoch": 1.02608, "grad_norm": 0.025159819790718747, "learning_rate": 0.0001, "loss": 1.0249, "step": 4239 }, { "epoch": 1.0261333333333333, "grad_norm": 0.024229836119730334, "learning_rate": 0.0001, "loss": 0.979, "step": 4240 }, { "epoch": 1.0261866666666666, "grad_norm": 0.023716819218191073, "learning_rate": 0.0001, "loss": 0.9508, "step": 4241 }, { "epoch": 1.02624, "grad_norm": 0.024265561245790438, "learning_rate": 0.0001, "loss": 1.0504, "step": 4242 }, { "epoch": 1.0262933333333333, "grad_norm": 0.026910018087133, "learning_rate": 0.0001, "loss": 0.9984, "step": 4243 }, { "epoch": 1.0263466666666667, "grad_norm": 0.02377315183034239, "learning_rate": 0.0001, "loss": 1.0145, "step": 4244 }, { "epoch": 1.0264, "grad_norm": 0.023817492941111462, "learning_rate": 0.0001, "loss": 0.9838, "step": 4245 }, { "epoch": 1.0264533333333334, "grad_norm": 0.024700992675754836, "learning_rate": 0.0001, "loss": 1.0342, "step": 4246 }, { "epoch": 1.0265066666666667, "grad_norm": 0.02258932091016264, "learning_rate": 0.0001, "loss": 0.9476, "step": 4247 }, { "epoch": 1.02656, "grad_norm": 0.023189136344470427, "learning_rate": 0.0001, "loss": 0.9551, "step": 4248 }, { "epoch": 1.0266133333333334, "grad_norm": 0.025482108281791246, "learning_rate": 0.0001, "loss": 0.9967, "step": 4249 }, { "epoch": 1.0266666666666666, "grad_norm": 0.022444208622756475, "learning_rate": 0.0001, "loss": 1.0457, "step": 4250 }, { "epoch": 1.02672, "grad_norm": 0.02395312958551581, "learning_rate": 0.0001, "loss": 0.8937, "step": 4251 }, { "epoch": 1.0267733333333333, "grad_norm": 0.025047043149197097, "learning_rate": 0.0001, "loss": 0.9837, "step": 4252 }, { "epoch": 1.0268266666666666, "grad_norm": 0.024540772470668364, "learning_rate": 0.0001, "loss": 0.9347, "step": 4253 }, { "epoch": 1.02688, "grad_norm": 0.024210391743783276, "learning_rate": 0.0001, "loss": 0.9789, "step": 4254 }, { "epoch": 1.0269333333333333, "grad_norm": 0.026500925885753687, "learning_rate": 0.0001, "loss": 0.9829, "step": 4255 }, { "epoch": 1.0269866666666667, "grad_norm": 0.025699284347707484, "learning_rate": 0.0001, "loss": 1.0075, "step": 4256 }, { "epoch": 1.02704, "grad_norm": 0.02491254462299456, "learning_rate": 0.0001, "loss": 0.9482, "step": 4257 }, { "epoch": 1.0270933333333334, "grad_norm": 0.025494990959672805, "learning_rate": 0.0001, "loss": 1.0415, "step": 4258 }, { "epoch": 1.0271466666666667, "grad_norm": 0.02677047645596867, "learning_rate": 0.0001, "loss": 1.0012, "step": 4259 }, { "epoch": 1.0272, "grad_norm": 0.0228694195959811, "learning_rate": 0.0001, "loss": 0.9665, "step": 4260 }, { "epoch": 1.0272533333333334, "grad_norm": 0.02467011446118184, "learning_rate": 0.0001, "loss": 1.0166, "step": 4261 }, { "epoch": 1.0273066666666666, "grad_norm": 0.023509740813012624, "learning_rate": 0.0001, "loss": 0.9498, "step": 4262 }, { "epoch": 1.02736, "grad_norm": 0.0236942917588092, "learning_rate": 0.0001, "loss": 1.0122, "step": 4263 }, { "epoch": 1.0274133333333333, "grad_norm": 0.02643805327802295, "learning_rate": 0.0001, "loss": 0.9946, "step": 4264 }, { "epoch": 1.0274666666666668, "grad_norm": 0.026363647734668354, "learning_rate": 0.0001, "loss": 1.0355, "step": 4265 }, { "epoch": 1.02752, "grad_norm": 0.02458946230102932, "learning_rate": 0.0001, "loss": 0.9565, "step": 4266 }, { "epoch": 1.0275733333333332, "grad_norm": 0.022917276261132907, "learning_rate": 0.0001, "loss": 0.9852, "step": 4267 }, { "epoch": 1.0276266666666667, "grad_norm": 0.022764512109325844, "learning_rate": 0.0001, "loss": 1.0096, "step": 4268 }, { "epoch": 1.02768, "grad_norm": 0.0253911903715269, "learning_rate": 0.0001, "loss": 0.9645, "step": 4269 }, { "epoch": 1.0277333333333334, "grad_norm": 0.025978849899519714, "learning_rate": 0.0001, "loss": 0.9722, "step": 4270 }, { "epoch": 1.0277866666666666, "grad_norm": 0.023669500576070084, "learning_rate": 0.0001, "loss": 0.9987, "step": 4271 }, { "epoch": 1.02784, "grad_norm": 0.02536997140677609, "learning_rate": 0.0001, "loss": 0.9795, "step": 4272 }, { "epoch": 1.0278933333333333, "grad_norm": 0.029368914681030072, "learning_rate": 0.0001, "loss": 0.9395, "step": 4273 }, { "epoch": 1.0279466666666666, "grad_norm": 0.02575754226644346, "learning_rate": 0.0001, "loss": 1.0414, "step": 4274 }, { "epoch": 1.028, "grad_norm": 0.02566301120318066, "learning_rate": 0.0001, "loss": 0.9845, "step": 4275 }, { "epoch": 1.0280533333333333, "grad_norm": 0.027820438785357296, "learning_rate": 0.0001, "loss": 1.0077, "step": 4276 }, { "epoch": 1.0281066666666667, "grad_norm": 0.026220877601838923, "learning_rate": 0.0001, "loss": 1.0219, "step": 4277 }, { "epoch": 1.02816, "grad_norm": 0.02617707499339664, "learning_rate": 0.0001, "loss": 0.9816, "step": 4278 }, { "epoch": 1.0282133333333334, "grad_norm": 0.02878241245412763, "learning_rate": 0.0001, "loss": 0.9911, "step": 4279 }, { "epoch": 1.0282666666666667, "grad_norm": 0.025783527859206606, "learning_rate": 0.0001, "loss": 1.0311, "step": 4280 }, { "epoch": 1.02832, "grad_norm": 0.025777751046414533, "learning_rate": 0.0001, "loss": 0.9699, "step": 4281 }, { "epoch": 1.0283733333333334, "grad_norm": 0.025639495857233675, "learning_rate": 0.0001, "loss": 1.0272, "step": 4282 }, { "epoch": 1.0284266666666666, "grad_norm": 0.02738738279656186, "learning_rate": 0.0001, "loss": 0.9275, "step": 4283 }, { "epoch": 1.02848, "grad_norm": 0.026323120954187942, "learning_rate": 0.0001, "loss": 1.0142, "step": 4284 }, { "epoch": 1.0285333333333333, "grad_norm": 0.028426308662848874, "learning_rate": 0.0001, "loss": 0.9676, "step": 4285 }, { "epoch": 1.0285866666666668, "grad_norm": 0.026593542417480034, "learning_rate": 0.0001, "loss": 1.0081, "step": 4286 }, { "epoch": 1.02864, "grad_norm": 0.02524807215116622, "learning_rate": 0.0001, "loss": 0.9386, "step": 4287 }, { "epoch": 1.0286933333333332, "grad_norm": 0.028335361699683093, "learning_rate": 0.0001, "loss": 0.9628, "step": 4288 }, { "epoch": 1.0287466666666667, "grad_norm": 0.027583180918601458, "learning_rate": 0.0001, "loss": 0.9204, "step": 4289 }, { "epoch": 1.0288, "grad_norm": 0.026026566587630674, "learning_rate": 0.0001, "loss": 1.018, "step": 4290 }, { "epoch": 1.0288533333333334, "grad_norm": 0.025576501420392746, "learning_rate": 0.0001, "loss": 0.9316, "step": 4291 }, { "epoch": 1.0289066666666666, "grad_norm": 0.026925961628276047, "learning_rate": 0.0001, "loss": 1.0196, "step": 4292 }, { "epoch": 1.02896, "grad_norm": 0.029254960243026016, "learning_rate": 0.0001, "loss": 0.9665, "step": 4293 }, { "epoch": 1.0290133333333333, "grad_norm": 0.0268116988921987, "learning_rate": 0.0001, "loss": 0.9059, "step": 4294 }, { "epoch": 1.0290666666666666, "grad_norm": 0.027067795729607037, "learning_rate": 0.0001, "loss": 1.0078, "step": 4295 }, { "epoch": 1.02912, "grad_norm": 0.026317178572110196, "learning_rate": 0.0001, "loss": 0.9605, "step": 4296 }, { "epoch": 1.0291733333333333, "grad_norm": 0.026895896496077362, "learning_rate": 0.0001, "loss": 0.9812, "step": 4297 }, { "epoch": 1.0292266666666667, "grad_norm": 0.025020189761913756, "learning_rate": 0.0001, "loss": 1.0226, "step": 4298 }, { "epoch": 1.02928, "grad_norm": 0.025448591993093708, "learning_rate": 0.0001, "loss": 1.0156, "step": 4299 }, { "epoch": 1.0293333333333334, "grad_norm": 0.02567631742769724, "learning_rate": 0.0001, "loss": 1.0024, "step": 4300 }, { "epoch": 1.0293866666666667, "grad_norm": 0.024411978842765438, "learning_rate": 0.0001, "loss": 0.9517, "step": 4301 }, { "epoch": 1.02944, "grad_norm": 0.02377654433828922, "learning_rate": 0.0001, "loss": 1.0203, "step": 4302 }, { "epoch": 1.0294933333333334, "grad_norm": 0.024108862755279806, "learning_rate": 0.0001, "loss": 1.0267, "step": 4303 }, { "epoch": 1.0295466666666666, "grad_norm": 0.025463742668227995, "learning_rate": 0.0001, "loss": 0.9564, "step": 4304 }, { "epoch": 1.0296, "grad_norm": 0.02321989052038827, "learning_rate": 0.0001, "loss": 0.9606, "step": 4305 }, { "epoch": 1.0296533333333333, "grad_norm": 0.023776664862300022, "learning_rate": 0.0001, "loss": 1.005, "step": 4306 }, { "epoch": 1.0297066666666668, "grad_norm": 0.02344914079716262, "learning_rate": 0.0001, "loss": 1.0103, "step": 4307 }, { "epoch": 1.02976, "grad_norm": 0.025229423651016686, "learning_rate": 0.0001, "loss": 0.9747, "step": 4308 }, { "epoch": 1.0298133333333332, "grad_norm": 0.025456256348178403, "learning_rate": 0.0001, "loss": 0.9943, "step": 4309 }, { "epoch": 1.0298666666666667, "grad_norm": 0.025128603417346716, "learning_rate": 0.0001, "loss": 1.0218, "step": 4310 }, { "epoch": 1.02992, "grad_norm": 0.026242289675936965, "learning_rate": 0.0001, "loss": 1.0065, "step": 4311 }, { "epoch": 1.0299733333333334, "grad_norm": 0.02399052406729695, "learning_rate": 0.0001, "loss": 0.9954, "step": 4312 }, { "epoch": 1.0300266666666666, "grad_norm": 0.025982513311280386, "learning_rate": 0.0001, "loss": 0.9937, "step": 4313 }, { "epoch": 1.03008, "grad_norm": 0.02411895177416584, "learning_rate": 0.0001, "loss": 0.9963, "step": 4314 }, { "epoch": 1.0301333333333333, "grad_norm": 0.024923100606675592, "learning_rate": 0.0001, "loss": 1.0571, "step": 4315 }, { "epoch": 1.0301866666666666, "grad_norm": 0.024973431470361115, "learning_rate": 0.0001, "loss": 0.9979, "step": 4316 }, { "epoch": 1.03024, "grad_norm": 0.023395798526695103, "learning_rate": 0.0001, "loss": 0.9952, "step": 4317 }, { "epoch": 1.0302933333333333, "grad_norm": 0.022264920284184406, "learning_rate": 0.0001, "loss": 0.9557, "step": 4318 }, { "epoch": 1.0303466666666667, "grad_norm": 0.025568730874433107, "learning_rate": 0.0001, "loss": 1.0496, "step": 4319 }, { "epoch": 1.0304, "grad_norm": 0.024048287978844292, "learning_rate": 0.0001, "loss": 1.0231, "step": 4320 }, { "epoch": 1.0304533333333334, "grad_norm": 0.02389408744299466, "learning_rate": 0.0001, "loss": 1.0144, "step": 4321 }, { "epoch": 1.0305066666666667, "grad_norm": 0.024444186986998705, "learning_rate": 0.0001, "loss": 0.9462, "step": 4322 }, { "epoch": 1.03056, "grad_norm": 0.0246123745556494, "learning_rate": 0.0001, "loss": 0.9694, "step": 4323 }, { "epoch": 1.0306133333333334, "grad_norm": 0.02567902852490298, "learning_rate": 0.0001, "loss": 0.9901, "step": 4324 }, { "epoch": 1.0306666666666666, "grad_norm": 0.022670618974959617, "learning_rate": 0.0001, "loss": 1.0097, "step": 4325 }, { "epoch": 1.03072, "grad_norm": 0.02720792095462256, "learning_rate": 0.0001, "loss": 0.9774, "step": 4326 }, { "epoch": 1.0307733333333333, "grad_norm": 0.026527306967050735, "learning_rate": 0.0001, "loss": 0.9785, "step": 4327 }, { "epoch": 1.0308266666666666, "grad_norm": 0.026399010240317766, "learning_rate": 0.0001, "loss": 0.9627, "step": 4328 }, { "epoch": 1.03088, "grad_norm": 0.02607285711339187, "learning_rate": 0.0001, "loss": 0.9581, "step": 4329 }, { "epoch": 1.0309333333333333, "grad_norm": 0.024319620784189835, "learning_rate": 0.0001, "loss": 0.9534, "step": 4330 }, { "epoch": 1.0309866666666667, "grad_norm": 0.03120793890497213, "learning_rate": 0.0001, "loss": 1.0297, "step": 4331 }, { "epoch": 1.03104, "grad_norm": 0.024867933106001095, "learning_rate": 0.0001, "loss": 1.0019, "step": 4332 }, { "epoch": 1.0310933333333334, "grad_norm": 0.029699794311045774, "learning_rate": 0.0001, "loss": 0.9753, "step": 4333 }, { "epoch": 1.0311466666666667, "grad_norm": 0.024974075195886382, "learning_rate": 0.0001, "loss": 0.9696, "step": 4334 }, { "epoch": 1.0312, "grad_norm": 0.025947215881945374, "learning_rate": 0.0001, "loss": 0.9862, "step": 4335 }, { "epoch": 1.0312533333333334, "grad_norm": 0.024864597663456292, "learning_rate": 0.0001, "loss": 0.9662, "step": 4336 }, { "epoch": 1.0313066666666666, "grad_norm": 0.02599251211695308, "learning_rate": 0.0001, "loss": 0.9606, "step": 4337 }, { "epoch": 1.03136, "grad_norm": 0.026387564099077946, "learning_rate": 0.0001, "loss": 1.0048, "step": 4338 }, { "epoch": 1.0314133333333333, "grad_norm": 0.023118325636099984, "learning_rate": 0.0001, "loss": 0.9523, "step": 4339 }, { "epoch": 1.0314666666666668, "grad_norm": 0.029289524021950678, "learning_rate": 0.0001, "loss": 1.0345, "step": 4340 }, { "epoch": 1.03152, "grad_norm": 0.024628058818613775, "learning_rate": 0.0001, "loss": 0.9151, "step": 4341 }, { "epoch": 1.0315733333333332, "grad_norm": 0.023918913275264474, "learning_rate": 0.0001, "loss": 0.9795, "step": 4342 }, { "epoch": 1.0316266666666667, "grad_norm": 0.024016165892047164, "learning_rate": 0.0001, "loss": 0.9924, "step": 4343 }, { "epoch": 1.03168, "grad_norm": 0.024874708892190175, "learning_rate": 0.0001, "loss": 0.9925, "step": 4344 }, { "epoch": 1.0317333333333334, "grad_norm": 0.025756089413754617, "learning_rate": 0.0001, "loss": 0.9949, "step": 4345 }, { "epoch": 1.0317866666666666, "grad_norm": 0.02739419143286228, "learning_rate": 0.0001, "loss": 0.9481, "step": 4346 }, { "epoch": 1.03184, "grad_norm": 0.02550908599923386, "learning_rate": 0.0001, "loss": 0.9584, "step": 4347 }, { "epoch": 1.0318933333333333, "grad_norm": 0.024175868408284566, "learning_rate": 0.0001, "loss": 0.9563, "step": 4348 }, { "epoch": 1.0319466666666666, "grad_norm": 0.025480675286379352, "learning_rate": 0.0001, "loss": 0.9152, "step": 4349 }, { "epoch": 1.032, "grad_norm": 0.03042768661310683, "learning_rate": 0.0001, "loss": 0.9823, "step": 4350 }, { "epoch": 1.0320533333333333, "grad_norm": 0.027414447490000722, "learning_rate": 0.0001, "loss": 0.9829, "step": 4351 }, { "epoch": 1.0321066666666667, "grad_norm": 0.02415670855053957, "learning_rate": 0.0001, "loss": 0.9758, "step": 4352 }, { "epoch": 1.03216, "grad_norm": 0.02394215615722101, "learning_rate": 0.0001, "loss": 0.9676, "step": 4353 }, { "epoch": 1.0322133333333334, "grad_norm": 0.024373744392058975, "learning_rate": 0.0001, "loss": 0.9794, "step": 4354 }, { "epoch": 1.0322666666666667, "grad_norm": 0.023928272493046434, "learning_rate": 0.0001, "loss": 1.0224, "step": 4355 }, { "epoch": 1.03232, "grad_norm": 0.02494705803990358, "learning_rate": 0.0001, "loss": 0.9495, "step": 4356 }, { "epoch": 1.0323733333333334, "grad_norm": 0.024775685601080556, "learning_rate": 0.0001, "loss": 0.9385, "step": 4357 }, { "epoch": 1.0324266666666666, "grad_norm": 0.026350505294905728, "learning_rate": 0.0001, "loss": 1.0198, "step": 4358 }, { "epoch": 1.03248, "grad_norm": 0.024342431861324797, "learning_rate": 0.0001, "loss": 0.9451, "step": 4359 }, { "epoch": 1.0325333333333333, "grad_norm": 0.025861767045243466, "learning_rate": 0.0001, "loss": 0.9999, "step": 4360 }, { "epoch": 1.0325866666666668, "grad_norm": 0.02542389993367001, "learning_rate": 0.0001, "loss": 0.9386, "step": 4361 }, { "epoch": 1.03264, "grad_norm": 0.0254856966498487, "learning_rate": 0.0001, "loss": 0.9658, "step": 4362 }, { "epoch": 1.0326933333333332, "grad_norm": 0.024961515761701414, "learning_rate": 0.0001, "loss": 1.0979, "step": 4363 }, { "epoch": 1.0327466666666667, "grad_norm": 0.02408427021790226, "learning_rate": 0.0001, "loss": 0.9918, "step": 4364 }, { "epoch": 1.0328, "grad_norm": 0.02604187145292836, "learning_rate": 0.0001, "loss": 0.9604, "step": 4365 }, { "epoch": 1.0328533333333334, "grad_norm": 0.025536238711197246, "learning_rate": 0.0001, "loss": 0.9795, "step": 4366 }, { "epoch": 1.0329066666666666, "grad_norm": 0.025052212850444885, "learning_rate": 0.0001, "loss": 0.9593, "step": 4367 }, { "epoch": 1.03296, "grad_norm": 0.025049713283329163, "learning_rate": 0.0001, "loss": 0.9423, "step": 4368 }, { "epoch": 1.0330133333333333, "grad_norm": 0.025583061501768364, "learning_rate": 0.0001, "loss": 0.9284, "step": 4369 }, { "epoch": 1.0330666666666666, "grad_norm": 0.025446083855381187, "learning_rate": 0.0001, "loss": 1.0653, "step": 4370 }, { "epoch": 1.03312, "grad_norm": 0.027154509040958185, "learning_rate": 0.0001, "loss": 0.9907, "step": 4371 }, { "epoch": 1.0331733333333333, "grad_norm": 0.026169098415782403, "learning_rate": 0.0001, "loss": 1.0141, "step": 4372 }, { "epoch": 1.0332266666666667, "grad_norm": 0.02448927409727445, "learning_rate": 0.0001, "loss": 1.0122, "step": 4373 }, { "epoch": 1.03328, "grad_norm": 0.024224463171966883, "learning_rate": 0.0001, "loss": 1.0004, "step": 4374 }, { "epoch": 1.0333333333333334, "grad_norm": 0.022864155479363917, "learning_rate": 0.0001, "loss": 1.0447, "step": 4375 }, { "epoch": 1.0333866666666667, "grad_norm": 0.024570795695502766, "learning_rate": 0.0001, "loss": 1.0142, "step": 4376 }, { "epoch": 1.03344, "grad_norm": 0.023470169794178562, "learning_rate": 0.0001, "loss": 0.9603, "step": 4377 }, { "epoch": 1.0334933333333334, "grad_norm": 0.02421188030212079, "learning_rate": 0.0001, "loss": 0.9922, "step": 4378 }, { "epoch": 1.0335466666666666, "grad_norm": 0.024810686093180826, "learning_rate": 0.0001, "loss": 0.9797, "step": 4379 }, { "epoch": 1.0336, "grad_norm": 0.023861613388549138, "learning_rate": 0.0001, "loss": 1.0323, "step": 4380 }, { "epoch": 1.0336533333333333, "grad_norm": 0.025491489683430218, "learning_rate": 0.0001, "loss": 0.9932, "step": 4381 }, { "epoch": 1.0337066666666668, "grad_norm": 0.025993701394744727, "learning_rate": 0.0001, "loss": 1.0305, "step": 4382 }, { "epoch": 1.03376, "grad_norm": 0.028484331654828977, "learning_rate": 0.0001, "loss": 0.9758, "step": 4383 }, { "epoch": 1.0338133333333333, "grad_norm": 0.02575526118439295, "learning_rate": 0.0001, "loss": 0.9453, "step": 4384 }, { "epoch": 1.0338666666666667, "grad_norm": 0.02464909841573038, "learning_rate": 0.0001, "loss": 0.9632, "step": 4385 }, { "epoch": 1.03392, "grad_norm": 0.027648024537842472, "learning_rate": 0.0001, "loss": 0.9658, "step": 4386 }, { "epoch": 1.0339733333333334, "grad_norm": 0.02465296509018974, "learning_rate": 0.0001, "loss": 1.0161, "step": 4387 }, { "epoch": 1.0340266666666666, "grad_norm": 0.02327347911343244, "learning_rate": 0.0001, "loss": 1.0396, "step": 4388 }, { "epoch": 1.0340799999999999, "grad_norm": 0.025094085935789507, "learning_rate": 0.0001, "loss": 0.9922, "step": 4389 }, { "epoch": 1.0341333333333333, "grad_norm": 0.022611752861814643, "learning_rate": 0.0001, "loss": 0.9518, "step": 4390 }, { "epoch": 1.0341866666666666, "grad_norm": 0.024234671436660374, "learning_rate": 0.0001, "loss": 0.9572, "step": 4391 }, { "epoch": 1.03424, "grad_norm": 0.026565131905770013, "learning_rate": 0.0001, "loss": 0.9851, "step": 4392 }, { "epoch": 1.0342933333333333, "grad_norm": 0.024886736108678517, "learning_rate": 0.0001, "loss": 0.9457, "step": 4393 }, { "epoch": 1.0343466666666667, "grad_norm": 0.022436182394740323, "learning_rate": 0.0001, "loss": 0.9527, "step": 4394 }, { "epoch": 1.0344, "grad_norm": 0.024456048953384407, "learning_rate": 0.0001, "loss": 0.9776, "step": 4395 }, { "epoch": 1.0344533333333334, "grad_norm": 0.025697543185784523, "learning_rate": 0.0001, "loss": 1.0365, "step": 4396 }, { "epoch": 1.0345066666666667, "grad_norm": 0.026508310036915467, "learning_rate": 0.0001, "loss": 0.9909, "step": 4397 }, { "epoch": 1.03456, "grad_norm": 0.023465710991408192, "learning_rate": 0.0001, "loss": 0.9623, "step": 4398 }, { "epoch": 1.0346133333333334, "grad_norm": 0.025845382036942893, "learning_rate": 0.0001, "loss": 0.9719, "step": 4399 }, { "epoch": 1.0346666666666666, "grad_norm": 0.023304480038983468, "learning_rate": 0.0001, "loss": 0.9875, "step": 4400 }, { "epoch": 1.0346666666666666, "eval_accuracy": 0.6166564741523967, "eval_loss": 1.3741999864578247, "eval_runtime": 62.299, "eval_samples_per_second": 16.052, "eval_steps_per_second": 0.514, "step": 4400 }, { "epoch": 1.03472, "grad_norm": 0.027116480772113826, "learning_rate": 0.0001, "loss": 0.9467, "step": 4401 }, { "epoch": 1.0347733333333333, "grad_norm": 0.02401692387355954, "learning_rate": 0.0001, "loss": 0.9466, "step": 4402 }, { "epoch": 1.0348266666666666, "grad_norm": 0.025800299630515323, "learning_rate": 0.0001, "loss": 0.9667, "step": 4403 }, { "epoch": 1.03488, "grad_norm": 0.027287051463186805, "learning_rate": 0.0001, "loss": 0.9722, "step": 4404 }, { "epoch": 1.0349333333333333, "grad_norm": 0.023910189765620996, "learning_rate": 0.0001, "loss": 0.9808, "step": 4405 }, { "epoch": 1.0349866666666667, "grad_norm": 0.027022402361306323, "learning_rate": 0.0001, "loss": 0.9746, "step": 4406 }, { "epoch": 1.03504, "grad_norm": 0.02632668916401222, "learning_rate": 0.0001, "loss": 1.0007, "step": 4407 }, { "epoch": 1.0350933333333334, "grad_norm": 0.02276799220710144, "learning_rate": 0.0001, "loss": 0.908, "step": 4408 }, { "epoch": 1.0351466666666667, "grad_norm": 0.025844124098613974, "learning_rate": 0.0001, "loss": 0.9307, "step": 4409 }, { "epoch": 1.0352, "grad_norm": 0.02380432568556784, "learning_rate": 0.0001, "loss": 0.9413, "step": 4410 }, { "epoch": 1.0352533333333334, "grad_norm": 0.025276555802474995, "learning_rate": 0.0001, "loss": 0.9553, "step": 4411 }, { "epoch": 1.0353066666666666, "grad_norm": 0.026404769700472577, "learning_rate": 0.0001, "loss": 0.987, "step": 4412 }, { "epoch": 1.03536, "grad_norm": 0.02636272118449618, "learning_rate": 0.0001, "loss": 0.9325, "step": 4413 }, { "epoch": 1.0354133333333333, "grad_norm": 0.02544410829690844, "learning_rate": 0.0001, "loss": 1.0048, "step": 4414 }, { "epoch": 1.0354666666666668, "grad_norm": 0.0238391877976126, "learning_rate": 0.0001, "loss": 1.0333, "step": 4415 }, { "epoch": 1.03552, "grad_norm": 0.027974711173806815, "learning_rate": 0.0001, "loss": 0.9873, "step": 4416 }, { "epoch": 1.0355733333333332, "grad_norm": 0.0270989837347207, "learning_rate": 0.0001, "loss": 0.9559, "step": 4417 }, { "epoch": 1.0356266666666667, "grad_norm": 0.02555008918054024, "learning_rate": 0.0001, "loss": 0.9867, "step": 4418 }, { "epoch": 1.03568, "grad_norm": 0.025744912568249952, "learning_rate": 0.0001, "loss": 1.0412, "step": 4419 }, { "epoch": 1.0357333333333334, "grad_norm": 0.025425896519866095, "learning_rate": 0.0001, "loss": 0.9698, "step": 4420 }, { "epoch": 1.0357866666666666, "grad_norm": 0.023162149685641748, "learning_rate": 0.0001, "loss": 0.9136, "step": 4421 }, { "epoch": 1.03584, "grad_norm": 0.026213839644814885, "learning_rate": 0.0001, "loss": 0.9788, "step": 4422 }, { "epoch": 1.0358933333333333, "grad_norm": 0.024066356112987648, "learning_rate": 0.0001, "loss": 1.0115, "step": 4423 }, { "epoch": 1.0359466666666666, "grad_norm": 0.02347285057489438, "learning_rate": 0.0001, "loss": 0.9434, "step": 4424 }, { "epoch": 1.036, "grad_norm": 0.023313961231884485, "learning_rate": 0.0001, "loss": 0.9787, "step": 4425 }, { "epoch": 1.0360533333333333, "grad_norm": 0.024123586953697915, "learning_rate": 0.0001, "loss": 1.0144, "step": 4426 }, { "epoch": 1.0361066666666667, "grad_norm": 0.024735930442330613, "learning_rate": 0.0001, "loss": 1.006, "step": 4427 }, { "epoch": 1.03616, "grad_norm": 0.024990214156672012, "learning_rate": 0.0001, "loss": 0.9392, "step": 4428 }, { "epoch": 1.0362133333333334, "grad_norm": 0.02577260111469301, "learning_rate": 0.0001, "loss": 0.9656, "step": 4429 }, { "epoch": 1.0362666666666667, "grad_norm": 0.02532575443472955, "learning_rate": 0.0001, "loss": 1.0083, "step": 4430 }, { "epoch": 1.03632, "grad_norm": 0.023122510409245314, "learning_rate": 0.0001, "loss": 0.945, "step": 4431 }, { "epoch": 1.0363733333333334, "grad_norm": 0.024866071017654767, "learning_rate": 0.0001, "loss": 1.0126, "step": 4432 }, { "epoch": 1.0364266666666666, "grad_norm": 0.023101538386004993, "learning_rate": 0.0001, "loss": 0.9698, "step": 4433 }, { "epoch": 1.03648, "grad_norm": 0.024213214148099422, "learning_rate": 0.0001, "loss": 1.0318, "step": 4434 }, { "epoch": 1.0365333333333333, "grad_norm": 0.023955866136895963, "learning_rate": 0.0001, "loss": 1.0157, "step": 4435 }, { "epoch": 1.0365866666666668, "grad_norm": 0.02691565641191495, "learning_rate": 0.0001, "loss": 0.9268, "step": 4436 }, { "epoch": 1.03664, "grad_norm": 0.024125860642450623, "learning_rate": 0.0001, "loss": 0.9886, "step": 4437 }, { "epoch": 1.0366933333333332, "grad_norm": 0.025236960092368057, "learning_rate": 0.0001, "loss": 1.0522, "step": 4438 }, { "epoch": 1.0367466666666667, "grad_norm": 0.024072237589028746, "learning_rate": 0.0001, "loss": 1.0009, "step": 4439 }, { "epoch": 1.0368, "grad_norm": 0.02408611059289758, "learning_rate": 0.0001, "loss": 0.9837, "step": 4440 }, { "epoch": 1.0368533333333334, "grad_norm": 0.024075662883812056, "learning_rate": 0.0001, "loss": 0.9935, "step": 4441 }, { "epoch": 1.0369066666666666, "grad_norm": 0.027080702287202923, "learning_rate": 0.0001, "loss": 0.9961, "step": 4442 }, { "epoch": 1.03696, "grad_norm": 0.023619155522881435, "learning_rate": 0.0001, "loss": 1.0282, "step": 4443 }, { "epoch": 1.0370133333333333, "grad_norm": 0.023587880284994416, "learning_rate": 0.0001, "loss": 0.9989, "step": 4444 }, { "epoch": 1.0370666666666666, "grad_norm": 0.025067367082562565, "learning_rate": 0.0001, "loss": 0.9472, "step": 4445 }, { "epoch": 1.03712, "grad_norm": 0.02817739406678738, "learning_rate": 0.0001, "loss": 0.9864, "step": 4446 }, { "epoch": 1.0371733333333333, "grad_norm": 0.024489101589444576, "learning_rate": 0.0001, "loss": 0.9514, "step": 4447 }, { "epoch": 1.0372266666666667, "grad_norm": 0.024294513424600834, "learning_rate": 0.0001, "loss": 0.91, "step": 4448 }, { "epoch": 1.03728, "grad_norm": 0.02478770222471264, "learning_rate": 0.0001, "loss": 1.0083, "step": 4449 }, { "epoch": 1.0373333333333334, "grad_norm": 0.024451154059373606, "learning_rate": 0.0001, "loss": 1.0023, "step": 4450 }, { "epoch": 1.0373866666666667, "grad_norm": 0.02420203351117213, "learning_rate": 0.0001, "loss": 0.9479, "step": 4451 }, { "epoch": 1.03744, "grad_norm": 0.025282594045943366, "learning_rate": 0.0001, "loss": 0.9827, "step": 4452 }, { "epoch": 1.0374933333333334, "grad_norm": 0.02489921646500652, "learning_rate": 0.0001, "loss": 0.9835, "step": 4453 }, { "epoch": 1.0375466666666666, "grad_norm": 0.02480739654250344, "learning_rate": 0.0001, "loss": 0.9833, "step": 4454 }, { "epoch": 1.0376, "grad_norm": 0.025569647172893846, "learning_rate": 0.0001, "loss": 0.9315, "step": 4455 }, { "epoch": 1.0376533333333333, "grad_norm": 0.02663170866217121, "learning_rate": 0.0001, "loss": 0.9924, "step": 4456 }, { "epoch": 1.0377066666666668, "grad_norm": 0.023481199862477337, "learning_rate": 0.0001, "loss": 1.0326, "step": 4457 }, { "epoch": 1.03776, "grad_norm": 0.025786338837010897, "learning_rate": 0.0001, "loss": 1.0355, "step": 4458 }, { "epoch": 1.0378133333333333, "grad_norm": 0.025144151538960515, "learning_rate": 0.0001, "loss": 0.9324, "step": 4459 }, { "epoch": 1.0378666666666667, "grad_norm": 0.024965583324808104, "learning_rate": 0.0001, "loss": 1.0058, "step": 4460 }, { "epoch": 1.03792, "grad_norm": 0.023492374751200515, "learning_rate": 0.0001, "loss": 1.0131, "step": 4461 }, { "epoch": 1.0379733333333334, "grad_norm": 0.023979212888402865, "learning_rate": 0.0001, "loss": 0.9579, "step": 4462 }, { "epoch": 1.0380266666666667, "grad_norm": 0.026591357140337956, "learning_rate": 0.0001, "loss": 0.9508, "step": 4463 }, { "epoch": 1.03808, "grad_norm": 0.02607645364605039, "learning_rate": 0.0001, "loss": 1.0138, "step": 4464 }, { "epoch": 1.0381333333333334, "grad_norm": 0.02444469568987499, "learning_rate": 0.0001, "loss": 0.965, "step": 4465 }, { "epoch": 1.0381866666666666, "grad_norm": 0.025245895101101236, "learning_rate": 0.0001, "loss": 0.9452, "step": 4466 }, { "epoch": 1.03824, "grad_norm": 0.024939180907881185, "learning_rate": 0.0001, "loss": 0.9991, "step": 4467 }, { "epoch": 1.0382933333333333, "grad_norm": 0.025966268075698757, "learning_rate": 0.0001, "loss": 1.0356, "step": 4468 }, { "epoch": 1.0383466666666668, "grad_norm": 0.024337117024424947, "learning_rate": 0.0001, "loss": 1.0026, "step": 4469 }, { "epoch": 1.0384, "grad_norm": 0.024475508927404112, "learning_rate": 0.0001, "loss": 0.956, "step": 4470 }, { "epoch": 1.0384533333333332, "grad_norm": 0.02614709205103336, "learning_rate": 0.0001, "loss": 1.0344, "step": 4471 }, { "epoch": 1.0385066666666667, "grad_norm": 0.02426120113071668, "learning_rate": 0.0001, "loss": 0.9814, "step": 4472 }, { "epoch": 1.03856, "grad_norm": 0.026300878063701526, "learning_rate": 0.0001, "loss": 0.9695, "step": 4473 }, { "epoch": 1.0386133333333334, "grad_norm": 0.025247763767449447, "learning_rate": 0.0001, "loss": 0.9558, "step": 4474 }, { "epoch": 1.0386666666666666, "grad_norm": 0.02278396203942889, "learning_rate": 0.0001, "loss": 1.029, "step": 4475 }, { "epoch": 1.03872, "grad_norm": 0.024630879624903696, "learning_rate": 0.0001, "loss": 0.9956, "step": 4476 }, { "epoch": 1.0387733333333333, "grad_norm": 0.024963410048783084, "learning_rate": 0.0001, "loss": 0.9013, "step": 4477 }, { "epoch": 1.0388266666666666, "grad_norm": 0.023901081271432742, "learning_rate": 0.0001, "loss": 0.9874, "step": 4478 }, { "epoch": 1.03888, "grad_norm": 0.025340266619465476, "learning_rate": 0.0001, "loss": 0.9143, "step": 4479 }, { "epoch": 1.0389333333333333, "grad_norm": 0.0245353356806933, "learning_rate": 0.0001, "loss": 0.9366, "step": 4480 }, { "epoch": 1.0389866666666667, "grad_norm": 0.03905487242881286, "learning_rate": 0.0001, "loss": 0.9787, "step": 4481 }, { "epoch": 1.03904, "grad_norm": 0.027193343506409746, "learning_rate": 0.0001, "loss": 1.0565, "step": 4482 }, { "epoch": 1.0390933333333334, "grad_norm": 0.027272960212350327, "learning_rate": 0.0001, "loss": 0.9064, "step": 4483 }, { "epoch": 1.0391466666666667, "grad_norm": 0.0228718200696725, "learning_rate": 0.0001, "loss": 0.9472, "step": 4484 }, { "epoch": 1.0392, "grad_norm": 0.02683101721383208, "learning_rate": 0.0001, "loss": 1.0097, "step": 4485 }, { "epoch": 1.0392533333333334, "grad_norm": 0.023974053110856403, "learning_rate": 0.0001, "loss": 0.9464, "step": 4486 }, { "epoch": 1.0393066666666666, "grad_norm": 0.02550482353459311, "learning_rate": 0.0001, "loss": 0.9628, "step": 4487 }, { "epoch": 1.03936, "grad_norm": 0.027987214724039724, "learning_rate": 0.0001, "loss": 1.0355, "step": 4488 }, { "epoch": 1.0394133333333333, "grad_norm": 0.02400081727067451, "learning_rate": 0.0001, "loss": 0.9736, "step": 4489 }, { "epoch": 1.0394666666666668, "grad_norm": 0.027156578774371193, "learning_rate": 0.0001, "loss": 1.0099, "step": 4490 }, { "epoch": 1.03952, "grad_norm": 0.02437435696510714, "learning_rate": 0.0001, "loss": 1.027, "step": 4491 }, { "epoch": 1.0395733333333332, "grad_norm": 0.024651744631625203, "learning_rate": 0.0001, "loss": 1.0042, "step": 4492 }, { "epoch": 1.0396266666666667, "grad_norm": 0.025072490297579606, "learning_rate": 0.0001, "loss": 0.9846, "step": 4493 }, { "epoch": 1.03968, "grad_norm": 0.025607110050825013, "learning_rate": 0.0001, "loss": 0.9811, "step": 4494 }, { "epoch": 1.0397333333333334, "grad_norm": 0.027109865722087973, "learning_rate": 0.0001, "loss": 0.933, "step": 4495 }, { "epoch": 1.0397866666666666, "grad_norm": 0.02360725268976757, "learning_rate": 0.0001, "loss": 1.0133, "step": 4496 }, { "epoch": 1.03984, "grad_norm": 0.02819133325988624, "learning_rate": 0.0001, "loss": 0.9884, "step": 4497 }, { "epoch": 1.0398933333333333, "grad_norm": 0.024789812463013927, "learning_rate": 0.0001, "loss": 0.9791, "step": 4498 }, { "epoch": 1.0399466666666666, "grad_norm": 0.024464652674272957, "learning_rate": 0.0001, "loss": 1.0492, "step": 4499 }, { "epoch": 1.04, "grad_norm": 0.02596819314543035, "learning_rate": 0.0001, "loss": 1.0199, "step": 4500 }, { "epoch": 1.0400533333333333, "grad_norm": 0.024790172482480638, "learning_rate": 0.0001, "loss": 1.0053, "step": 4501 }, { "epoch": 1.0401066666666667, "grad_norm": 0.026010801235574057, "learning_rate": 0.0001, "loss": 0.931, "step": 4502 }, { "epoch": 1.04016, "grad_norm": 0.02582622327731876, "learning_rate": 0.0001, "loss": 0.9834, "step": 4503 }, { "epoch": 1.0402133333333334, "grad_norm": 0.026765130068596193, "learning_rate": 0.0001, "loss": 1.005, "step": 4504 }, { "epoch": 1.0402666666666667, "grad_norm": 0.025088402752272365, "learning_rate": 0.0001, "loss": 0.9579, "step": 4505 }, { "epoch": 1.04032, "grad_norm": 0.027724809343285507, "learning_rate": 0.0001, "loss": 0.9334, "step": 4506 }, { "epoch": 1.0403733333333334, "grad_norm": 0.025271051755231574, "learning_rate": 0.0001, "loss": 0.926, "step": 4507 }, { "epoch": 1.0404266666666666, "grad_norm": 0.023736336411044747, "learning_rate": 0.0001, "loss": 0.9231, "step": 4508 }, { "epoch": 1.04048, "grad_norm": 0.025632362303793968, "learning_rate": 0.0001, "loss": 0.9742, "step": 4509 }, { "epoch": 1.0405333333333333, "grad_norm": 0.028446325731549798, "learning_rate": 0.0001, "loss": 0.9807, "step": 4510 }, { "epoch": 1.0405866666666668, "grad_norm": 0.023979329003568743, "learning_rate": 0.0001, "loss": 1.0224, "step": 4511 }, { "epoch": 1.04064, "grad_norm": 0.023886036428375744, "learning_rate": 0.0001, "loss": 0.9888, "step": 4512 }, { "epoch": 1.0406933333333332, "grad_norm": 0.02451916390541396, "learning_rate": 0.0001, "loss": 1.0004, "step": 4513 }, { "epoch": 1.0407466666666667, "grad_norm": 0.025049500326144544, "learning_rate": 0.0001, "loss": 0.9553, "step": 4514 }, { "epoch": 1.0408, "grad_norm": 0.0235203574431286, "learning_rate": 0.0001, "loss": 0.9981, "step": 4515 }, { "epoch": 1.0408533333333334, "grad_norm": 0.023897460277742078, "learning_rate": 0.0001, "loss": 0.9417, "step": 4516 }, { "epoch": 1.0409066666666666, "grad_norm": 0.023694076091394733, "learning_rate": 0.0001, "loss": 0.928, "step": 4517 }, { "epoch": 1.04096, "grad_norm": 0.023340033290487863, "learning_rate": 0.0001, "loss": 1.0017, "step": 4518 }, { "epoch": 1.0410133333333333, "grad_norm": 0.02534117624844101, "learning_rate": 0.0001, "loss": 0.9623, "step": 4519 }, { "epoch": 1.0410666666666666, "grad_norm": 0.024055934364912848, "learning_rate": 0.0001, "loss": 0.9642, "step": 4520 }, { "epoch": 1.04112, "grad_norm": 0.023858028423329024, "learning_rate": 0.0001, "loss": 0.9895, "step": 4521 }, { "epoch": 1.0411733333333333, "grad_norm": 0.023704208975235917, "learning_rate": 0.0001, "loss": 1.0025, "step": 4522 }, { "epoch": 1.0412266666666667, "grad_norm": 0.023070841363613166, "learning_rate": 0.0001, "loss": 0.9792, "step": 4523 }, { "epoch": 1.04128, "grad_norm": 0.02406657765301327, "learning_rate": 0.0001, "loss": 0.9482, "step": 4524 }, { "epoch": 1.0413333333333332, "grad_norm": 0.02679264341009875, "learning_rate": 0.0001, "loss": 0.9982, "step": 4525 }, { "epoch": 1.0413866666666667, "grad_norm": 0.026888432968897626, "learning_rate": 0.0001, "loss": 0.9523, "step": 4526 }, { "epoch": 1.04144, "grad_norm": 0.024123607871148648, "learning_rate": 0.0001, "loss": 1.022, "step": 4527 }, { "epoch": 1.0414933333333334, "grad_norm": 0.023566369461423764, "learning_rate": 0.0001, "loss": 1.0263, "step": 4528 }, { "epoch": 1.0415466666666666, "grad_norm": 0.0239291037045171, "learning_rate": 0.0001, "loss": 1.0137, "step": 4529 }, { "epoch": 1.0416, "grad_norm": 0.02657468649716144, "learning_rate": 0.0001, "loss": 1.0369, "step": 4530 }, { "epoch": 1.0416533333333333, "grad_norm": 0.023984798780702365, "learning_rate": 0.0001, "loss": 0.9398, "step": 4531 }, { "epoch": 1.0417066666666668, "grad_norm": 0.025571757980399394, "learning_rate": 0.0001, "loss": 1.0084, "step": 4532 }, { "epoch": 1.04176, "grad_norm": 0.024319106908739677, "learning_rate": 0.0001, "loss": 1.021, "step": 4533 }, { "epoch": 1.0418133333333333, "grad_norm": 0.025544295945672462, "learning_rate": 0.0001, "loss": 1.0401, "step": 4534 }, { "epoch": 1.0418666666666667, "grad_norm": 0.024764598668316283, "learning_rate": 0.0001, "loss": 1.0074, "step": 4535 }, { "epoch": 1.04192, "grad_norm": 0.024949071258798763, "learning_rate": 0.0001, "loss": 1.0163, "step": 4536 }, { "epoch": 1.0419733333333334, "grad_norm": 0.025195932687757133, "learning_rate": 0.0001, "loss": 1.0207, "step": 4537 }, { "epoch": 1.0420266666666667, "grad_norm": 0.023269465957548578, "learning_rate": 0.0001, "loss": 1.0088, "step": 4538 }, { "epoch": 1.04208, "grad_norm": 0.024410308204329212, "learning_rate": 0.0001, "loss": 0.968, "step": 4539 }, { "epoch": 1.0421333333333334, "grad_norm": 0.02486814927121173, "learning_rate": 0.0001, "loss": 0.9675, "step": 4540 }, { "epoch": 1.0421866666666666, "grad_norm": 0.023447112431081666, "learning_rate": 0.0001, "loss": 0.9507, "step": 4541 }, { "epoch": 1.04224, "grad_norm": 0.024101005980671768, "learning_rate": 0.0001, "loss": 0.9285, "step": 4542 }, { "epoch": 1.0422933333333333, "grad_norm": 0.02531607311717079, "learning_rate": 0.0001, "loss": 0.9677, "step": 4543 }, { "epoch": 1.0423466666666668, "grad_norm": 0.023747713270462767, "learning_rate": 0.0001, "loss": 0.9909, "step": 4544 }, { "epoch": 1.0424, "grad_norm": 0.025165212436178128, "learning_rate": 0.0001, "loss": 0.9665, "step": 4545 }, { "epoch": 1.0424533333333332, "grad_norm": 0.02635156888408271, "learning_rate": 0.0001, "loss": 1.0079, "step": 4546 }, { "epoch": 1.0425066666666667, "grad_norm": 0.028349284518643388, "learning_rate": 0.0001, "loss": 0.9714, "step": 4547 }, { "epoch": 1.04256, "grad_norm": 0.02270046618575519, "learning_rate": 0.0001, "loss": 0.9497, "step": 4548 }, { "epoch": 1.0426133333333334, "grad_norm": 0.028260368627069748, "learning_rate": 0.0001, "loss": 0.995, "step": 4549 }, { "epoch": 1.0426666666666666, "grad_norm": 0.024667387831793744, "learning_rate": 0.0001, "loss": 1.0141, "step": 4550 }, { "epoch": 1.04272, "grad_norm": 0.02788057728319677, "learning_rate": 0.0001, "loss": 0.9604, "step": 4551 }, { "epoch": 1.0427733333333333, "grad_norm": 0.025483996445298418, "learning_rate": 0.0001, "loss": 0.9814, "step": 4552 }, { "epoch": 1.0428266666666666, "grad_norm": 0.02475064356816004, "learning_rate": 0.0001, "loss": 0.9616, "step": 4553 }, { "epoch": 1.04288, "grad_norm": 0.027401259418959344, "learning_rate": 0.0001, "loss": 0.9335, "step": 4554 }, { "epoch": 1.0429333333333333, "grad_norm": 0.026621269842579138, "learning_rate": 0.0001, "loss": 0.9709, "step": 4555 }, { "epoch": 1.0429866666666667, "grad_norm": 0.02458399136076081, "learning_rate": 0.0001, "loss": 0.9976, "step": 4556 }, { "epoch": 1.04304, "grad_norm": 0.026338745537164938, "learning_rate": 0.0001, "loss": 1.0432, "step": 4557 }, { "epoch": 1.0430933333333334, "grad_norm": 0.025430109834033265, "learning_rate": 0.0001, "loss": 1.021, "step": 4558 }, { "epoch": 1.0431466666666667, "grad_norm": 0.025255403879022024, "learning_rate": 0.0001, "loss": 0.9934, "step": 4559 }, { "epoch": 1.0432, "grad_norm": 0.025233842263503926, "learning_rate": 0.0001, "loss": 0.9888, "step": 4560 }, { "epoch": 1.0432533333333334, "grad_norm": 0.024876465122339098, "learning_rate": 0.0001, "loss": 0.9151, "step": 4561 }, { "epoch": 1.0433066666666666, "grad_norm": 0.024806039930383817, "learning_rate": 0.0001, "loss": 0.9417, "step": 4562 }, { "epoch": 1.04336, "grad_norm": 0.023970132923629837, "learning_rate": 0.0001, "loss": 0.9432, "step": 4563 }, { "epoch": 1.0434133333333333, "grad_norm": 0.024500205477346347, "learning_rate": 0.0001, "loss": 0.9496, "step": 4564 }, { "epoch": 1.0434666666666668, "grad_norm": 0.024669780015740963, "learning_rate": 0.0001, "loss": 0.952, "step": 4565 }, { "epoch": 1.04352, "grad_norm": 0.024557306490017708, "learning_rate": 0.0001, "loss": 0.9544, "step": 4566 }, { "epoch": 1.0435733333333332, "grad_norm": 0.024950259749004958, "learning_rate": 0.0001, "loss": 0.9513, "step": 4567 }, { "epoch": 1.0436266666666667, "grad_norm": 0.025268703090243747, "learning_rate": 0.0001, "loss": 0.9962, "step": 4568 }, { "epoch": 1.04368, "grad_norm": 0.0247990589789008, "learning_rate": 0.0001, "loss": 0.9916, "step": 4569 }, { "epoch": 1.0437333333333334, "grad_norm": 0.02386040926587902, "learning_rate": 0.0001, "loss": 1.0028, "step": 4570 }, { "epoch": 1.0437866666666666, "grad_norm": 0.026379063633156043, "learning_rate": 0.0001, "loss": 0.9964, "step": 4571 }, { "epoch": 1.04384, "grad_norm": 0.026545742960822745, "learning_rate": 0.0001, "loss": 1.0337, "step": 4572 }, { "epoch": 1.0438933333333333, "grad_norm": 0.026218497734636984, "learning_rate": 0.0001, "loss": 0.9948, "step": 4573 }, { "epoch": 1.0439466666666666, "grad_norm": 0.025264386993253708, "learning_rate": 0.0001, "loss": 1.0348, "step": 4574 }, { "epoch": 1.044, "grad_norm": 0.023620734562074742, "learning_rate": 0.0001, "loss": 0.9469, "step": 4575 }, { "epoch": 1.0440533333333333, "grad_norm": 0.024871791237559334, "learning_rate": 0.0001, "loss": 1.0123, "step": 4576 }, { "epoch": 1.0441066666666667, "grad_norm": 0.025300138262202954, "learning_rate": 0.0001, "loss": 0.9567, "step": 4577 }, { "epoch": 1.04416, "grad_norm": 0.024304350063144003, "learning_rate": 0.0001, "loss": 0.9926, "step": 4578 }, { "epoch": 1.0442133333333334, "grad_norm": 0.02620528203138692, "learning_rate": 0.0001, "loss": 1.002, "step": 4579 }, { "epoch": 1.0442666666666667, "grad_norm": 0.025090013818155617, "learning_rate": 0.0001, "loss": 0.9765, "step": 4580 }, { "epoch": 1.04432, "grad_norm": 0.022617785374904793, "learning_rate": 0.0001, "loss": 0.9862, "step": 4581 }, { "epoch": 1.0443733333333334, "grad_norm": 0.024596435654643985, "learning_rate": 0.0001, "loss": 0.9197, "step": 4582 }, { "epoch": 1.0444266666666666, "grad_norm": 0.024245083502844034, "learning_rate": 0.0001, "loss": 0.9906, "step": 4583 }, { "epoch": 1.04448, "grad_norm": 0.024484664085861235, "learning_rate": 0.0001, "loss": 0.9847, "step": 4584 }, { "epoch": 1.0445333333333333, "grad_norm": 0.024633959458881256, "learning_rate": 0.0001, "loss": 0.9761, "step": 4585 }, { "epoch": 1.0445866666666666, "grad_norm": 0.024255926370469263, "learning_rate": 0.0001, "loss": 0.9701, "step": 4586 }, { "epoch": 1.04464, "grad_norm": 0.023663578414773977, "learning_rate": 0.0001, "loss": 1.0105, "step": 4587 }, { "epoch": 1.0446933333333333, "grad_norm": 0.02391667239138612, "learning_rate": 0.0001, "loss": 0.9902, "step": 4588 }, { "epoch": 1.0447466666666667, "grad_norm": 0.02553877713252693, "learning_rate": 0.0001, "loss": 0.9877, "step": 4589 }, { "epoch": 1.0448, "grad_norm": 0.026338493283970737, "learning_rate": 0.0001, "loss": 0.9821, "step": 4590 }, { "epoch": 1.0448533333333334, "grad_norm": 0.02440962132157381, "learning_rate": 0.0001, "loss": 1.0262, "step": 4591 }, { "epoch": 1.0449066666666667, "grad_norm": 0.024677437151617333, "learning_rate": 0.0001, "loss": 0.9623, "step": 4592 }, { "epoch": 1.04496, "grad_norm": 0.02347156646884193, "learning_rate": 0.0001, "loss": 0.9718, "step": 4593 }, { "epoch": 1.0450133333333333, "grad_norm": 0.025245762371635193, "learning_rate": 0.0001, "loss": 1.0069, "step": 4594 }, { "epoch": 1.0450666666666666, "grad_norm": 0.02465998230513875, "learning_rate": 0.0001, "loss": 1.0205, "step": 4595 }, { "epoch": 1.04512, "grad_norm": 0.027332140462820446, "learning_rate": 0.0001, "loss": 0.991, "step": 4596 }, { "epoch": 1.0451733333333333, "grad_norm": 0.024268685581193893, "learning_rate": 0.0001, "loss": 0.9649, "step": 4597 }, { "epoch": 1.0452266666666667, "grad_norm": 0.024051700629198394, "learning_rate": 0.0001, "loss": 0.9673, "step": 4598 }, { "epoch": 1.04528, "grad_norm": 0.024203817562597943, "learning_rate": 0.0001, "loss": 0.9508, "step": 4599 }, { "epoch": 1.0453333333333332, "grad_norm": 0.022789101415309543, "learning_rate": 0.0001, "loss": 1.0024, "step": 4600 }, { "epoch": 1.0453333333333332, "eval_accuracy": 0.6168919761173935, "eval_loss": 1.3724803924560547, "eval_runtime": 62.4718, "eval_samples_per_second": 16.007, "eval_steps_per_second": 0.512, "step": 4600 }, { "epoch": 1.0453866666666667, "grad_norm": 0.025426405280464047, "learning_rate": 0.0001, "loss": 0.9602, "step": 4601 }, { "epoch": 1.04544, "grad_norm": 0.023430924704057603, "learning_rate": 0.0001, "loss": 1.0424, "step": 4602 }, { "epoch": 1.0454933333333334, "grad_norm": 0.022816565210101863, "learning_rate": 0.0001, "loss": 0.97, "step": 4603 }, { "epoch": 1.0455466666666666, "grad_norm": 0.02465880437511415, "learning_rate": 0.0001, "loss": 0.982, "step": 4604 }, { "epoch": 1.0456, "grad_norm": 0.02456890885510141, "learning_rate": 0.0001, "loss": 0.9991, "step": 4605 }, { "epoch": 1.0456533333333333, "grad_norm": 0.023385175068900907, "learning_rate": 0.0001, "loss": 1.0115, "step": 4606 }, { "epoch": 1.0457066666666666, "grad_norm": 0.026229503702818267, "learning_rate": 0.0001, "loss": 0.9832, "step": 4607 }, { "epoch": 1.04576, "grad_norm": 0.026767626769473477, "learning_rate": 0.0001, "loss": 0.9909, "step": 4608 }, { "epoch": 1.0458133333333333, "grad_norm": 0.025512086967688287, "learning_rate": 0.0001, "loss": 0.9314, "step": 4609 }, { "epoch": 1.0458666666666667, "grad_norm": 0.026087742054467556, "learning_rate": 0.0001, "loss": 0.94, "step": 4610 }, { "epoch": 1.04592, "grad_norm": 0.022996540436250233, "learning_rate": 0.0001, "loss": 0.9728, "step": 4611 }, { "epoch": 1.0459733333333334, "grad_norm": 0.024527010675760127, "learning_rate": 0.0001, "loss": 0.9919, "step": 4612 }, { "epoch": 1.0460266666666667, "grad_norm": 0.024438653360109676, "learning_rate": 0.0001, "loss": 1.0443, "step": 4613 }, { "epoch": 1.04608, "grad_norm": 0.02831404890155385, "learning_rate": 0.0001, "loss": 0.9892, "step": 4614 }, { "epoch": 1.0461333333333334, "grad_norm": 0.02728298868478119, "learning_rate": 0.0001, "loss": 0.9971, "step": 4615 }, { "epoch": 1.0461866666666666, "grad_norm": 0.02387853321245983, "learning_rate": 0.0001, "loss": 0.9527, "step": 4616 }, { "epoch": 1.04624, "grad_norm": 0.024428413180684085, "learning_rate": 0.0001, "loss": 0.9864, "step": 4617 }, { "epoch": 1.0462933333333333, "grad_norm": 0.02474849073011206, "learning_rate": 0.0001, "loss": 0.9773, "step": 4618 }, { "epoch": 1.0463466666666668, "grad_norm": 0.02442382011533083, "learning_rate": 0.0001, "loss": 0.9483, "step": 4619 }, { "epoch": 1.0464, "grad_norm": 0.024995037357289817, "learning_rate": 0.0001, "loss": 0.9821, "step": 4620 }, { "epoch": 1.0464533333333332, "grad_norm": 0.024898148606462254, "learning_rate": 0.0001, "loss": 0.9968, "step": 4621 }, { "epoch": 1.0465066666666667, "grad_norm": 0.023587918492046295, "learning_rate": 0.0001, "loss": 0.9826, "step": 4622 }, { "epoch": 1.04656, "grad_norm": 0.02492636059938225, "learning_rate": 0.0001, "loss": 0.9904, "step": 4623 }, { "epoch": 1.0466133333333334, "grad_norm": 0.025238711538063462, "learning_rate": 0.0001, "loss": 0.929, "step": 4624 }, { "epoch": 1.0466666666666666, "grad_norm": 0.023994586375122185, "learning_rate": 0.0001, "loss": 0.9658, "step": 4625 }, { "epoch": 1.04672, "grad_norm": 0.025132529345868574, "learning_rate": 0.0001, "loss": 1.0521, "step": 4626 }, { "epoch": 1.0467733333333333, "grad_norm": 0.02814688002081715, "learning_rate": 0.0001, "loss": 1.0082, "step": 4627 }, { "epoch": 1.0468266666666666, "grad_norm": 0.025783114961229977, "learning_rate": 0.0001, "loss": 0.96, "step": 4628 }, { "epoch": 1.04688, "grad_norm": 0.024277570726444632, "learning_rate": 0.0001, "loss": 1.0062, "step": 4629 }, { "epoch": 1.0469333333333333, "grad_norm": 0.025274461360368653, "learning_rate": 0.0001, "loss": 1.0391, "step": 4630 }, { "epoch": 1.0469866666666667, "grad_norm": 0.025831444594482784, "learning_rate": 0.0001, "loss": 0.9791, "step": 4631 }, { "epoch": 1.04704, "grad_norm": 0.02296292661328548, "learning_rate": 0.0001, "loss": 0.9443, "step": 4632 }, { "epoch": 1.0470933333333334, "grad_norm": 0.025490667533507563, "learning_rate": 0.0001, "loss": 0.9929, "step": 4633 }, { "epoch": 1.0471466666666667, "grad_norm": 0.0260676690272804, "learning_rate": 0.0001, "loss": 1.0362, "step": 4634 }, { "epoch": 1.0472, "grad_norm": 0.024536959760065764, "learning_rate": 0.0001, "loss": 1.0337, "step": 4635 }, { "epoch": 1.0472533333333334, "grad_norm": 0.025145931046813667, "learning_rate": 0.0001, "loss": 0.9553, "step": 4636 }, { "epoch": 1.0473066666666666, "grad_norm": 0.023973236751558248, "learning_rate": 0.0001, "loss": 0.9643, "step": 4637 }, { "epoch": 1.04736, "grad_norm": 0.024187041045529677, "learning_rate": 0.0001, "loss": 1.0101, "step": 4638 }, { "epoch": 1.0474133333333333, "grad_norm": 0.024299650222289183, "learning_rate": 0.0001, "loss": 0.9871, "step": 4639 }, { "epoch": 1.0474666666666668, "grad_norm": 0.024286477514761214, "learning_rate": 0.0001, "loss": 1.0207, "step": 4640 }, { "epoch": 1.04752, "grad_norm": 0.025598246557793202, "learning_rate": 0.0001, "loss": 1.0405, "step": 4641 }, { "epoch": 1.0475733333333332, "grad_norm": 0.023133879623416283, "learning_rate": 0.0001, "loss": 0.9798, "step": 4642 }, { "epoch": 1.0476266666666667, "grad_norm": 0.02413981692828351, "learning_rate": 0.0001, "loss": 0.9796, "step": 4643 }, { "epoch": 1.04768, "grad_norm": 0.02572896873505987, "learning_rate": 0.0001, "loss": 0.9712, "step": 4644 }, { "epoch": 1.0477333333333334, "grad_norm": 0.024957456118566177, "learning_rate": 0.0001, "loss": 1.019, "step": 4645 }, { "epoch": 1.0477866666666666, "grad_norm": 0.025207633268940863, "learning_rate": 0.0001, "loss": 0.995, "step": 4646 }, { "epoch": 1.04784, "grad_norm": 0.024105884566740066, "learning_rate": 0.0001, "loss": 1.0441, "step": 4647 }, { "epoch": 1.0478933333333333, "grad_norm": 0.025381432148465062, "learning_rate": 0.0001, "loss": 0.9978, "step": 4648 }, { "epoch": 1.0479466666666666, "grad_norm": 0.02397292227056436, "learning_rate": 0.0001, "loss": 0.9468, "step": 4649 }, { "epoch": 1.048, "grad_norm": 0.023355107756818844, "learning_rate": 0.0001, "loss": 0.947, "step": 4650 }, { "epoch": 1.0480533333333333, "grad_norm": 0.026222554466286043, "learning_rate": 0.0001, "loss": 0.9779, "step": 4651 }, { "epoch": 1.0481066666666667, "grad_norm": 0.0248556311050615, "learning_rate": 0.0001, "loss": 0.9649, "step": 4652 }, { "epoch": 1.04816, "grad_norm": 0.023490318614393917, "learning_rate": 0.0001, "loss": 0.9892, "step": 4653 }, { "epoch": 1.0482133333333334, "grad_norm": 0.02522146180436512, "learning_rate": 0.0001, "loss": 0.961, "step": 4654 }, { "epoch": 1.0482666666666667, "grad_norm": 0.02433549936339459, "learning_rate": 0.0001, "loss": 0.9601, "step": 4655 }, { "epoch": 1.04832, "grad_norm": 0.025871358118956547, "learning_rate": 0.0001, "loss": 0.9654, "step": 4656 }, { "epoch": 1.0483733333333334, "grad_norm": 0.02319385270310378, "learning_rate": 0.0001, "loss": 0.9695, "step": 4657 }, { "epoch": 1.0484266666666666, "grad_norm": 0.022662541681987895, "learning_rate": 0.0001, "loss": 0.9505, "step": 4658 }, { "epoch": 1.04848, "grad_norm": 0.02500208267473639, "learning_rate": 0.0001, "loss": 1.0026, "step": 4659 }, { "epoch": 1.0485333333333333, "grad_norm": 0.024200757010987672, "learning_rate": 0.0001, "loss": 0.9788, "step": 4660 }, { "epoch": 1.0485866666666666, "grad_norm": 0.024205550928579095, "learning_rate": 0.0001, "loss": 0.9688, "step": 4661 }, { "epoch": 1.04864, "grad_norm": 0.02327440739511144, "learning_rate": 0.0001, "loss": 0.9693, "step": 4662 }, { "epoch": 1.0486933333333333, "grad_norm": 0.02319673242128205, "learning_rate": 0.0001, "loss": 0.9382, "step": 4663 }, { "epoch": 1.0487466666666667, "grad_norm": 0.02373375386211413, "learning_rate": 0.0001, "loss": 0.9197, "step": 4664 }, { "epoch": 1.0488, "grad_norm": 0.02678946417643041, "learning_rate": 0.0001, "loss": 0.8902, "step": 4665 }, { "epoch": 1.0488533333333334, "grad_norm": 0.025263962682654947, "learning_rate": 0.0001, "loss": 0.9841, "step": 4666 }, { "epoch": 1.0489066666666667, "grad_norm": 0.023532354151708974, "learning_rate": 0.0001, "loss": 1.0057, "step": 4667 }, { "epoch": 1.04896, "grad_norm": 0.026543268363293453, "learning_rate": 0.0001, "loss": 1.0253, "step": 4668 }, { "epoch": 1.0490133333333334, "grad_norm": 0.02603136074760292, "learning_rate": 0.0001, "loss": 0.9611, "step": 4669 }, { "epoch": 1.0490666666666666, "grad_norm": 0.024071611336666136, "learning_rate": 0.0001, "loss": 0.9473, "step": 4670 }, { "epoch": 1.04912, "grad_norm": 0.027084858376106438, "learning_rate": 0.0001, "loss": 1.0006, "step": 4671 }, { "epoch": 1.0491733333333333, "grad_norm": 0.025885795029240845, "learning_rate": 0.0001, "loss": 0.9813, "step": 4672 }, { "epoch": 1.0492266666666668, "grad_norm": 0.024085732544912936, "learning_rate": 0.0001, "loss": 1.0286, "step": 4673 }, { "epoch": 1.04928, "grad_norm": 0.025594899978931697, "learning_rate": 0.0001, "loss": 0.9898, "step": 4674 }, { "epoch": 1.0493333333333332, "grad_norm": 0.02408576316934152, "learning_rate": 0.0001, "loss": 1.0126, "step": 4675 }, { "epoch": 1.0493866666666667, "grad_norm": 0.02596881503248052, "learning_rate": 0.0001, "loss": 0.954, "step": 4676 }, { "epoch": 1.04944, "grad_norm": 0.025064644553687326, "learning_rate": 0.0001, "loss": 0.9844, "step": 4677 }, { "epoch": 1.0494933333333334, "grad_norm": 0.02507645760973957, "learning_rate": 0.0001, "loss": 0.9488, "step": 4678 }, { "epoch": 1.0495466666666666, "grad_norm": 0.0254080290813533, "learning_rate": 0.0001, "loss": 1.0041, "step": 4679 }, { "epoch": 1.0496, "grad_norm": 0.02277140290581303, "learning_rate": 0.0001, "loss": 0.9628, "step": 4680 }, { "epoch": 1.0496533333333333, "grad_norm": 0.024275806955961814, "learning_rate": 0.0001, "loss": 1.0261, "step": 4681 }, { "epoch": 1.0497066666666666, "grad_norm": 0.024259506763314707, "learning_rate": 0.0001, "loss": 0.9878, "step": 4682 }, { "epoch": 1.04976, "grad_norm": 0.024525033795932776, "learning_rate": 0.0001, "loss": 1.005, "step": 4683 }, { "epoch": 1.0498133333333333, "grad_norm": 0.026077750309968745, "learning_rate": 0.0001, "loss": 0.9753, "step": 4684 }, { "epoch": 1.0498666666666667, "grad_norm": 0.025398725611135143, "learning_rate": 0.0001, "loss": 1.0313, "step": 4685 }, { "epoch": 1.04992, "grad_norm": 0.025389648060087967, "learning_rate": 0.0001, "loss": 0.9933, "step": 4686 }, { "epoch": 1.0499733333333334, "grad_norm": 0.02290345949458434, "learning_rate": 0.0001, "loss": 0.9861, "step": 4687 }, { "epoch": 1.0500266666666667, "grad_norm": 0.02369011771074451, "learning_rate": 0.0001, "loss": 0.9686, "step": 4688 }, { "epoch": 1.05008, "grad_norm": 0.023638552652013086, "learning_rate": 0.0001, "loss": 0.9806, "step": 4689 }, { "epoch": 1.0501333333333334, "grad_norm": 0.023098009057421084, "learning_rate": 0.0001, "loss": 0.9541, "step": 4690 }, { "epoch": 1.0501866666666666, "grad_norm": 0.02559601956104272, "learning_rate": 0.0001, "loss": 0.9571, "step": 4691 }, { "epoch": 1.05024, "grad_norm": 0.024011492091222237, "learning_rate": 0.0001, "loss": 0.9451, "step": 4692 }, { "epoch": 1.0502933333333333, "grad_norm": 0.02523173407832122, "learning_rate": 0.0001, "loss": 0.9862, "step": 4693 }, { "epoch": 1.0503466666666668, "grad_norm": 0.0235163667690614, "learning_rate": 0.0001, "loss": 0.9896, "step": 4694 }, { "epoch": 1.0504, "grad_norm": 0.023343424012841816, "learning_rate": 0.0001, "loss": 0.9626, "step": 4695 }, { "epoch": 1.0504533333333332, "grad_norm": 0.02426859596955542, "learning_rate": 0.0001, "loss": 1.005, "step": 4696 }, { "epoch": 1.0505066666666667, "grad_norm": 0.024317003004787233, "learning_rate": 0.0001, "loss": 0.9978, "step": 4697 }, { "epoch": 1.05056, "grad_norm": 0.024680464935016147, "learning_rate": 0.0001, "loss": 0.9945, "step": 4698 }, { "epoch": 1.0506133333333334, "grad_norm": 0.026992369703224658, "learning_rate": 0.0001, "loss": 0.9956, "step": 4699 }, { "epoch": 1.0506666666666666, "grad_norm": 0.02516290016408624, "learning_rate": 0.0001, "loss": 1.0217, "step": 4700 }, { "epoch": 1.05072, "grad_norm": 0.023937696104451178, "learning_rate": 0.0001, "loss": 1.0231, "step": 4701 }, { "epoch": 1.0507733333333333, "grad_norm": 0.024982838259031585, "learning_rate": 0.0001, "loss": 0.9758, "step": 4702 }, { "epoch": 1.0508266666666666, "grad_norm": 0.026087653021307864, "learning_rate": 0.0001, "loss": 0.9384, "step": 4703 }, { "epoch": 1.05088, "grad_norm": 0.023228986472867034, "learning_rate": 0.0001, "loss": 0.994, "step": 4704 }, { "epoch": 1.0509333333333333, "grad_norm": 0.023182605671037266, "learning_rate": 0.0001, "loss": 1.0111, "step": 4705 }, { "epoch": 1.0509866666666667, "grad_norm": 0.02400882366152043, "learning_rate": 0.0001, "loss": 1.0097, "step": 4706 }, { "epoch": 1.05104, "grad_norm": 0.025267314377974845, "learning_rate": 0.0001, "loss": 0.9376, "step": 4707 }, { "epoch": 1.0510933333333334, "grad_norm": 0.02529848855131258, "learning_rate": 0.0001, "loss": 0.9239, "step": 4708 }, { "epoch": 1.0511466666666667, "grad_norm": 0.024267247425655655, "learning_rate": 0.0001, "loss": 0.9893, "step": 4709 }, { "epoch": 1.0512, "grad_norm": 0.023757053037638715, "learning_rate": 0.0001, "loss": 0.995, "step": 4710 }, { "epoch": 1.0512533333333334, "grad_norm": 0.024442467712321312, "learning_rate": 0.0001, "loss": 0.9723, "step": 4711 }, { "epoch": 1.0513066666666666, "grad_norm": 0.026054048999075523, "learning_rate": 0.0001, "loss": 0.9937, "step": 4712 }, { "epoch": 1.05136, "grad_norm": 0.02508502672005415, "learning_rate": 0.0001, "loss": 0.9421, "step": 4713 }, { "epoch": 1.0514133333333333, "grad_norm": 0.025382109307611866, "learning_rate": 0.0001, "loss": 1.0169, "step": 4714 }, { "epoch": 1.0514666666666668, "grad_norm": 0.022946217889120168, "learning_rate": 0.0001, "loss": 0.9555, "step": 4715 }, { "epoch": 1.05152, "grad_norm": 0.023486731469221176, "learning_rate": 0.0001, "loss": 1.0328, "step": 4716 }, { "epoch": 1.0515733333333332, "grad_norm": 0.025396392421213762, "learning_rate": 0.0001, "loss": 0.9739, "step": 4717 }, { "epoch": 1.0516266666666667, "grad_norm": 0.024446079832931122, "learning_rate": 0.0001, "loss": 0.935, "step": 4718 }, { "epoch": 1.05168, "grad_norm": 0.02716059707943564, "learning_rate": 0.0001, "loss": 1.0063, "step": 4719 }, { "epoch": 1.0517333333333334, "grad_norm": 0.027149818245267753, "learning_rate": 0.0001, "loss": 1.0039, "step": 4720 }, { "epoch": 1.0517866666666666, "grad_norm": 0.025413537391659077, "learning_rate": 0.0001, "loss": 1.039, "step": 4721 }, { "epoch": 1.0518399999999999, "grad_norm": 0.027216648163904372, "learning_rate": 0.0001, "loss": 1.0221, "step": 4722 }, { "epoch": 1.0518933333333333, "grad_norm": 0.02833249830023696, "learning_rate": 0.0001, "loss": 1.0033, "step": 4723 }, { "epoch": 1.0519466666666666, "grad_norm": 0.02389817063370327, "learning_rate": 0.0001, "loss": 1.0407, "step": 4724 }, { "epoch": 1.052, "grad_norm": 0.024372944611794622, "learning_rate": 0.0001, "loss": 1.0353, "step": 4725 }, { "epoch": 1.0520533333333333, "grad_norm": 0.0253043480323509, "learning_rate": 0.0001, "loss": 0.9988, "step": 4726 }, { "epoch": 1.0521066666666667, "grad_norm": 0.023592638144693534, "learning_rate": 0.0001, "loss": 1.034, "step": 4727 }, { "epoch": 1.05216, "grad_norm": 0.023878842938323867, "learning_rate": 0.0001, "loss": 1.0289, "step": 4728 }, { "epoch": 1.0522133333333334, "grad_norm": 0.024694920064544688, "learning_rate": 0.0001, "loss": 0.9565, "step": 4729 }, { "epoch": 1.0522666666666667, "grad_norm": 0.027341694461267867, "learning_rate": 0.0001, "loss": 0.9972, "step": 4730 }, { "epoch": 1.05232, "grad_norm": 0.026233160776578213, "learning_rate": 0.0001, "loss": 0.9976, "step": 4731 }, { "epoch": 1.0523733333333334, "grad_norm": 0.024306517931620135, "learning_rate": 0.0001, "loss": 1.0249, "step": 4732 }, { "epoch": 1.0524266666666666, "grad_norm": 0.02577972786351958, "learning_rate": 0.0001, "loss": 1.0125, "step": 4733 }, { "epoch": 1.05248, "grad_norm": 0.023762408670285427, "learning_rate": 0.0001, "loss": 0.9586, "step": 4734 }, { "epoch": 1.0525333333333333, "grad_norm": 0.02529103549462369, "learning_rate": 0.0001, "loss": 0.979, "step": 4735 }, { "epoch": 1.0525866666666666, "grad_norm": 0.02725387408063873, "learning_rate": 0.0001, "loss": 0.9292, "step": 4736 }, { "epoch": 1.05264, "grad_norm": 0.02340262286115906, "learning_rate": 0.0001, "loss": 0.8964, "step": 4737 }, { "epoch": 1.0526933333333333, "grad_norm": 0.022991707239486365, "learning_rate": 0.0001, "loss": 0.9451, "step": 4738 }, { "epoch": 1.0527466666666667, "grad_norm": 0.024666889670957107, "learning_rate": 0.0001, "loss": 0.9747, "step": 4739 }, { "epoch": 1.0528, "grad_norm": 0.023947209915774117, "learning_rate": 0.0001, "loss": 0.97, "step": 4740 }, { "epoch": 1.0528533333333334, "grad_norm": 0.024420193387915047, "learning_rate": 0.0001, "loss": 0.9484, "step": 4741 }, { "epoch": 1.0529066666666667, "grad_norm": 0.023158872023968578, "learning_rate": 0.0001, "loss": 1.0038, "step": 4742 }, { "epoch": 1.05296, "grad_norm": 0.024223283784292046, "learning_rate": 0.0001, "loss": 0.9772, "step": 4743 }, { "epoch": 1.0530133333333334, "grad_norm": 0.02519617759953437, "learning_rate": 0.0001, "loss": 1.0017, "step": 4744 }, { "epoch": 1.0530666666666666, "grad_norm": 0.025201065908705, "learning_rate": 0.0001, "loss": 1.004, "step": 4745 }, { "epoch": 1.05312, "grad_norm": 0.02471435981365926, "learning_rate": 0.0001, "loss": 1.0028, "step": 4746 }, { "epoch": 1.0531733333333333, "grad_norm": 0.027279709989275435, "learning_rate": 0.0001, "loss": 0.9804, "step": 4747 }, { "epoch": 1.0532266666666668, "grad_norm": 0.024108083349785654, "learning_rate": 0.0001, "loss": 0.9004, "step": 4748 }, { "epoch": 1.05328, "grad_norm": 0.02436856759997679, "learning_rate": 0.0001, "loss": 0.9952, "step": 4749 }, { "epoch": 1.0533333333333332, "grad_norm": 0.02490613891748446, "learning_rate": 0.0001, "loss": 1.0035, "step": 4750 }, { "epoch": 1.0533866666666667, "grad_norm": 0.024140907362805872, "learning_rate": 0.0001, "loss": 0.9567, "step": 4751 }, { "epoch": 1.05344, "grad_norm": 0.02434468935990051, "learning_rate": 0.0001, "loss": 0.9804, "step": 4752 }, { "epoch": 1.0534933333333334, "grad_norm": 0.026002337935707626, "learning_rate": 0.0001, "loss": 0.9514, "step": 4753 }, { "epoch": 1.0535466666666666, "grad_norm": 0.025156107415004507, "learning_rate": 0.0001, "loss": 0.9399, "step": 4754 }, { "epoch": 1.0536, "grad_norm": 0.02179585925481409, "learning_rate": 0.0001, "loss": 0.9269, "step": 4755 }, { "epoch": 1.0536533333333333, "grad_norm": 0.024771262690299414, "learning_rate": 0.0001, "loss": 0.9818, "step": 4756 }, { "epoch": 1.0537066666666666, "grad_norm": 0.024628116186455766, "learning_rate": 0.0001, "loss": 0.9383, "step": 4757 }, { "epoch": 1.05376, "grad_norm": 0.02560727135015384, "learning_rate": 0.0001, "loss": 0.9327, "step": 4758 }, { "epoch": 1.0538133333333333, "grad_norm": 0.024911337559386595, "learning_rate": 0.0001, "loss": 0.9281, "step": 4759 }, { "epoch": 1.0538666666666667, "grad_norm": 0.028094881156318665, "learning_rate": 0.0001, "loss": 0.9301, "step": 4760 }, { "epoch": 1.05392, "grad_norm": 0.024795785855194263, "learning_rate": 0.0001, "loss": 0.9834, "step": 4761 }, { "epoch": 1.0539733333333334, "grad_norm": 0.02320074939936041, "learning_rate": 0.0001, "loss": 1.0221, "step": 4762 }, { "epoch": 1.0540266666666667, "grad_norm": 0.02352894049758101, "learning_rate": 0.0001, "loss": 0.9966, "step": 4763 }, { "epoch": 1.05408, "grad_norm": 0.025881731847319487, "learning_rate": 0.0001, "loss": 0.9605, "step": 4764 }, { "epoch": 1.0541333333333334, "grad_norm": 0.022759440813622824, "learning_rate": 0.0001, "loss": 0.9802, "step": 4765 }, { "epoch": 1.0541866666666666, "grad_norm": 0.023432384079890903, "learning_rate": 0.0001, "loss": 0.9627, "step": 4766 }, { "epoch": 1.05424, "grad_norm": 0.02313689827042643, "learning_rate": 0.0001, "loss": 0.9279, "step": 4767 }, { "epoch": 1.0542933333333333, "grad_norm": 0.022446592373461888, "learning_rate": 0.0001, "loss": 0.9903, "step": 4768 }, { "epoch": 1.0543466666666668, "grad_norm": 0.023104755797542786, "learning_rate": 0.0001, "loss": 0.9986, "step": 4769 }, { "epoch": 1.0544, "grad_norm": 0.02378986844940752, "learning_rate": 0.0001, "loss": 0.985, "step": 4770 }, { "epoch": 1.0544533333333332, "grad_norm": 0.024222456943824765, "learning_rate": 0.0001, "loss": 0.9327, "step": 4771 }, { "epoch": 1.0545066666666667, "grad_norm": 0.025904977880058407, "learning_rate": 0.0001, "loss": 1.0432, "step": 4772 }, { "epoch": 1.05456, "grad_norm": 0.02408214300909404, "learning_rate": 0.0001, "loss": 0.9646, "step": 4773 }, { "epoch": 1.0546133333333334, "grad_norm": 0.02480187495828394, "learning_rate": 0.0001, "loss": 1.0679, "step": 4774 }, { "epoch": 1.0546666666666666, "grad_norm": 0.024735254003180426, "learning_rate": 0.0001, "loss": 0.9557, "step": 4775 }, { "epoch": 1.05472, "grad_norm": 0.02628455547491412, "learning_rate": 0.0001, "loss": 0.9864, "step": 4776 }, { "epoch": 1.0547733333333333, "grad_norm": 0.023719166100101118, "learning_rate": 0.0001, "loss": 0.9274, "step": 4777 }, { "epoch": 1.0548266666666666, "grad_norm": 0.026068347263430817, "learning_rate": 0.0001, "loss": 1.0189, "step": 4778 }, { "epoch": 1.05488, "grad_norm": 0.02579521644370088, "learning_rate": 0.0001, "loss": 0.9386, "step": 4779 }, { "epoch": 1.0549333333333333, "grad_norm": 0.025474412382096582, "learning_rate": 0.0001, "loss": 1.0089, "step": 4780 }, { "epoch": 1.0549866666666667, "grad_norm": 0.026019660578897943, "learning_rate": 0.0001, "loss": 0.9998, "step": 4781 }, { "epoch": 1.05504, "grad_norm": 0.024253078162124058, "learning_rate": 0.0001, "loss": 0.9958, "step": 4782 }, { "epoch": 1.0550933333333334, "grad_norm": 0.02608414091952744, "learning_rate": 0.0001, "loss": 0.9768, "step": 4783 }, { "epoch": 1.0551466666666667, "grad_norm": 0.024128607616445977, "learning_rate": 0.0001, "loss": 0.9472, "step": 4784 }, { "epoch": 1.0552, "grad_norm": 0.026736727640886315, "learning_rate": 0.0001, "loss": 1.0129, "step": 4785 }, { "epoch": 1.0552533333333334, "grad_norm": 0.024704712425574135, "learning_rate": 0.0001, "loss": 0.9909, "step": 4786 }, { "epoch": 1.0553066666666666, "grad_norm": 0.02316080812099747, "learning_rate": 0.0001, "loss": 0.9353, "step": 4787 }, { "epoch": 1.05536, "grad_norm": 0.024115693255545072, "learning_rate": 0.0001, "loss": 0.9349, "step": 4788 }, { "epoch": 1.0554133333333333, "grad_norm": 0.024895573885009865, "learning_rate": 0.0001, "loss": 0.9796, "step": 4789 }, { "epoch": 1.0554666666666668, "grad_norm": 0.024334086925981057, "learning_rate": 0.0001, "loss": 0.9936, "step": 4790 }, { "epoch": 1.05552, "grad_norm": 0.024461719647723236, "learning_rate": 0.0001, "loss": 0.9568, "step": 4791 }, { "epoch": 1.0555733333333333, "grad_norm": 0.024733055083299288, "learning_rate": 0.0001, "loss": 1.0042, "step": 4792 }, { "epoch": 1.0556266666666667, "grad_norm": 0.02371365591847987, "learning_rate": 0.0001, "loss": 0.9632, "step": 4793 }, { "epoch": 1.05568, "grad_norm": 0.02599137009003277, "learning_rate": 0.0001, "loss": 0.9709, "step": 4794 }, { "epoch": 1.0557333333333334, "grad_norm": 0.02434039128505891, "learning_rate": 0.0001, "loss": 1.0578, "step": 4795 }, { "epoch": 1.0557866666666667, "grad_norm": 0.024058652897110778, "learning_rate": 0.0001, "loss": 0.9371, "step": 4796 }, { "epoch": 1.05584, "grad_norm": 0.023740247289025643, "learning_rate": 0.0001, "loss": 0.9558, "step": 4797 }, { "epoch": 1.0558933333333334, "grad_norm": 0.023374248607942266, "learning_rate": 0.0001, "loss": 0.9777, "step": 4798 }, { "epoch": 1.0559466666666666, "grad_norm": 0.025190827014508234, "learning_rate": 0.0001, "loss": 1.0437, "step": 4799 }, { "epoch": 1.056, "grad_norm": 0.023081424480643178, "learning_rate": 0.0001, "loss": 0.9754, "step": 4800 }, { "epoch": 1.056, "eval_accuracy": 0.6171024261147099, "eval_loss": 1.3713281154632568, "eval_runtime": 64.5575, "eval_samples_per_second": 15.49, "eval_steps_per_second": 0.496, "step": 4800 }, { "epoch": 1.0560533333333333, "grad_norm": 0.023322216528064883, "learning_rate": 0.0001, "loss": 0.9415, "step": 4801 }, { "epoch": 1.0561066666666667, "grad_norm": 0.023096628807284806, "learning_rate": 0.0001, "loss": 0.9613, "step": 4802 }, { "epoch": 1.05616, "grad_norm": 0.024258507624169125, "learning_rate": 0.0001, "loss": 0.9659, "step": 4803 }, { "epoch": 1.0562133333333332, "grad_norm": 0.028087819007638504, "learning_rate": 0.0001, "loss": 0.9511, "step": 4804 }, { "epoch": 1.0562666666666667, "grad_norm": 0.024364292126846918, "learning_rate": 0.0001, "loss": 0.9912, "step": 4805 }, { "epoch": 1.05632, "grad_norm": 0.02256315846002461, "learning_rate": 0.0001, "loss": 0.9765, "step": 4806 }, { "epoch": 1.0563733333333334, "grad_norm": 0.023708067032248616, "learning_rate": 0.0001, "loss": 0.9484, "step": 4807 }, { "epoch": 1.0564266666666666, "grad_norm": 0.02471435505817875, "learning_rate": 0.0001, "loss": 1.037, "step": 4808 }, { "epoch": 1.05648, "grad_norm": 0.02476729977262304, "learning_rate": 0.0001, "loss": 0.9782, "step": 4809 }, { "epoch": 1.0565333333333333, "grad_norm": 0.024448242090966372, "learning_rate": 0.0001, "loss": 0.9848, "step": 4810 }, { "epoch": 1.0565866666666666, "grad_norm": 0.02449768685429772, "learning_rate": 0.0001, "loss": 0.9646, "step": 4811 }, { "epoch": 1.05664, "grad_norm": 0.02388847676439954, "learning_rate": 0.0001, "loss": 0.9904, "step": 4812 }, { "epoch": 1.0566933333333333, "grad_norm": 0.023559809516769666, "learning_rate": 0.0001, "loss": 0.9843, "step": 4813 }, { "epoch": 1.0567466666666667, "grad_norm": 0.02637612235999192, "learning_rate": 0.0001, "loss": 0.9501, "step": 4814 }, { "epoch": 1.0568, "grad_norm": 0.026604935398791694, "learning_rate": 0.0001, "loss": 0.96, "step": 4815 }, { "epoch": 1.0568533333333334, "grad_norm": 0.02384979265549891, "learning_rate": 0.0001, "loss": 0.9256, "step": 4816 }, { "epoch": 1.0569066666666667, "grad_norm": 0.024954184555619614, "learning_rate": 0.0001, "loss": 0.987, "step": 4817 }, { "epoch": 1.05696, "grad_norm": 0.026899817864369895, "learning_rate": 0.0001, "loss": 0.9447, "step": 4818 }, { "epoch": 1.0570133333333334, "grad_norm": 0.02387329312162129, "learning_rate": 0.0001, "loss": 1.0189, "step": 4819 }, { "epoch": 1.0570666666666666, "grad_norm": 0.02549431768714692, "learning_rate": 0.0001, "loss": 1.0217, "step": 4820 }, { "epoch": 1.05712, "grad_norm": 0.027426446508603056, "learning_rate": 0.0001, "loss": 1.0283, "step": 4821 }, { "epoch": 1.0571733333333333, "grad_norm": 0.025360945825883205, "learning_rate": 0.0001, "loss": 1.0046, "step": 4822 }, { "epoch": 1.0572266666666668, "grad_norm": 0.024402105369133176, "learning_rate": 0.0001, "loss": 0.9697, "step": 4823 }, { "epoch": 1.05728, "grad_norm": 0.024295101142680266, "learning_rate": 0.0001, "loss": 0.971, "step": 4824 }, { "epoch": 1.0573333333333332, "grad_norm": 0.027475066064221655, "learning_rate": 0.0001, "loss": 1.009, "step": 4825 }, { "epoch": 1.0573866666666667, "grad_norm": 0.024506462904969974, "learning_rate": 0.0001, "loss": 0.9589, "step": 4826 }, { "epoch": 1.05744, "grad_norm": 0.024944294963161272, "learning_rate": 0.0001, "loss": 1.0103, "step": 4827 }, { "epoch": 1.0574933333333334, "grad_norm": 0.025003044416486618, "learning_rate": 0.0001, "loss": 0.9548, "step": 4828 }, { "epoch": 1.0575466666666666, "grad_norm": 0.02451964226483687, "learning_rate": 0.0001, "loss": 0.9565, "step": 4829 }, { "epoch": 1.0576, "grad_norm": 0.022437014707646755, "learning_rate": 0.0001, "loss": 1.0183, "step": 4830 }, { "epoch": 1.0576533333333333, "grad_norm": 0.02380045730611252, "learning_rate": 0.0001, "loss": 1.0125, "step": 4831 }, { "epoch": 1.0577066666666666, "grad_norm": 0.025075358434762773, "learning_rate": 0.0001, "loss": 1.0031, "step": 4832 }, { "epoch": 1.05776, "grad_norm": 0.02408275305104693, "learning_rate": 0.0001, "loss": 1.0236, "step": 4833 }, { "epoch": 1.0578133333333333, "grad_norm": 0.026149209632931034, "learning_rate": 0.0001, "loss": 1.0068, "step": 4834 }, { "epoch": 1.0578666666666667, "grad_norm": 0.025185366483144223, "learning_rate": 0.0001, "loss": 0.9794, "step": 4835 }, { "epoch": 1.05792, "grad_norm": 0.026692362419287952, "learning_rate": 0.0001, "loss": 0.9491, "step": 4836 }, { "epoch": 1.0579733333333334, "grad_norm": 0.024542426382422988, "learning_rate": 0.0001, "loss": 1.0046, "step": 4837 }, { "epoch": 1.0580266666666667, "grad_norm": 0.02297299831351754, "learning_rate": 0.0001, "loss": 0.9619, "step": 4838 }, { "epoch": 1.05808, "grad_norm": 0.024590822611738384, "learning_rate": 0.0001, "loss": 0.9738, "step": 4839 }, { "epoch": 1.0581333333333334, "grad_norm": 0.02453145346777236, "learning_rate": 0.0001, "loss": 1.0067, "step": 4840 }, { "epoch": 1.0581866666666666, "grad_norm": 0.023523175453830564, "learning_rate": 0.0001, "loss": 1.0213, "step": 4841 }, { "epoch": 1.05824, "grad_norm": 0.023688288972101512, "learning_rate": 0.0001, "loss": 1.0169, "step": 4842 }, { "epoch": 1.0582933333333333, "grad_norm": 0.027060455651438876, "learning_rate": 0.0001, "loss": 0.9102, "step": 4843 }, { "epoch": 1.0583466666666668, "grad_norm": 0.022292629470320804, "learning_rate": 0.0001, "loss": 1.0172, "step": 4844 }, { "epoch": 1.0584, "grad_norm": 0.025829694033084903, "learning_rate": 0.0001, "loss": 1.0635, "step": 4845 }, { "epoch": 1.0584533333333332, "grad_norm": 0.023220213440288063, "learning_rate": 0.0001, "loss": 1.0329, "step": 4846 }, { "epoch": 1.0585066666666667, "grad_norm": 0.02461362095381411, "learning_rate": 0.0001, "loss": 1.006, "step": 4847 }, { "epoch": 1.05856, "grad_norm": 0.02571957726095546, "learning_rate": 0.0001, "loss": 0.9644, "step": 4848 }, { "epoch": 1.0586133333333334, "grad_norm": 0.024856333672900268, "learning_rate": 0.0001, "loss": 0.9758, "step": 4849 }, { "epoch": 1.0586666666666666, "grad_norm": 0.024641360270983466, "learning_rate": 0.0001, "loss": 0.9565, "step": 4850 }, { "epoch": 1.05872, "grad_norm": 0.026397352525121848, "learning_rate": 0.0001, "loss": 0.9726, "step": 4851 }, { "epoch": 1.0587733333333333, "grad_norm": 0.023799455860489052, "learning_rate": 0.0001, "loss": 1.0083, "step": 4852 }, { "epoch": 1.0588266666666666, "grad_norm": 0.026006505830811207, "learning_rate": 0.0001, "loss": 1.0099, "step": 4853 }, { "epoch": 1.05888, "grad_norm": 0.027630058934772897, "learning_rate": 0.0001, "loss": 0.9818, "step": 4854 }, { "epoch": 1.0589333333333333, "grad_norm": 0.024302949787246682, "learning_rate": 0.0001, "loss": 0.9659, "step": 4855 }, { "epoch": 1.0589866666666667, "grad_norm": 0.02886113305459238, "learning_rate": 0.0001, "loss": 1.0538, "step": 4856 }, { "epoch": 1.05904, "grad_norm": 0.024739117621421662, "learning_rate": 0.0001, "loss": 0.9424, "step": 4857 }, { "epoch": 1.0590933333333332, "grad_norm": 0.024786649331808838, "learning_rate": 0.0001, "loss": 0.9903, "step": 4858 }, { "epoch": 1.0591466666666667, "grad_norm": 0.026519273321292103, "learning_rate": 0.0001, "loss": 1.0053, "step": 4859 }, { "epoch": 1.0592, "grad_norm": 0.02433566314560404, "learning_rate": 0.0001, "loss": 1.0088, "step": 4860 }, { "epoch": 1.0592533333333334, "grad_norm": 0.02529225513782885, "learning_rate": 0.0001, "loss": 1.013, "step": 4861 }, { "epoch": 1.0593066666666666, "grad_norm": 0.02456726977357249, "learning_rate": 0.0001, "loss": 1.0084, "step": 4862 }, { "epoch": 1.05936, "grad_norm": 0.024221570703024737, "learning_rate": 0.0001, "loss": 0.9564, "step": 4863 }, { "epoch": 1.0594133333333333, "grad_norm": 0.026287656503495183, "learning_rate": 0.0001, "loss": 1.0008, "step": 4864 }, { "epoch": 1.0594666666666668, "grad_norm": 0.025845055938059882, "learning_rate": 0.0001, "loss": 0.9745, "step": 4865 }, { "epoch": 1.05952, "grad_norm": 0.025759720436286906, "learning_rate": 0.0001, "loss": 1.0518, "step": 4866 }, { "epoch": 1.0595733333333333, "grad_norm": 0.02528548313242583, "learning_rate": 0.0001, "loss": 0.9737, "step": 4867 }, { "epoch": 1.0596266666666667, "grad_norm": 0.02361053137140842, "learning_rate": 0.0001, "loss": 1.0051, "step": 4868 }, { "epoch": 1.05968, "grad_norm": 0.023609214144915163, "learning_rate": 0.0001, "loss": 0.9782, "step": 4869 }, { "epoch": 1.0597333333333334, "grad_norm": 0.025088717056987165, "learning_rate": 0.0001, "loss": 0.9854, "step": 4870 }, { "epoch": 1.0597866666666667, "grad_norm": 0.024316097788486354, "learning_rate": 0.0001, "loss": 0.9979, "step": 4871 }, { "epoch": 1.05984, "grad_norm": 0.024775844242899723, "learning_rate": 0.0001, "loss": 0.9654, "step": 4872 }, { "epoch": 1.0598933333333334, "grad_norm": 0.024866966932400567, "learning_rate": 0.0001, "loss": 0.9952, "step": 4873 }, { "epoch": 1.0599466666666666, "grad_norm": 0.022340051009721362, "learning_rate": 0.0001, "loss": 0.9131, "step": 4874 }, { "epoch": 1.06, "grad_norm": 0.02431910272050786, "learning_rate": 0.0001, "loss": 0.9861, "step": 4875 }, { "epoch": 1.0600533333333333, "grad_norm": 0.024116739686111045, "learning_rate": 0.0001, "loss": 0.9418, "step": 4876 }, { "epoch": 1.0601066666666668, "grad_norm": 0.0241387444331789, "learning_rate": 0.0001, "loss": 0.9682, "step": 4877 }, { "epoch": 1.06016, "grad_norm": 0.0272632744755394, "learning_rate": 0.0001, "loss": 1.0036, "step": 4878 }, { "epoch": 1.0602133333333332, "grad_norm": 0.025285167694382635, "learning_rate": 0.0001, "loss": 0.9862, "step": 4879 }, { "epoch": 1.0602666666666667, "grad_norm": 0.023172812901668463, "learning_rate": 0.0001, "loss": 0.9546, "step": 4880 }, { "epoch": 1.06032, "grad_norm": 0.023441446702821736, "learning_rate": 0.0001, "loss": 0.9458, "step": 4881 }, { "epoch": 1.0603733333333334, "grad_norm": 0.02377476060832486, "learning_rate": 0.0001, "loss": 0.9605, "step": 4882 }, { "epoch": 1.0604266666666666, "grad_norm": 0.02398777650842502, "learning_rate": 0.0001, "loss": 1.0096, "step": 4883 }, { "epoch": 1.06048, "grad_norm": 0.02435992436985233, "learning_rate": 0.0001, "loss": 1.0214, "step": 4884 }, { "epoch": 1.0605333333333333, "grad_norm": 0.025434486946092863, "learning_rate": 0.0001, "loss": 0.9662, "step": 4885 }, { "epoch": 1.0605866666666666, "grad_norm": 0.023524741258548167, "learning_rate": 0.0001, "loss": 0.9369, "step": 4886 }, { "epoch": 1.06064, "grad_norm": 0.025629724874482857, "learning_rate": 0.0001, "loss": 1.0318, "step": 4887 }, { "epoch": 1.0606933333333333, "grad_norm": 0.026324933275282753, "learning_rate": 0.0001, "loss": 0.9629, "step": 4888 }, { "epoch": 1.0607466666666667, "grad_norm": 0.023727669739780903, "learning_rate": 0.0001, "loss": 0.924, "step": 4889 }, { "epoch": 1.0608, "grad_norm": 0.025823668995257346, "learning_rate": 0.0001, "loss": 0.977, "step": 4890 }, { "epoch": 1.0608533333333334, "grad_norm": 0.024315524233024192, "learning_rate": 0.0001, "loss": 1.0127, "step": 4891 }, { "epoch": 1.0609066666666667, "grad_norm": 0.023681265915974154, "learning_rate": 0.0001, "loss": 0.9678, "step": 4892 }, { "epoch": 1.06096, "grad_norm": 0.02395513523296695, "learning_rate": 0.0001, "loss": 1.0521, "step": 4893 }, { "epoch": 1.0610133333333334, "grad_norm": 0.026609505761921576, "learning_rate": 0.0001, "loss": 0.9529, "step": 4894 }, { "epoch": 1.0610666666666666, "grad_norm": 0.025593379861156278, "learning_rate": 0.0001, "loss": 0.9825, "step": 4895 }, { "epoch": 1.06112, "grad_norm": 0.02293802855032892, "learning_rate": 0.0001, "loss": 0.9584, "step": 4896 }, { "epoch": 1.0611733333333333, "grad_norm": 0.026395495192433234, "learning_rate": 0.0001, "loss": 0.9895, "step": 4897 }, { "epoch": 1.0612266666666668, "grad_norm": 0.024151411141585685, "learning_rate": 0.0001, "loss": 0.985, "step": 4898 }, { "epoch": 1.06128, "grad_norm": 0.023557733809898843, "learning_rate": 0.0001, "loss": 0.9969, "step": 4899 }, { "epoch": 1.0613333333333332, "grad_norm": 0.024788424307143345, "learning_rate": 0.0001, "loss": 0.9602, "step": 4900 }, { "epoch": 1.0613866666666667, "grad_norm": 0.024912436778859903, "learning_rate": 0.0001, "loss": 0.9223, "step": 4901 }, { "epoch": 1.06144, "grad_norm": 0.024301249607613346, "learning_rate": 0.0001, "loss": 1.0137, "step": 4902 }, { "epoch": 1.0614933333333334, "grad_norm": 0.025093007630074993, "learning_rate": 0.0001, "loss": 0.973, "step": 4903 }, { "epoch": 1.0615466666666666, "grad_norm": 0.025162600978942143, "learning_rate": 0.0001, "loss": 0.9114, "step": 4904 }, { "epoch": 1.0616, "grad_norm": 0.023565732755104332, "learning_rate": 0.0001, "loss": 1.0568, "step": 4905 }, { "epoch": 1.0616533333333333, "grad_norm": 0.02629155531056865, "learning_rate": 0.0001, "loss": 1.0003, "step": 4906 }, { "epoch": 1.0617066666666666, "grad_norm": 0.026416817578818454, "learning_rate": 0.0001, "loss": 0.9425, "step": 4907 }, { "epoch": 1.06176, "grad_norm": 0.02485082500545637, "learning_rate": 0.0001, "loss": 1.0559, "step": 4908 }, { "epoch": 1.0618133333333333, "grad_norm": 0.023385883006909542, "learning_rate": 0.0001, "loss": 0.9894, "step": 4909 }, { "epoch": 1.0618666666666667, "grad_norm": 0.028435834802562662, "learning_rate": 0.0001, "loss": 0.9344, "step": 4910 }, { "epoch": 1.06192, "grad_norm": 0.027999032214105556, "learning_rate": 0.0001, "loss": 0.9215, "step": 4911 }, { "epoch": 1.0619733333333334, "grad_norm": 0.02524357525778297, "learning_rate": 0.0001, "loss": 0.959, "step": 4912 }, { "epoch": 1.0620266666666667, "grad_norm": 0.024253138779957502, "learning_rate": 0.0001, "loss": 1.0146, "step": 4913 }, { "epoch": 1.06208, "grad_norm": 0.024203002389454942, "learning_rate": 0.0001, "loss": 0.9935, "step": 4914 }, { "epoch": 1.0621333333333334, "grad_norm": 0.02567873860119543, "learning_rate": 0.0001, "loss": 1.0, "step": 4915 }, { "epoch": 1.0621866666666666, "grad_norm": 0.023973602776107668, "learning_rate": 0.0001, "loss": 0.9137, "step": 4916 }, { "epoch": 1.06224, "grad_norm": 0.02258456572646268, "learning_rate": 0.0001, "loss": 0.9377, "step": 4917 }, { "epoch": 1.0622933333333333, "grad_norm": 0.025974974416277937, "learning_rate": 0.0001, "loss": 1.0243, "step": 4918 }, { "epoch": 1.0623466666666668, "grad_norm": 0.023706106701702746, "learning_rate": 0.0001, "loss": 0.9522, "step": 4919 }, { "epoch": 1.0624, "grad_norm": 0.024497551276681347, "learning_rate": 0.0001, "loss": 0.9652, "step": 4920 }, { "epoch": 1.0624533333333332, "grad_norm": 0.026565854822965616, "learning_rate": 0.0001, "loss": 1.0119, "step": 4921 }, { "epoch": 1.0625066666666667, "grad_norm": 0.027014357062587122, "learning_rate": 0.0001, "loss": 0.9439, "step": 4922 }, { "epoch": 1.06256, "grad_norm": 0.025551961549326405, "learning_rate": 0.0001, "loss": 1.0008, "step": 4923 }, { "epoch": 1.0626133333333334, "grad_norm": 0.025665624399778597, "learning_rate": 0.0001, "loss": 0.9598, "step": 4924 }, { "epoch": 1.0626666666666666, "grad_norm": 0.027554264340031696, "learning_rate": 0.0001, "loss": 1.022, "step": 4925 }, { "epoch": 1.06272, "grad_norm": 0.02495800544077591, "learning_rate": 0.0001, "loss": 0.9719, "step": 4926 }, { "epoch": 1.0627733333333333, "grad_norm": 0.026612767614388435, "learning_rate": 0.0001, "loss": 0.9747, "step": 4927 }, { "epoch": 1.0628266666666666, "grad_norm": 0.025406320561819924, "learning_rate": 0.0001, "loss": 1.0033, "step": 4928 }, { "epoch": 1.06288, "grad_norm": 0.02490970648623684, "learning_rate": 0.0001, "loss": 1.0551, "step": 4929 }, { "epoch": 1.0629333333333333, "grad_norm": 0.02499532410747443, "learning_rate": 0.0001, "loss": 0.8976, "step": 4930 }, { "epoch": 1.0629866666666667, "grad_norm": 0.024169882119613583, "learning_rate": 0.0001, "loss": 0.994, "step": 4931 }, { "epoch": 1.06304, "grad_norm": 0.024317324092847915, "learning_rate": 0.0001, "loss": 1.0395, "step": 4932 }, { "epoch": 1.0630933333333332, "grad_norm": 0.026744216584729898, "learning_rate": 0.0001, "loss": 0.9717, "step": 4933 }, { "epoch": 1.0631466666666667, "grad_norm": 0.02526976710858577, "learning_rate": 0.0001, "loss": 1.0209, "step": 4934 }, { "epoch": 1.0632, "grad_norm": 0.02508923245987011, "learning_rate": 0.0001, "loss": 0.9959, "step": 4935 }, { "epoch": 1.0632533333333334, "grad_norm": 0.025891348783683793, "learning_rate": 0.0001, "loss": 0.954, "step": 4936 }, { "epoch": 1.0633066666666666, "grad_norm": 0.024450198843941787, "learning_rate": 0.0001, "loss": 1.0075, "step": 4937 }, { "epoch": 1.06336, "grad_norm": 0.025536214191772377, "learning_rate": 0.0001, "loss": 0.9787, "step": 4938 }, { "epoch": 1.0634133333333333, "grad_norm": 0.02366946640379891, "learning_rate": 0.0001, "loss": 1.0276, "step": 4939 }, { "epoch": 1.0634666666666668, "grad_norm": 0.024249650882895435, "learning_rate": 0.0001, "loss": 0.9457, "step": 4940 }, { "epoch": 1.06352, "grad_norm": 0.02530423124793702, "learning_rate": 0.0001, "loss": 0.9196, "step": 4941 }, { "epoch": 1.0635733333333333, "grad_norm": 0.023224169647311797, "learning_rate": 0.0001, "loss": 0.9409, "step": 4942 }, { "epoch": 1.0636266666666667, "grad_norm": 0.02432764724233768, "learning_rate": 0.0001, "loss": 0.9818, "step": 4943 }, { "epoch": 1.06368, "grad_norm": 0.02320625956122515, "learning_rate": 0.0001, "loss": 0.9972, "step": 4944 }, { "epoch": 1.0637333333333334, "grad_norm": 0.023898405177441347, "learning_rate": 0.0001, "loss": 1.012, "step": 4945 }, { "epoch": 1.0637866666666667, "grad_norm": 0.026174010764214658, "learning_rate": 0.0001, "loss": 0.97, "step": 4946 }, { "epoch": 1.06384, "grad_norm": 0.023558789992175467, "learning_rate": 0.0001, "loss": 1.0144, "step": 4947 }, { "epoch": 1.0638933333333334, "grad_norm": 0.022820890455347267, "learning_rate": 0.0001, "loss": 0.9573, "step": 4948 }, { "epoch": 1.0639466666666666, "grad_norm": 0.02459990644653518, "learning_rate": 0.0001, "loss": 0.9941, "step": 4949 }, { "epoch": 1.064, "grad_norm": 0.024222548157968257, "learning_rate": 0.0001, "loss": 0.9078, "step": 4950 }, { "epoch": 1.0640533333333333, "grad_norm": 0.02587816695398911, "learning_rate": 0.0001, "loss": 1.0587, "step": 4951 }, { "epoch": 1.0641066666666668, "grad_norm": 0.023801745207696536, "learning_rate": 0.0001, "loss": 0.9919, "step": 4952 }, { "epoch": 1.06416, "grad_norm": 0.024163685529324238, "learning_rate": 0.0001, "loss": 0.9625, "step": 4953 }, { "epoch": 1.0642133333333332, "grad_norm": 0.02627948502507773, "learning_rate": 0.0001, "loss": 0.9567, "step": 4954 }, { "epoch": 1.0642666666666667, "grad_norm": 0.02341403352604857, "learning_rate": 0.0001, "loss": 1.0287, "step": 4955 }, { "epoch": 1.06432, "grad_norm": 0.02498886729203632, "learning_rate": 0.0001, "loss": 1.005, "step": 4956 }, { "epoch": 1.0643733333333334, "grad_norm": 0.0229592266709311, "learning_rate": 0.0001, "loss": 1.0113, "step": 4957 }, { "epoch": 1.0644266666666666, "grad_norm": 0.025778393848696526, "learning_rate": 0.0001, "loss": 0.9532, "step": 4958 }, { "epoch": 1.06448, "grad_norm": 0.025155011833324824, "learning_rate": 0.0001, "loss": 0.9826, "step": 4959 }, { "epoch": 1.0645333333333333, "grad_norm": 0.023964406183575912, "learning_rate": 0.0001, "loss": 1.0157, "step": 4960 }, { "epoch": 1.0645866666666666, "grad_norm": 0.023470847196283926, "learning_rate": 0.0001, "loss": 1.0128, "step": 4961 }, { "epoch": 1.06464, "grad_norm": 0.025896537387763405, "learning_rate": 0.0001, "loss": 0.9608, "step": 4962 }, { "epoch": 1.0646933333333333, "grad_norm": 0.023670942656937585, "learning_rate": 0.0001, "loss": 0.9964, "step": 4963 }, { "epoch": 1.0647466666666667, "grad_norm": 0.025915716975172743, "learning_rate": 0.0001, "loss": 1.0223, "step": 4964 }, { "epoch": 1.0648, "grad_norm": 0.024479052534995948, "learning_rate": 0.0001, "loss": 0.9991, "step": 4965 }, { "epoch": 1.0648533333333334, "grad_norm": 0.02426584756995937, "learning_rate": 0.0001, "loss": 0.9751, "step": 4966 }, { "epoch": 1.0649066666666667, "grad_norm": 0.024231957336875665, "learning_rate": 0.0001, "loss": 1.0123, "step": 4967 }, { "epoch": 1.06496, "grad_norm": 0.023907785051514877, "learning_rate": 0.0001, "loss": 0.9801, "step": 4968 }, { "epoch": 1.0650133333333334, "grad_norm": 0.02365605577876775, "learning_rate": 0.0001, "loss": 0.9724, "step": 4969 }, { "epoch": 1.0650666666666666, "grad_norm": 0.024422553011828534, "learning_rate": 0.0001, "loss": 0.9064, "step": 4970 }, { "epoch": 1.06512, "grad_norm": 0.022969979024948742, "learning_rate": 0.0001, "loss": 0.958, "step": 4971 }, { "epoch": 1.0651733333333333, "grad_norm": 0.023512021918822353, "learning_rate": 0.0001, "loss": 1.0095, "step": 4972 }, { "epoch": 1.0652266666666668, "grad_norm": 0.026304975935646707, "learning_rate": 0.0001, "loss": 0.9376, "step": 4973 }, { "epoch": 1.06528, "grad_norm": 0.023663391308155212, "learning_rate": 0.0001, "loss": 1.0225, "step": 4974 }, { "epoch": 1.0653333333333332, "grad_norm": 0.02383971510124353, "learning_rate": 0.0001, "loss": 0.9794, "step": 4975 }, { "epoch": 1.0653866666666667, "grad_norm": 0.023754695781516198, "learning_rate": 0.0001, "loss": 0.9777, "step": 4976 }, { "epoch": 1.06544, "grad_norm": 0.024333861244464506, "learning_rate": 0.0001, "loss": 0.9608, "step": 4977 }, { "epoch": 1.0654933333333334, "grad_norm": 0.022386352901346874, "learning_rate": 0.0001, "loss": 0.9825, "step": 4978 }, { "epoch": 1.0655466666666666, "grad_norm": 0.024432841057907096, "learning_rate": 0.0001, "loss": 0.9283, "step": 4979 }, { "epoch": 1.0656, "grad_norm": 0.02469519293142336, "learning_rate": 0.0001, "loss": 1.0129, "step": 4980 }, { "epoch": 1.0656533333333333, "grad_norm": 0.02472139092637579, "learning_rate": 0.0001, "loss": 0.9659, "step": 4981 }, { "epoch": 1.0657066666666666, "grad_norm": 0.024388919236091215, "learning_rate": 0.0001, "loss": 0.9771, "step": 4982 }, { "epoch": 1.06576, "grad_norm": 0.024230253278977026, "learning_rate": 0.0001, "loss": 0.9518, "step": 4983 }, { "epoch": 1.0658133333333333, "grad_norm": 0.024131849353244653, "learning_rate": 0.0001, "loss": 0.9289, "step": 4984 }, { "epoch": 1.0658666666666667, "grad_norm": 0.024290936060733348, "learning_rate": 0.0001, "loss": 0.9991, "step": 4985 }, { "epoch": 1.06592, "grad_norm": 0.024774425400492982, "learning_rate": 0.0001, "loss": 0.9781, "step": 4986 }, { "epoch": 1.0659733333333334, "grad_norm": 0.02486397899608597, "learning_rate": 0.0001, "loss": 0.9407, "step": 4987 }, { "epoch": 1.0660266666666667, "grad_norm": 0.02453523678536611, "learning_rate": 0.0001, "loss": 0.928, "step": 4988 }, { "epoch": 1.06608, "grad_norm": 0.024684907289975803, "learning_rate": 0.0001, "loss": 0.9251, "step": 4989 }, { "epoch": 1.0661333333333334, "grad_norm": 0.02506384457196088, "learning_rate": 0.0001, "loss": 0.9934, "step": 4990 }, { "epoch": 1.0661866666666666, "grad_norm": 0.02443688554942519, "learning_rate": 0.0001, "loss": 1.0213, "step": 4991 }, { "epoch": 1.06624, "grad_norm": 0.026378441849092583, "learning_rate": 0.0001, "loss": 0.9591, "step": 4992 }, { "epoch": 1.0662933333333333, "grad_norm": 0.023824602435596344, "learning_rate": 0.0001, "loss": 0.941, "step": 4993 }, { "epoch": 1.0663466666666666, "grad_norm": 0.025113579038084515, "learning_rate": 0.0001, "loss": 0.9747, "step": 4994 }, { "epoch": 1.0664, "grad_norm": 0.022069639486699228, "learning_rate": 0.0001, "loss": 0.916, "step": 4995 }, { "epoch": 1.0664533333333333, "grad_norm": 0.022786410481247712, "learning_rate": 0.0001, "loss": 1.0056, "step": 4996 }, { "epoch": 1.0665066666666667, "grad_norm": 0.02548335099060747, "learning_rate": 0.0001, "loss": 0.9885, "step": 4997 }, { "epoch": 1.06656, "grad_norm": 0.025615618066242782, "learning_rate": 0.0001, "loss": 0.9843, "step": 4998 }, { "epoch": 1.0666133333333334, "grad_norm": 0.026611441201843694, "learning_rate": 0.0001, "loss": 0.9607, "step": 4999 }, { "epoch": 1.0666666666666667, "grad_norm": 0.02498684751773921, "learning_rate": 0.0001, "loss": 1.0056, "step": 5000 }, { "epoch": 1.0666666666666667, "eval_accuracy": 0.6173338874397583, "eval_loss": 1.3700244426727295, "eval_runtime": 62.9381, "eval_samples_per_second": 15.889, "eval_steps_per_second": 0.508, "step": 5000 }, { "epoch": 1.0667200000000001, "grad_norm": 0.02522098941060652, "learning_rate": 0.0001, "loss": 0.9786, "step": 5001 }, { "epoch": 1.0667733333333334, "grad_norm": 0.023911640561917785, "learning_rate": 0.0001, "loss": 0.9524, "step": 5002 }, { "epoch": 1.0668266666666666, "grad_norm": 0.026182150095438565, "learning_rate": 0.0001, "loss": 0.9755, "step": 5003 }, { "epoch": 1.06688, "grad_norm": 0.02339705160688133, "learning_rate": 0.0001, "loss": 0.9875, "step": 5004 }, { "epoch": 1.0669333333333333, "grad_norm": 0.02382117479926949, "learning_rate": 0.0001, "loss": 0.9231, "step": 5005 }, { "epoch": 1.0669866666666667, "grad_norm": 0.023925780584000047, "learning_rate": 0.0001, "loss": 0.9135, "step": 5006 }, { "epoch": 1.06704, "grad_norm": 0.025196658169472516, "learning_rate": 0.0001, "loss": 1.031, "step": 5007 }, { "epoch": 1.0670933333333332, "grad_norm": 0.024513625807846776, "learning_rate": 0.0001, "loss": 1.041, "step": 5008 }, { "epoch": 1.0671466666666667, "grad_norm": 0.025392193281285273, "learning_rate": 0.0001, "loss": 1.07, "step": 5009 }, { "epoch": 1.0672, "grad_norm": 0.027119410674597236, "learning_rate": 0.0001, "loss": 0.953, "step": 5010 }, { "epoch": 1.0672533333333334, "grad_norm": 0.022223968456681408, "learning_rate": 0.0001, "loss": 0.926, "step": 5011 }, { "epoch": 1.0673066666666666, "grad_norm": 0.027022613875798466, "learning_rate": 0.0001, "loss": 1.0241, "step": 5012 }, { "epoch": 1.06736, "grad_norm": 0.027070180731100842, "learning_rate": 0.0001, "loss": 0.9607, "step": 5013 }, { "epoch": 1.0674133333333333, "grad_norm": 0.025031381245217373, "learning_rate": 0.0001, "loss": 0.9665, "step": 5014 }, { "epoch": 1.0674666666666666, "grad_norm": 0.024121113918589693, "learning_rate": 0.0001, "loss": 0.9416, "step": 5015 }, { "epoch": 1.06752, "grad_norm": 0.027520967700755683, "learning_rate": 0.0001, "loss": 0.9399, "step": 5016 }, { "epoch": 1.0675733333333333, "grad_norm": 0.024622127515350357, "learning_rate": 0.0001, "loss": 1.0561, "step": 5017 }, { "epoch": 1.0676266666666667, "grad_norm": 0.024461492988449452, "learning_rate": 0.0001, "loss": 0.927, "step": 5018 }, { "epoch": 1.06768, "grad_norm": 0.025683648360606524, "learning_rate": 0.0001, "loss": 0.9789, "step": 5019 }, { "epoch": 1.0677333333333334, "grad_norm": 0.023787977174282153, "learning_rate": 0.0001, "loss": 0.9501, "step": 5020 }, { "epoch": 1.0677866666666667, "grad_norm": 0.024857248753226438, "learning_rate": 0.0001, "loss": 0.9787, "step": 5021 }, { "epoch": 1.06784, "grad_norm": 0.02473328887074261, "learning_rate": 0.0001, "loss": 0.9079, "step": 5022 }, { "epoch": 1.0678933333333334, "grad_norm": 0.02507686693935444, "learning_rate": 0.0001, "loss": 1.1167, "step": 5023 }, { "epoch": 1.0679466666666666, "grad_norm": 0.024270011770639106, "learning_rate": 0.0001, "loss": 0.945, "step": 5024 }, { "epoch": 1.068, "grad_norm": 0.027295024512912696, "learning_rate": 0.0001, "loss": 1.0336, "step": 5025 }, { "epoch": 1.0680533333333333, "grad_norm": 0.024312947985201054, "learning_rate": 0.0001, "loss": 0.9705, "step": 5026 }, { "epoch": 1.0681066666666668, "grad_norm": 0.024388374567162897, "learning_rate": 0.0001, "loss": 0.917, "step": 5027 }, { "epoch": 1.06816, "grad_norm": 0.024810933209643695, "learning_rate": 0.0001, "loss": 0.9439, "step": 5028 }, { "epoch": 1.0682133333333332, "grad_norm": 0.02362153052867476, "learning_rate": 0.0001, "loss": 0.981, "step": 5029 }, { "epoch": 1.0682666666666667, "grad_norm": 0.024782018207566786, "learning_rate": 0.0001, "loss": 1.0261, "step": 5030 }, { "epoch": 1.06832, "grad_norm": 0.024124242474666317, "learning_rate": 0.0001, "loss": 0.9901, "step": 5031 }, { "epoch": 1.0683733333333334, "grad_norm": 0.025615989440893487, "learning_rate": 0.0001, "loss": 0.9705, "step": 5032 }, { "epoch": 1.0684266666666666, "grad_norm": 0.02378776655001037, "learning_rate": 0.0001, "loss": 0.9791, "step": 5033 }, { "epoch": 1.06848, "grad_norm": 0.023830851476187433, "learning_rate": 0.0001, "loss": 0.9307, "step": 5034 }, { "epoch": 1.0685333333333333, "grad_norm": 0.02700506679453292, "learning_rate": 0.0001, "loss": 1.0024, "step": 5035 }, { "epoch": 1.0685866666666666, "grad_norm": 0.024532819867517486, "learning_rate": 0.0001, "loss": 0.9617, "step": 5036 }, { "epoch": 1.06864, "grad_norm": 0.026309136071026192, "learning_rate": 0.0001, "loss": 0.9356, "step": 5037 }, { "epoch": 1.0686933333333333, "grad_norm": 0.02483034874165817, "learning_rate": 0.0001, "loss": 1.0152, "step": 5038 }, { "epoch": 1.0687466666666667, "grad_norm": 0.022641409799789524, "learning_rate": 0.0001, "loss": 0.9527, "step": 5039 }, { "epoch": 1.0688, "grad_norm": 0.024178456019835846, "learning_rate": 0.0001, "loss": 0.9841, "step": 5040 }, { "epoch": 1.0688533333333334, "grad_norm": 0.024643329933715714, "learning_rate": 0.0001, "loss": 0.9762, "step": 5041 }, { "epoch": 1.0689066666666667, "grad_norm": 0.025821321288097807, "learning_rate": 0.0001, "loss": 0.9753, "step": 5042 }, { "epoch": 1.06896, "grad_norm": 0.023341188097224002, "learning_rate": 0.0001, "loss": 0.9593, "step": 5043 }, { "epoch": 1.0690133333333334, "grad_norm": 0.025207615885191638, "learning_rate": 0.0001, "loss": 0.9585, "step": 5044 }, { "epoch": 1.0690666666666666, "grad_norm": 0.023987046334880944, "learning_rate": 0.0001, "loss": 0.9688, "step": 5045 }, { "epoch": 1.06912, "grad_norm": 0.023740980577800965, "learning_rate": 0.0001, "loss": 0.9437, "step": 5046 }, { "epoch": 1.0691733333333333, "grad_norm": 0.023672782894704227, "learning_rate": 0.0001, "loss": 1.0203, "step": 5047 }, { "epoch": 1.0692266666666668, "grad_norm": 0.024870276384940857, "learning_rate": 0.0001, "loss": 0.9391, "step": 5048 }, { "epoch": 1.06928, "grad_norm": 0.02559806576487511, "learning_rate": 0.0001, "loss": 0.9114, "step": 5049 }, { "epoch": 1.0693333333333332, "grad_norm": 0.026663470352609644, "learning_rate": 0.0001, "loss": 0.985, "step": 5050 }, { "epoch": 1.0693866666666667, "grad_norm": 0.024520558375358638, "learning_rate": 0.0001, "loss": 0.9181, "step": 5051 }, { "epoch": 1.06944, "grad_norm": 0.023998652641820963, "learning_rate": 0.0001, "loss": 0.9726, "step": 5052 }, { "epoch": 1.0694933333333334, "grad_norm": 0.02262838289217389, "learning_rate": 0.0001, "loss": 0.9981, "step": 5053 }, { "epoch": 1.0695466666666666, "grad_norm": 0.026216460954535642, "learning_rate": 0.0001, "loss": 0.9252, "step": 5054 }, { "epoch": 1.0695999999999999, "grad_norm": 0.026209920411886477, "learning_rate": 0.0001, "loss": 1.0157, "step": 5055 }, { "epoch": 1.0696533333333333, "grad_norm": 0.02380475268345057, "learning_rate": 0.0001, "loss": 0.9376, "step": 5056 }, { "epoch": 1.0697066666666666, "grad_norm": 0.02596554212919293, "learning_rate": 0.0001, "loss": 0.9778, "step": 5057 }, { "epoch": 1.06976, "grad_norm": 0.027208999450704516, "learning_rate": 0.0001, "loss": 0.9923, "step": 5058 }, { "epoch": 1.0698133333333333, "grad_norm": 0.024475344366462225, "learning_rate": 0.0001, "loss": 0.9992, "step": 5059 }, { "epoch": 1.0698666666666667, "grad_norm": 0.027146455489839624, "learning_rate": 0.0001, "loss": 0.9586, "step": 5060 }, { "epoch": 1.06992, "grad_norm": 0.02465660487211689, "learning_rate": 0.0001, "loss": 0.9907, "step": 5061 }, { "epoch": 1.0699733333333334, "grad_norm": 0.025343174387045624, "learning_rate": 0.0001, "loss": 0.9755, "step": 5062 }, { "epoch": 1.0700266666666667, "grad_norm": 0.02591007930737827, "learning_rate": 0.0001, "loss": 1.0081, "step": 5063 }, { "epoch": 1.07008, "grad_norm": 0.02448556197094848, "learning_rate": 0.0001, "loss": 0.961, "step": 5064 }, { "epoch": 1.0701333333333334, "grad_norm": 0.02461658082854389, "learning_rate": 0.0001, "loss": 1.0032, "step": 5065 }, { "epoch": 1.0701866666666666, "grad_norm": 0.02512707853619943, "learning_rate": 0.0001, "loss": 1.0588, "step": 5066 }, { "epoch": 1.07024, "grad_norm": 0.024247160312259274, "learning_rate": 0.0001, "loss": 1.0733, "step": 5067 }, { "epoch": 1.0702933333333333, "grad_norm": 0.022862935245097752, "learning_rate": 0.0001, "loss": 0.9502, "step": 5068 }, { "epoch": 1.0703466666666666, "grad_norm": 0.024991250492990856, "learning_rate": 0.0001, "loss": 0.9222, "step": 5069 }, { "epoch": 1.0704, "grad_norm": 0.024652216376001714, "learning_rate": 0.0001, "loss": 1.0114, "step": 5070 }, { "epoch": 1.0704533333333333, "grad_norm": 0.025129733652623453, "learning_rate": 0.0001, "loss": 0.9379, "step": 5071 }, { "epoch": 1.0705066666666667, "grad_norm": 0.024147491247004788, "learning_rate": 0.0001, "loss": 0.9761, "step": 5072 }, { "epoch": 1.07056, "grad_norm": 0.026131886594879927, "learning_rate": 0.0001, "loss": 0.9874, "step": 5073 }, { "epoch": 1.0706133333333334, "grad_norm": 0.025774065418386408, "learning_rate": 0.0001, "loss": 1.0154, "step": 5074 }, { "epoch": 1.0706666666666667, "grad_norm": 0.026446377483165577, "learning_rate": 0.0001, "loss": 0.8929, "step": 5075 }, { "epoch": 1.0707200000000001, "grad_norm": 0.025273665659564064, "learning_rate": 0.0001, "loss": 0.9397, "step": 5076 }, { "epoch": 1.0707733333333334, "grad_norm": 0.023058436658343565, "learning_rate": 0.0001, "loss": 0.9704, "step": 5077 }, { "epoch": 1.0708266666666666, "grad_norm": 0.027222153600119595, "learning_rate": 0.0001, "loss": 0.9194, "step": 5078 }, { "epoch": 1.07088, "grad_norm": 0.025072863444628467, "learning_rate": 0.0001, "loss": 0.9418, "step": 5079 }, { "epoch": 1.0709333333333333, "grad_norm": 0.024701238985362934, "learning_rate": 0.0001, "loss": 0.9859, "step": 5080 }, { "epoch": 1.0709866666666668, "grad_norm": 0.026520150223510567, "learning_rate": 0.0001, "loss": 1.0311, "step": 5081 }, { "epoch": 1.07104, "grad_norm": 0.027028179864164625, "learning_rate": 0.0001, "loss": 1.0365, "step": 5082 }, { "epoch": 1.0710933333333332, "grad_norm": 0.024391697385383593, "learning_rate": 0.0001, "loss": 0.98, "step": 5083 }, { "epoch": 1.0711466666666667, "grad_norm": 0.024988776913547724, "learning_rate": 0.0001, "loss": 1.0244, "step": 5084 }, { "epoch": 1.0712, "grad_norm": 0.023900202037478956, "learning_rate": 0.0001, "loss": 1.0081, "step": 5085 }, { "epoch": 1.0712533333333334, "grad_norm": 0.02413586847953108, "learning_rate": 0.0001, "loss": 0.9758, "step": 5086 }, { "epoch": 1.0713066666666666, "grad_norm": 0.0247081645553724, "learning_rate": 0.0001, "loss": 0.9969, "step": 5087 }, { "epoch": 1.07136, "grad_norm": 0.025831156977931598, "learning_rate": 0.0001, "loss": 0.9581, "step": 5088 }, { "epoch": 1.0714133333333333, "grad_norm": 0.02455929438322751, "learning_rate": 0.0001, "loss": 0.9543, "step": 5089 }, { "epoch": 1.0714666666666666, "grad_norm": 0.025290508295600138, "learning_rate": 0.0001, "loss": 1.0037, "step": 5090 }, { "epoch": 1.07152, "grad_norm": 0.027204809700042465, "learning_rate": 0.0001, "loss": 0.9267, "step": 5091 }, { "epoch": 1.0715733333333333, "grad_norm": 0.028687967642137314, "learning_rate": 0.0001, "loss": 0.9541, "step": 5092 }, { "epoch": 1.0716266666666667, "grad_norm": 0.023934975311652857, "learning_rate": 0.0001, "loss": 0.9409, "step": 5093 }, { "epoch": 1.07168, "grad_norm": 0.0263495775585771, "learning_rate": 0.0001, "loss": 1.0287, "step": 5094 }, { "epoch": 1.0717333333333334, "grad_norm": 0.02484561283215338, "learning_rate": 0.0001, "loss": 0.9538, "step": 5095 }, { "epoch": 1.0717866666666667, "grad_norm": 0.023581573254700162, "learning_rate": 0.0001, "loss": 1.0573, "step": 5096 }, { "epoch": 1.07184, "grad_norm": 0.023809463663989578, "learning_rate": 0.0001, "loss": 1.0027, "step": 5097 }, { "epoch": 1.0718933333333334, "grad_norm": 0.024412716125761208, "learning_rate": 0.0001, "loss": 0.9784, "step": 5098 }, { "epoch": 1.0719466666666666, "grad_norm": 0.025065252404405346, "learning_rate": 0.0001, "loss": 1.0415, "step": 5099 }, { "epoch": 1.072, "grad_norm": 0.024963762721986426, "learning_rate": 0.0001, "loss": 0.9668, "step": 5100 }, { "epoch": 1.0720533333333333, "grad_norm": 0.024405066072861175, "learning_rate": 0.0001, "loss": 0.9418, "step": 5101 }, { "epoch": 1.0721066666666668, "grad_norm": 0.023938327026412697, "learning_rate": 0.0001, "loss": 0.961, "step": 5102 }, { "epoch": 1.07216, "grad_norm": 0.023733682877601615, "learning_rate": 0.0001, "loss": 0.9509, "step": 5103 }, { "epoch": 1.0722133333333332, "grad_norm": 0.024172219374828417, "learning_rate": 0.0001, "loss": 0.9864, "step": 5104 }, { "epoch": 1.0722666666666667, "grad_norm": 0.02534945135536056, "learning_rate": 0.0001, "loss": 1.0065, "step": 5105 }, { "epoch": 1.07232, "grad_norm": 0.023155020401736667, "learning_rate": 0.0001, "loss": 0.9918, "step": 5106 }, { "epoch": 1.0723733333333334, "grad_norm": 0.024234946761603416, "learning_rate": 0.0001, "loss": 0.9749, "step": 5107 }, { "epoch": 1.0724266666666666, "grad_norm": 0.024379897312532692, "learning_rate": 0.0001, "loss": 1.0052, "step": 5108 }, { "epoch": 1.07248, "grad_norm": 0.024514987615944013, "learning_rate": 0.0001, "loss": 0.9719, "step": 5109 }, { "epoch": 1.0725333333333333, "grad_norm": 0.024107315822166728, "learning_rate": 0.0001, "loss": 0.9411, "step": 5110 }, { "epoch": 1.0725866666666666, "grad_norm": 0.02742589818892122, "learning_rate": 0.0001, "loss": 0.9898, "step": 5111 }, { "epoch": 1.07264, "grad_norm": 0.024770845856102102, "learning_rate": 0.0001, "loss": 0.9566, "step": 5112 }, { "epoch": 1.0726933333333333, "grad_norm": 0.025899117403332377, "learning_rate": 0.0001, "loss": 0.9914, "step": 5113 }, { "epoch": 1.0727466666666667, "grad_norm": 0.023901147964815028, "learning_rate": 0.0001, "loss": 1.0414, "step": 5114 }, { "epoch": 1.0728, "grad_norm": 0.026032502541443923, "learning_rate": 0.0001, "loss": 0.9803, "step": 5115 }, { "epoch": 1.0728533333333334, "grad_norm": 0.027145476884540363, "learning_rate": 0.0001, "loss": 0.9352, "step": 5116 }, { "epoch": 1.0729066666666667, "grad_norm": 0.0253479529411147, "learning_rate": 0.0001, "loss": 0.9713, "step": 5117 }, { "epoch": 1.07296, "grad_norm": 0.025155773421817636, "learning_rate": 0.0001, "loss": 0.9582, "step": 5118 }, { "epoch": 1.0730133333333334, "grad_norm": 0.0244116379787284, "learning_rate": 0.0001, "loss": 0.9544, "step": 5119 }, { "epoch": 1.0730666666666666, "grad_norm": 0.024657811451786693, "learning_rate": 0.0001, "loss": 0.9906, "step": 5120 }, { "epoch": 1.07312, "grad_norm": 0.024750867138439533, "learning_rate": 0.0001, "loss": 1.0191, "step": 5121 }, { "epoch": 1.0731733333333333, "grad_norm": 0.024420066635536003, "learning_rate": 0.0001, "loss": 1.004, "step": 5122 }, { "epoch": 1.0732266666666668, "grad_norm": 0.02482369078088547, "learning_rate": 0.0001, "loss": 0.9533, "step": 5123 }, { "epoch": 1.07328, "grad_norm": 0.024813076094656702, "learning_rate": 0.0001, "loss": 0.9992, "step": 5124 }, { "epoch": 1.0733333333333333, "grad_norm": 0.024958045057905144, "learning_rate": 0.0001, "loss": 0.9687, "step": 5125 }, { "epoch": 1.0733866666666667, "grad_norm": 0.023749440758355195, "learning_rate": 0.0001, "loss": 0.9524, "step": 5126 }, { "epoch": 1.07344, "grad_norm": 0.022834704165488294, "learning_rate": 0.0001, "loss": 0.9825, "step": 5127 }, { "epoch": 1.0734933333333334, "grad_norm": 0.0252647527662807, "learning_rate": 0.0001, "loss": 0.9897, "step": 5128 }, { "epoch": 1.0735466666666666, "grad_norm": 0.023488881186087256, "learning_rate": 0.0001, "loss": 0.9769, "step": 5129 }, { "epoch": 1.0735999999999999, "grad_norm": 0.023062985461554778, "learning_rate": 0.0001, "loss": 0.9563, "step": 5130 }, { "epoch": 1.0736533333333333, "grad_norm": 0.023508203237809052, "learning_rate": 0.0001, "loss": 1.0113, "step": 5131 }, { "epoch": 1.0737066666666666, "grad_norm": 0.02439547523245326, "learning_rate": 0.0001, "loss": 1.0366, "step": 5132 }, { "epoch": 1.07376, "grad_norm": 0.024378471735768046, "learning_rate": 0.0001, "loss": 0.9688, "step": 5133 }, { "epoch": 1.0738133333333333, "grad_norm": 0.024683313034342003, "learning_rate": 0.0001, "loss": 0.9945, "step": 5134 }, { "epoch": 1.0738666666666667, "grad_norm": 0.024076687506367263, "learning_rate": 0.0001, "loss": 1.0282, "step": 5135 }, { "epoch": 1.07392, "grad_norm": 0.02431814928583795, "learning_rate": 0.0001, "loss": 1.0009, "step": 5136 }, { "epoch": 1.0739733333333334, "grad_norm": 0.025162764874578105, "learning_rate": 0.0001, "loss": 0.9997, "step": 5137 }, { "epoch": 1.0740266666666667, "grad_norm": 0.026050924273052157, "learning_rate": 0.0001, "loss": 0.9956, "step": 5138 }, { "epoch": 1.07408, "grad_norm": 0.03777204363918913, "learning_rate": 0.0001, "loss": 0.9789, "step": 5139 }, { "epoch": 1.0741333333333334, "grad_norm": 0.026315610435525466, "learning_rate": 0.0001, "loss": 1.002, "step": 5140 }, { "epoch": 1.0741866666666666, "grad_norm": 0.02546953245212923, "learning_rate": 0.0001, "loss": 0.9766, "step": 5141 }, { "epoch": 1.07424, "grad_norm": 0.025838672870392935, "learning_rate": 0.0001, "loss": 1.0103, "step": 5142 }, { "epoch": 1.0742933333333333, "grad_norm": 0.026438316960272996, "learning_rate": 0.0001, "loss": 0.9873, "step": 5143 }, { "epoch": 1.0743466666666666, "grad_norm": 0.023701509034137067, "learning_rate": 0.0001, "loss": 0.9495, "step": 5144 }, { "epoch": 1.0744, "grad_norm": 0.026726261043664833, "learning_rate": 0.0001, "loss": 0.9913, "step": 5145 }, { "epoch": 1.0744533333333333, "grad_norm": 0.02728244070735087, "learning_rate": 0.0001, "loss": 0.9506, "step": 5146 }, { "epoch": 1.0745066666666667, "grad_norm": 0.025575145859586326, "learning_rate": 0.0001, "loss": 0.9797, "step": 5147 }, { "epoch": 1.07456, "grad_norm": 0.02386856075708658, "learning_rate": 0.0001, "loss": 0.9326, "step": 5148 }, { "epoch": 1.0746133333333334, "grad_norm": 0.02620964091224981, "learning_rate": 0.0001, "loss": 0.9675, "step": 5149 }, { "epoch": 1.0746666666666667, "grad_norm": 0.025335467219462848, "learning_rate": 0.0001, "loss": 0.9116, "step": 5150 }, { "epoch": 1.07472, "grad_norm": 0.024631440687074974, "learning_rate": 0.0001, "loss": 0.9787, "step": 5151 }, { "epoch": 1.0747733333333334, "grad_norm": 0.025206122181680488, "learning_rate": 0.0001, "loss": 0.9658, "step": 5152 }, { "epoch": 1.0748266666666666, "grad_norm": 0.024695234520366188, "learning_rate": 0.0001, "loss": 1.0114, "step": 5153 }, { "epoch": 1.07488, "grad_norm": 0.023504563611394403, "learning_rate": 0.0001, "loss": 0.964, "step": 5154 }, { "epoch": 1.0749333333333333, "grad_norm": 0.02316704730871102, "learning_rate": 0.0001, "loss": 0.9406, "step": 5155 }, { "epoch": 1.0749866666666668, "grad_norm": 0.02754922798151838, "learning_rate": 0.0001, "loss": 0.948, "step": 5156 }, { "epoch": 1.07504, "grad_norm": 0.025734317262376044, "learning_rate": 0.0001, "loss": 0.9923, "step": 5157 }, { "epoch": 1.0750933333333332, "grad_norm": 0.024462229727704742, "learning_rate": 0.0001, "loss": 0.9899, "step": 5158 }, { "epoch": 1.0751466666666667, "grad_norm": 0.02566392922013849, "learning_rate": 0.0001, "loss": 0.9573, "step": 5159 }, { "epoch": 1.0752, "grad_norm": 0.02669291952349919, "learning_rate": 0.0001, "loss": 1.0357, "step": 5160 }, { "epoch": 1.0752533333333334, "grad_norm": 0.023307579841924223, "learning_rate": 0.0001, "loss": 0.9505, "step": 5161 }, { "epoch": 1.0753066666666666, "grad_norm": 0.02435239986313597, "learning_rate": 0.0001, "loss": 0.9781, "step": 5162 }, { "epoch": 1.07536, "grad_norm": 0.024893987691562144, "learning_rate": 0.0001, "loss": 0.9276, "step": 5163 }, { "epoch": 1.0754133333333333, "grad_norm": 0.022651391039637123, "learning_rate": 0.0001, "loss": 0.9719, "step": 5164 }, { "epoch": 1.0754666666666666, "grad_norm": 0.02486019220162966, "learning_rate": 0.0001, "loss": 0.9371, "step": 5165 }, { "epoch": 1.07552, "grad_norm": 0.02393928495845135, "learning_rate": 0.0001, "loss": 0.9539, "step": 5166 }, { "epoch": 1.0755733333333333, "grad_norm": 0.02253502734527664, "learning_rate": 0.0001, "loss": 1.0032, "step": 5167 }, { "epoch": 1.0756266666666667, "grad_norm": 0.02448343521548138, "learning_rate": 0.0001, "loss": 0.9719, "step": 5168 }, { "epoch": 1.07568, "grad_norm": 0.025681408135921912, "learning_rate": 0.0001, "loss": 0.9213, "step": 5169 }, { "epoch": 1.0757333333333334, "grad_norm": 0.023698864233596895, "learning_rate": 0.0001, "loss": 0.9935, "step": 5170 }, { "epoch": 1.0757866666666667, "grad_norm": 0.023864484697187528, "learning_rate": 0.0001, "loss": 1.0348, "step": 5171 }, { "epoch": 1.07584, "grad_norm": 0.027360708076219816, "learning_rate": 0.0001, "loss": 0.9481, "step": 5172 }, { "epoch": 1.0758933333333334, "grad_norm": 0.027807827972111523, "learning_rate": 0.0001, "loss": 0.9102, "step": 5173 }, { "epoch": 1.0759466666666666, "grad_norm": 0.023574341048259378, "learning_rate": 0.0001, "loss": 1.0006, "step": 5174 }, { "epoch": 1.076, "grad_norm": 0.02503227774462054, "learning_rate": 0.0001, "loss": 1.0164, "step": 5175 }, { "epoch": 1.0760533333333333, "grad_norm": 0.024446793150179193, "learning_rate": 0.0001, "loss": 0.9791, "step": 5176 }, { "epoch": 1.0761066666666668, "grad_norm": 0.02571649662975983, "learning_rate": 0.0001, "loss": 0.9335, "step": 5177 }, { "epoch": 1.07616, "grad_norm": 0.022791830110668, "learning_rate": 0.0001, "loss": 0.992, "step": 5178 }, { "epoch": 1.0762133333333332, "grad_norm": 0.024057051757440464, "learning_rate": 0.0001, "loss": 0.9692, "step": 5179 }, { "epoch": 1.0762666666666667, "grad_norm": 0.0263584218488111, "learning_rate": 0.0001, "loss": 1.0395, "step": 5180 }, { "epoch": 1.07632, "grad_norm": 0.02391252886899509, "learning_rate": 0.0001, "loss": 0.9339, "step": 5181 }, { "epoch": 1.0763733333333334, "grad_norm": 0.026037895730473534, "learning_rate": 0.0001, "loss": 0.9831, "step": 5182 }, { "epoch": 1.0764266666666666, "grad_norm": 0.02607664820928143, "learning_rate": 0.0001, "loss": 0.9747, "step": 5183 }, { "epoch": 1.07648, "grad_norm": 0.023864912618466193, "learning_rate": 0.0001, "loss": 0.977, "step": 5184 }, { "epoch": 1.0765333333333333, "grad_norm": 0.024922747115531798, "learning_rate": 0.0001, "loss": 1.002, "step": 5185 }, { "epoch": 1.0765866666666666, "grad_norm": 0.023601808290563676, "learning_rate": 0.0001, "loss": 0.991, "step": 5186 }, { "epoch": 1.07664, "grad_norm": 0.024364532692808995, "learning_rate": 0.0001, "loss": 1.0008, "step": 5187 }, { "epoch": 1.0766933333333333, "grad_norm": 0.02442730581411873, "learning_rate": 0.0001, "loss": 1.0027, "step": 5188 }, { "epoch": 1.0767466666666667, "grad_norm": 0.02407465819548894, "learning_rate": 0.0001, "loss": 0.9362, "step": 5189 }, { "epoch": 1.0768, "grad_norm": 0.025477465293614016, "learning_rate": 0.0001, "loss": 0.9436, "step": 5190 }, { "epoch": 1.0768533333333332, "grad_norm": 0.024070178149935756, "learning_rate": 0.0001, "loss": 0.9688, "step": 5191 }, { "epoch": 1.0769066666666667, "grad_norm": 0.02377238913203875, "learning_rate": 0.0001, "loss": 0.9571, "step": 5192 }, { "epoch": 1.07696, "grad_norm": 0.02491129074252031, "learning_rate": 0.0001, "loss": 1.0366, "step": 5193 }, { "epoch": 1.0770133333333334, "grad_norm": 0.024535327468025336, "learning_rate": 0.0001, "loss": 0.8932, "step": 5194 }, { "epoch": 1.0770666666666666, "grad_norm": 0.025933890527352236, "learning_rate": 0.0001, "loss": 0.9437, "step": 5195 }, { "epoch": 1.07712, "grad_norm": 0.02488885578342406, "learning_rate": 0.0001, "loss": 0.978, "step": 5196 }, { "epoch": 1.0771733333333333, "grad_norm": 0.02491496272672252, "learning_rate": 0.0001, "loss": 0.9854, "step": 5197 }, { "epoch": 1.0772266666666668, "grad_norm": 0.022739383650085543, "learning_rate": 0.0001, "loss": 0.9823, "step": 5198 }, { "epoch": 1.07728, "grad_norm": 0.023827335484317674, "learning_rate": 0.0001, "loss": 0.9922, "step": 5199 }, { "epoch": 1.0773333333333333, "grad_norm": 0.02480176844422139, "learning_rate": 0.0001, "loss": 0.9939, "step": 5200 }, { "epoch": 1.0773333333333333, "eval_accuracy": 0.6175859560285439, "eval_loss": 1.3687927722930908, "eval_runtime": 62.7595, "eval_samples_per_second": 15.934, "eval_steps_per_second": 0.51, "step": 5200 }, { "epoch": 1.0773866666666667, "grad_norm": 0.024876317380843286, "learning_rate": 0.0001, "loss": 1.0068, "step": 5201 }, { "epoch": 1.07744, "grad_norm": 0.024338841425097672, "learning_rate": 0.0001, "loss": 0.9402, "step": 5202 }, { "epoch": 1.0774933333333334, "grad_norm": 0.025662488286295897, "learning_rate": 0.0001, "loss": 1.0368, "step": 5203 }, { "epoch": 1.0775466666666667, "grad_norm": 0.026155250826677485, "learning_rate": 0.0001, "loss": 0.9551, "step": 5204 }, { "epoch": 1.0776, "grad_norm": 0.024612624062661296, "learning_rate": 0.0001, "loss": 1.0018, "step": 5205 }, { "epoch": 1.0776533333333334, "grad_norm": 0.027925454057316217, "learning_rate": 0.0001, "loss": 0.93, "step": 5206 }, { "epoch": 1.0777066666666666, "grad_norm": 0.023934159527165474, "learning_rate": 0.0001, "loss": 0.9681, "step": 5207 }, { "epoch": 1.07776, "grad_norm": 0.02706106112977372, "learning_rate": 0.0001, "loss": 0.9386, "step": 5208 }, { "epoch": 1.0778133333333333, "grad_norm": 0.025179220550887962, "learning_rate": 0.0001, "loss": 0.9477, "step": 5209 }, { "epoch": 1.0778666666666668, "grad_norm": 0.024950607554765265, "learning_rate": 0.0001, "loss": 1.0037, "step": 5210 }, { "epoch": 1.07792, "grad_norm": 0.025784250775060084, "learning_rate": 0.0001, "loss": 0.928, "step": 5211 }, { "epoch": 1.0779733333333334, "grad_norm": 0.0236456238962643, "learning_rate": 0.0001, "loss": 0.9897, "step": 5212 }, { "epoch": 1.0780266666666667, "grad_norm": 0.024584990980544102, "learning_rate": 0.0001, "loss": 0.9469, "step": 5213 }, { "epoch": 1.07808, "grad_norm": 0.02529050646679984, "learning_rate": 0.0001, "loss": 0.9526, "step": 5214 }, { "epoch": 1.0781333333333334, "grad_norm": 0.02363251040700039, "learning_rate": 0.0001, "loss": 0.9216, "step": 5215 }, { "epoch": 1.0781866666666666, "grad_norm": 0.02428567789333371, "learning_rate": 0.0001, "loss": 0.9568, "step": 5216 }, { "epoch": 1.07824, "grad_norm": 0.024511467782604827, "learning_rate": 0.0001, "loss": 0.9556, "step": 5217 }, { "epoch": 1.0782933333333333, "grad_norm": 0.024831662849735276, "learning_rate": 0.0001, "loss": 0.9362, "step": 5218 }, { "epoch": 1.0783466666666666, "grad_norm": 0.025855555382267654, "learning_rate": 0.0001, "loss": 0.9761, "step": 5219 }, { "epoch": 1.0784, "grad_norm": 0.025264390244562018, "learning_rate": 0.0001, "loss": 0.95, "step": 5220 }, { "epoch": 1.0784533333333333, "grad_norm": 0.023871935878563465, "learning_rate": 0.0001, "loss": 0.9538, "step": 5221 }, { "epoch": 1.0785066666666667, "grad_norm": 0.026483249659725153, "learning_rate": 0.0001, "loss": 0.9559, "step": 5222 }, { "epoch": 1.07856, "grad_norm": 0.0240112490666037, "learning_rate": 0.0001, "loss": 0.9884, "step": 5223 }, { "epoch": 1.0786133333333334, "grad_norm": 0.026507753498893716, "learning_rate": 0.0001, "loss": 0.9405, "step": 5224 }, { "epoch": 1.0786666666666667, "grad_norm": 0.023537215133218808, "learning_rate": 0.0001, "loss": 0.9856, "step": 5225 }, { "epoch": 1.07872, "grad_norm": 0.024864718371935223, "learning_rate": 0.0001, "loss": 0.9789, "step": 5226 }, { "epoch": 1.0787733333333334, "grad_norm": 0.024681091913744815, "learning_rate": 0.0001, "loss": 1.0075, "step": 5227 }, { "epoch": 1.0788266666666666, "grad_norm": 0.0250518950570203, "learning_rate": 0.0001, "loss": 0.9622, "step": 5228 }, { "epoch": 1.07888, "grad_norm": 0.02747477705556083, "learning_rate": 0.0001, "loss": 1.0204, "step": 5229 }, { "epoch": 1.0789333333333333, "grad_norm": 0.024664303614459957, "learning_rate": 0.0001, "loss": 1.0091, "step": 5230 }, { "epoch": 1.0789866666666668, "grad_norm": 0.025562150475701297, "learning_rate": 0.0001, "loss": 0.9355, "step": 5231 }, { "epoch": 1.07904, "grad_norm": 0.026523863911728642, "learning_rate": 0.0001, "loss": 1.0008, "step": 5232 }, { "epoch": 1.0790933333333332, "grad_norm": 0.023681238835648506, "learning_rate": 0.0001, "loss": 0.9991, "step": 5233 }, { "epoch": 1.0791466666666667, "grad_norm": 0.0248659026687544, "learning_rate": 0.0001, "loss": 0.9816, "step": 5234 }, { "epoch": 1.0792, "grad_norm": 0.024993293672727998, "learning_rate": 0.0001, "loss": 1.0065, "step": 5235 }, { "epoch": 1.0792533333333334, "grad_norm": 0.024111534580474183, "learning_rate": 0.0001, "loss": 0.9302, "step": 5236 }, { "epoch": 1.0793066666666666, "grad_norm": 0.022919767114488506, "learning_rate": 0.0001, "loss": 0.9162, "step": 5237 }, { "epoch": 1.07936, "grad_norm": 0.026345372372084036, "learning_rate": 0.0001, "loss": 1.0407, "step": 5238 }, { "epoch": 1.0794133333333333, "grad_norm": 0.026079739123239628, "learning_rate": 0.0001, "loss": 0.9554, "step": 5239 }, { "epoch": 1.0794666666666666, "grad_norm": 0.023228931165140704, "learning_rate": 0.0001, "loss": 0.9607, "step": 5240 }, { "epoch": 1.07952, "grad_norm": 0.026384854495492802, "learning_rate": 0.0001, "loss": 1.0047, "step": 5241 }, { "epoch": 1.0795733333333333, "grad_norm": 0.026171870824522155, "learning_rate": 0.0001, "loss": 0.9568, "step": 5242 }, { "epoch": 1.0796266666666667, "grad_norm": 0.025096135784617002, "learning_rate": 0.0001, "loss": 0.9798, "step": 5243 }, { "epoch": 1.07968, "grad_norm": 0.02474846141880474, "learning_rate": 0.0001, "loss": 1.0343, "step": 5244 }, { "epoch": 1.0797333333333334, "grad_norm": 0.025352670499425557, "learning_rate": 0.0001, "loss": 0.969, "step": 5245 }, { "epoch": 1.0797866666666667, "grad_norm": 0.0248989504138001, "learning_rate": 0.0001, "loss": 0.9868, "step": 5246 }, { "epoch": 1.07984, "grad_norm": 0.024742494392252075, "learning_rate": 0.0001, "loss": 0.9728, "step": 5247 }, { "epoch": 1.0798933333333334, "grad_norm": 0.024334365052190592, "learning_rate": 0.0001, "loss": 0.9739, "step": 5248 }, { "epoch": 1.0799466666666666, "grad_norm": 0.025373650153087835, "learning_rate": 0.0001, "loss": 0.946, "step": 5249 }, { "epoch": 1.08, "grad_norm": 0.0249894628038705, "learning_rate": 0.0001, "loss": 0.9973, "step": 5250 }, { "epoch": 1.0800533333333333, "grad_norm": 0.023012750069240005, "learning_rate": 0.0001, "loss": 0.9737, "step": 5251 }, { "epoch": 1.0801066666666668, "grad_norm": 0.02395807501933798, "learning_rate": 0.0001, "loss": 0.9765, "step": 5252 }, { "epoch": 1.08016, "grad_norm": 0.024132945055237665, "learning_rate": 0.0001, "loss": 0.9651, "step": 5253 }, { "epoch": 1.0802133333333332, "grad_norm": 0.024423196417638255, "learning_rate": 0.0001, "loss": 1.0155, "step": 5254 }, { "epoch": 1.0802666666666667, "grad_norm": 0.023676737909240946, "learning_rate": 0.0001, "loss": 0.978, "step": 5255 }, { "epoch": 1.08032, "grad_norm": 0.024453039809071007, "learning_rate": 0.0001, "loss": 0.9895, "step": 5256 }, { "epoch": 1.0803733333333334, "grad_norm": 0.025644905620883708, "learning_rate": 0.0001, "loss": 0.9788, "step": 5257 }, { "epoch": 1.0804266666666666, "grad_norm": 0.025547937008229635, "learning_rate": 0.0001, "loss": 0.954, "step": 5258 }, { "epoch": 1.08048, "grad_norm": 0.026099511241568618, "learning_rate": 0.0001, "loss": 0.9943, "step": 5259 }, { "epoch": 1.0805333333333333, "grad_norm": 0.025266224422285048, "learning_rate": 0.0001, "loss": 1.0329, "step": 5260 }, { "epoch": 1.0805866666666666, "grad_norm": 0.025786413691965163, "learning_rate": 0.0001, "loss": 1.0284, "step": 5261 }, { "epoch": 1.08064, "grad_norm": 0.02752110767709119, "learning_rate": 0.0001, "loss": 0.9405, "step": 5262 }, { "epoch": 1.0806933333333333, "grad_norm": 0.025811047727335903, "learning_rate": 0.0001, "loss": 0.9229, "step": 5263 }, { "epoch": 1.0807466666666667, "grad_norm": 0.023272461434574235, "learning_rate": 0.0001, "loss": 1.0341, "step": 5264 }, { "epoch": 1.0808, "grad_norm": 0.024740781019389934, "learning_rate": 0.0001, "loss": 0.9681, "step": 5265 }, { "epoch": 1.0808533333333332, "grad_norm": 0.02507252438761017, "learning_rate": 0.0001, "loss": 0.9867, "step": 5266 }, { "epoch": 1.0809066666666667, "grad_norm": 0.023389362149824792, "learning_rate": 0.0001, "loss": 1.0622, "step": 5267 }, { "epoch": 1.08096, "grad_norm": 0.02646910325773918, "learning_rate": 0.0001, "loss": 0.9204, "step": 5268 }, { "epoch": 1.0810133333333334, "grad_norm": 0.02346272743007583, "learning_rate": 0.0001, "loss": 0.9659, "step": 5269 }, { "epoch": 1.0810666666666666, "grad_norm": 0.02417442607707923, "learning_rate": 0.0001, "loss": 1.0105, "step": 5270 }, { "epoch": 1.08112, "grad_norm": 0.02570454094301308, "learning_rate": 0.0001, "loss": 0.9735, "step": 5271 }, { "epoch": 1.0811733333333333, "grad_norm": 0.026052069731941813, "learning_rate": 0.0001, "loss": 0.9982, "step": 5272 }, { "epoch": 1.0812266666666668, "grad_norm": 0.024585335688651174, "learning_rate": 0.0001, "loss": 1.0119, "step": 5273 }, { "epoch": 1.08128, "grad_norm": 0.02429495120438062, "learning_rate": 0.0001, "loss": 0.959, "step": 5274 }, { "epoch": 1.0813333333333333, "grad_norm": 0.0261725332651311, "learning_rate": 0.0001, "loss": 0.9418, "step": 5275 }, { "epoch": 1.0813866666666667, "grad_norm": 0.022658454776153553, "learning_rate": 0.0001, "loss": 0.9796, "step": 5276 }, { "epoch": 1.08144, "grad_norm": 0.025146570222616696, "learning_rate": 0.0001, "loss": 0.9139, "step": 5277 }, { "epoch": 1.0814933333333334, "grad_norm": 0.02505510945683532, "learning_rate": 0.0001, "loss": 1.0062, "step": 5278 }, { "epoch": 1.0815466666666667, "grad_norm": 0.02479711734155357, "learning_rate": 0.0001, "loss": 0.9943, "step": 5279 }, { "epoch": 1.0816, "grad_norm": 0.025803044646182976, "learning_rate": 0.0001, "loss": 0.9884, "step": 5280 }, { "epoch": 1.0816533333333334, "grad_norm": 0.025052361828081866, "learning_rate": 0.0001, "loss": 0.9883, "step": 5281 }, { "epoch": 1.0817066666666666, "grad_norm": 0.025505340403169475, "learning_rate": 0.0001, "loss": 0.99, "step": 5282 }, { "epoch": 1.08176, "grad_norm": 0.0254430762983551, "learning_rate": 0.0001, "loss": 0.9279, "step": 5283 }, { "epoch": 1.0818133333333333, "grad_norm": 0.024920615255787287, "learning_rate": 0.0001, "loss": 0.9913, "step": 5284 }, { "epoch": 1.0818666666666668, "grad_norm": 0.023514703978667482, "learning_rate": 0.0001, "loss": 0.9321, "step": 5285 }, { "epoch": 1.08192, "grad_norm": 0.025330257280561083, "learning_rate": 0.0001, "loss": 1.0044, "step": 5286 }, { "epoch": 1.0819733333333332, "grad_norm": 0.025273723956993916, "learning_rate": 0.0001, "loss": 1.0169, "step": 5287 }, { "epoch": 1.0820266666666667, "grad_norm": 0.023572788267187218, "learning_rate": 0.0001, "loss": 0.9241, "step": 5288 }, { "epoch": 1.08208, "grad_norm": 0.026362884646064833, "learning_rate": 0.0001, "loss": 0.9379, "step": 5289 }, { "epoch": 1.0821333333333334, "grad_norm": 0.025931472237143677, "learning_rate": 0.0001, "loss": 0.9327, "step": 5290 }, { "epoch": 1.0821866666666666, "grad_norm": 0.025480346966613648, "learning_rate": 0.0001, "loss": 0.9369, "step": 5291 }, { "epoch": 1.08224, "grad_norm": 0.024389180876339903, "learning_rate": 0.0001, "loss": 0.9111, "step": 5292 }, { "epoch": 1.0822933333333333, "grad_norm": 0.029610338249835572, "learning_rate": 0.0001, "loss": 0.9211, "step": 5293 }, { "epoch": 1.0823466666666666, "grad_norm": 0.024695987449946975, "learning_rate": 0.0001, "loss": 0.9407, "step": 5294 }, { "epoch": 1.0824, "grad_norm": 0.025187412093682155, "learning_rate": 0.0001, "loss": 1.0091, "step": 5295 }, { "epoch": 1.0824533333333333, "grad_norm": 0.024675170162876986, "learning_rate": 0.0001, "loss": 0.9376, "step": 5296 }, { "epoch": 1.0825066666666667, "grad_norm": 0.025787551728585562, "learning_rate": 0.0001, "loss": 0.9536, "step": 5297 }, { "epoch": 1.08256, "grad_norm": 0.024585606529879508, "learning_rate": 0.0001, "loss": 0.9983, "step": 5298 }, { "epoch": 1.0826133333333334, "grad_norm": 0.027011424226386284, "learning_rate": 0.0001, "loss": 0.9371, "step": 5299 }, { "epoch": 1.0826666666666667, "grad_norm": 0.022205496859619422, "learning_rate": 0.0001, "loss": 0.9339, "step": 5300 }, { "epoch": 1.08272, "grad_norm": 0.02435777698181023, "learning_rate": 0.0001, "loss": 0.9905, "step": 5301 }, { "epoch": 1.0827733333333334, "grad_norm": 0.025738899839381612, "learning_rate": 0.0001, "loss": 0.9546, "step": 5302 }, { "epoch": 1.0828266666666666, "grad_norm": 0.023706670984649056, "learning_rate": 0.0001, "loss": 1.0219, "step": 5303 }, { "epoch": 1.08288, "grad_norm": 0.024580742850132176, "learning_rate": 0.0001, "loss": 0.9749, "step": 5304 }, { "epoch": 1.0829333333333333, "grad_norm": 0.02710944495779612, "learning_rate": 0.0001, "loss": 0.9218, "step": 5305 }, { "epoch": 1.0829866666666668, "grad_norm": 0.025013183213840544, "learning_rate": 0.0001, "loss": 1.063, "step": 5306 }, { "epoch": 1.08304, "grad_norm": 0.023814317817514915, "learning_rate": 0.0001, "loss": 1.0155, "step": 5307 }, { "epoch": 1.0830933333333332, "grad_norm": 0.02823032507593627, "learning_rate": 0.0001, "loss": 1.0169, "step": 5308 }, { "epoch": 1.0831466666666667, "grad_norm": 0.025793055304233873, "learning_rate": 0.0001, "loss": 0.9805, "step": 5309 }, { "epoch": 1.0832, "grad_norm": 0.022962508164665794, "learning_rate": 0.0001, "loss": 0.9369, "step": 5310 }, { "epoch": 1.0832533333333334, "grad_norm": 0.02536606718276414, "learning_rate": 0.0001, "loss": 0.9701, "step": 5311 }, { "epoch": 1.0833066666666666, "grad_norm": 0.025578732094647498, "learning_rate": 0.0001, "loss": 1.0405, "step": 5312 }, { "epoch": 1.08336, "grad_norm": 0.024460940276615318, "learning_rate": 0.0001, "loss": 0.9461, "step": 5313 }, { "epoch": 1.0834133333333333, "grad_norm": 0.02541022205614345, "learning_rate": 0.0001, "loss": 0.9787, "step": 5314 }, { "epoch": 1.0834666666666666, "grad_norm": 0.023950725564234755, "learning_rate": 0.0001, "loss": 0.9498, "step": 5315 }, { "epoch": 1.08352, "grad_norm": 0.02333053713527254, "learning_rate": 0.0001, "loss": 1.0037, "step": 5316 }, { "epoch": 1.0835733333333333, "grad_norm": 0.025322714432788055, "learning_rate": 0.0001, "loss": 1.0065, "step": 5317 }, { "epoch": 1.0836266666666667, "grad_norm": 0.022581533296769766, "learning_rate": 0.0001, "loss": 1.0024, "step": 5318 }, { "epoch": 1.08368, "grad_norm": 0.025236728845420883, "learning_rate": 0.0001, "loss": 0.9416, "step": 5319 }, { "epoch": 1.0837333333333334, "grad_norm": 0.02603869110362313, "learning_rate": 0.0001, "loss": 0.96, "step": 5320 }, { "epoch": 1.0837866666666667, "grad_norm": 0.022699330416731403, "learning_rate": 0.0001, "loss": 0.958, "step": 5321 }, { "epoch": 1.08384, "grad_norm": 0.02380321494859823, "learning_rate": 0.0001, "loss": 1.0421, "step": 5322 }, { "epoch": 1.0838933333333334, "grad_norm": 0.025893481862188875, "learning_rate": 0.0001, "loss": 0.9044, "step": 5323 }, { "epoch": 1.0839466666666666, "grad_norm": 0.022757912505740892, "learning_rate": 0.0001, "loss": 0.9653, "step": 5324 }, { "epoch": 1.084, "grad_norm": 0.024910103199777503, "learning_rate": 0.0001, "loss": 1.0043, "step": 5325 }, { "epoch": 1.0840533333333333, "grad_norm": 0.023646902186626684, "learning_rate": 0.0001, "loss": 0.9917, "step": 5326 }, { "epoch": 1.0841066666666666, "grad_norm": 0.025287801396366993, "learning_rate": 0.0001, "loss": 1.0053, "step": 5327 }, { "epoch": 1.08416, "grad_norm": 0.02532176516893675, "learning_rate": 0.0001, "loss": 0.9557, "step": 5328 }, { "epoch": 1.0842133333333333, "grad_norm": 0.024344126277565426, "learning_rate": 0.0001, "loss": 0.9645, "step": 5329 }, { "epoch": 1.0842666666666667, "grad_norm": 0.02302841515658075, "learning_rate": 0.0001, "loss": 0.9734, "step": 5330 }, { "epoch": 1.08432, "grad_norm": 0.024091880290035634, "learning_rate": 0.0001, "loss": 1.0016, "step": 5331 }, { "epoch": 1.0843733333333334, "grad_norm": 0.02261102631708662, "learning_rate": 0.0001, "loss": 0.9789, "step": 5332 }, { "epoch": 1.0844266666666666, "grad_norm": 0.026634908092377847, "learning_rate": 0.0001, "loss": 0.9856, "step": 5333 }, { "epoch": 1.08448, "grad_norm": 0.023440305241753452, "learning_rate": 0.0001, "loss": 0.9391, "step": 5334 }, { "epoch": 1.0845333333333333, "grad_norm": 0.023652972990245005, "learning_rate": 0.0001, "loss": 0.9561, "step": 5335 }, { "epoch": 1.0845866666666666, "grad_norm": 0.02410443823572375, "learning_rate": 0.0001, "loss": 0.9528, "step": 5336 }, { "epoch": 1.08464, "grad_norm": 0.022305585214441568, "learning_rate": 0.0001, "loss": 0.95, "step": 5337 }, { "epoch": 1.0846933333333333, "grad_norm": 0.024610330099531445, "learning_rate": 0.0001, "loss": 0.9897, "step": 5338 }, { "epoch": 1.0847466666666667, "grad_norm": 0.02398003296396921, "learning_rate": 0.0001, "loss": 0.9557, "step": 5339 }, { "epoch": 1.0848, "grad_norm": 0.026887015884443047, "learning_rate": 0.0001, "loss": 1.0488, "step": 5340 }, { "epoch": 1.0848533333333332, "grad_norm": 0.025004201407156392, "learning_rate": 0.0001, "loss": 0.9841, "step": 5341 }, { "epoch": 1.0849066666666667, "grad_norm": 0.024849548894843154, "learning_rate": 0.0001, "loss": 0.9761, "step": 5342 }, { "epoch": 1.08496, "grad_norm": 0.024567490018684985, "learning_rate": 0.0001, "loss": 1.022, "step": 5343 }, { "epoch": 1.0850133333333334, "grad_norm": 0.027804194589126436, "learning_rate": 0.0001, "loss": 0.9777, "step": 5344 }, { "epoch": 1.0850666666666666, "grad_norm": 0.023651049844225842, "learning_rate": 0.0001, "loss": 1.0207, "step": 5345 }, { "epoch": 1.08512, "grad_norm": 0.023989121112610545, "learning_rate": 0.0001, "loss": 0.9822, "step": 5346 }, { "epoch": 1.0851733333333333, "grad_norm": 0.025907084512737953, "learning_rate": 0.0001, "loss": 0.9829, "step": 5347 }, { "epoch": 1.0852266666666668, "grad_norm": 0.025459862371398176, "learning_rate": 0.0001, "loss": 1.0089, "step": 5348 }, { "epoch": 1.08528, "grad_norm": 0.023120400860888547, "learning_rate": 0.0001, "loss": 0.9566, "step": 5349 }, { "epoch": 1.0853333333333333, "grad_norm": 0.025858734340119698, "learning_rate": 0.0001, "loss": 0.9703, "step": 5350 }, { "epoch": 1.0853866666666667, "grad_norm": 0.0265105954956132, "learning_rate": 0.0001, "loss": 1.0225, "step": 5351 }, { "epoch": 1.08544, "grad_norm": 0.02588158944114845, "learning_rate": 0.0001, "loss": 1.0257, "step": 5352 }, { "epoch": 1.0854933333333334, "grad_norm": 0.024023520214110826, "learning_rate": 0.0001, "loss": 0.9787, "step": 5353 }, { "epoch": 1.0855466666666667, "grad_norm": 0.02506856201793591, "learning_rate": 0.0001, "loss": 0.9926, "step": 5354 }, { "epoch": 1.0856, "grad_norm": 0.026096256505061536, "learning_rate": 0.0001, "loss": 0.9948, "step": 5355 }, { "epoch": 1.0856533333333334, "grad_norm": 0.025510106321482855, "learning_rate": 0.0001, "loss": 0.9774, "step": 5356 }, { "epoch": 1.0857066666666666, "grad_norm": 0.026442092484198303, "learning_rate": 0.0001, "loss": 1.008, "step": 5357 }, { "epoch": 1.08576, "grad_norm": 0.024784076146785492, "learning_rate": 0.0001, "loss": 0.9565, "step": 5358 }, { "epoch": 1.0858133333333333, "grad_norm": 0.025018399599153723, "learning_rate": 0.0001, "loss": 0.9754, "step": 5359 }, { "epoch": 1.0858666666666668, "grad_norm": 0.025013926898957543, "learning_rate": 0.0001, "loss": 0.9628, "step": 5360 }, { "epoch": 1.08592, "grad_norm": 0.02447246363797203, "learning_rate": 0.0001, "loss": 0.9756, "step": 5361 }, { "epoch": 1.0859733333333332, "grad_norm": 0.024433468146005027, "learning_rate": 0.0001, "loss": 0.9394, "step": 5362 }, { "epoch": 1.0860266666666667, "grad_norm": 0.02644352761663835, "learning_rate": 0.0001, "loss": 0.9586, "step": 5363 }, { "epoch": 1.08608, "grad_norm": 0.024352974144211437, "learning_rate": 0.0001, "loss": 0.9819, "step": 5364 }, { "epoch": 1.0861333333333334, "grad_norm": 0.024798678635210007, "learning_rate": 0.0001, "loss": 1.0074, "step": 5365 }, { "epoch": 1.0861866666666666, "grad_norm": 0.02505191942233212, "learning_rate": 0.0001, "loss": 0.9457, "step": 5366 }, { "epoch": 1.08624, "grad_norm": 0.024996038481383355, "learning_rate": 0.0001, "loss": 0.902, "step": 5367 }, { "epoch": 1.0862933333333333, "grad_norm": 0.023053278259743643, "learning_rate": 0.0001, "loss": 0.9984, "step": 5368 }, { "epoch": 1.0863466666666666, "grad_norm": 0.024972726893054322, "learning_rate": 0.0001, "loss": 0.9354, "step": 5369 }, { "epoch": 1.0864, "grad_norm": 0.025693243222708006, "learning_rate": 0.0001, "loss": 0.9797, "step": 5370 }, { "epoch": 1.0864533333333333, "grad_norm": 0.02449217519163733, "learning_rate": 0.0001, "loss": 0.996, "step": 5371 }, { "epoch": 1.0865066666666667, "grad_norm": 0.02563057744620433, "learning_rate": 0.0001, "loss": 0.9708, "step": 5372 }, { "epoch": 1.08656, "grad_norm": 0.024149620346383266, "learning_rate": 0.0001, "loss": 0.9633, "step": 5373 }, { "epoch": 1.0866133333333334, "grad_norm": 0.026533522091168205, "learning_rate": 0.0001, "loss": 0.9303, "step": 5374 }, { "epoch": 1.0866666666666667, "grad_norm": 0.02414943391925214, "learning_rate": 0.0001, "loss": 1.0115, "step": 5375 }, { "epoch": 1.08672, "grad_norm": 0.025021303212912415, "learning_rate": 0.0001, "loss": 1.0095, "step": 5376 }, { "epoch": 1.0867733333333334, "grad_norm": 0.026567666909216713, "learning_rate": 0.0001, "loss": 0.9522, "step": 5377 }, { "epoch": 1.0868266666666666, "grad_norm": 0.025236826110992525, "learning_rate": 0.0001, "loss": 0.9728, "step": 5378 }, { "epoch": 1.08688, "grad_norm": 0.02618787583234989, "learning_rate": 0.0001, "loss": 1.0147, "step": 5379 }, { "epoch": 1.0869333333333333, "grad_norm": 0.025130382335461797, "learning_rate": 0.0001, "loss": 0.9922, "step": 5380 }, { "epoch": 1.0869866666666668, "grad_norm": 0.026283314548422504, "learning_rate": 0.0001, "loss": 0.9556, "step": 5381 }, { "epoch": 1.08704, "grad_norm": 0.025166173561106064, "learning_rate": 0.0001, "loss": 1.0352, "step": 5382 }, { "epoch": 1.0870933333333332, "grad_norm": 0.0254211805339721, "learning_rate": 0.0001, "loss": 0.9751, "step": 5383 }, { "epoch": 1.0871466666666667, "grad_norm": 0.024395632773566208, "learning_rate": 0.0001, "loss": 1.0283, "step": 5384 }, { "epoch": 1.0872, "grad_norm": 0.026257025937105702, "learning_rate": 0.0001, "loss": 0.9278, "step": 5385 }, { "epoch": 1.0872533333333334, "grad_norm": 0.027387356422299225, "learning_rate": 0.0001, "loss": 0.9595, "step": 5386 }, { "epoch": 1.0873066666666666, "grad_norm": 0.024420624822488784, "learning_rate": 0.0001, "loss": 1.0022, "step": 5387 }, { "epoch": 1.0873599999999999, "grad_norm": 0.02734236772244979, "learning_rate": 0.0001, "loss": 0.9738, "step": 5388 }, { "epoch": 1.0874133333333333, "grad_norm": 0.02361446751439596, "learning_rate": 0.0001, "loss": 0.9714, "step": 5389 }, { "epoch": 1.0874666666666666, "grad_norm": 0.024927502897051746, "learning_rate": 0.0001, "loss": 0.9373, "step": 5390 }, { "epoch": 1.08752, "grad_norm": 0.02552577316148973, "learning_rate": 0.0001, "loss": 0.9935, "step": 5391 }, { "epoch": 1.0875733333333333, "grad_norm": 0.02300394647804756, "learning_rate": 0.0001, "loss": 0.9582, "step": 5392 }, { "epoch": 1.0876266666666667, "grad_norm": 0.02592992979583403, "learning_rate": 0.0001, "loss": 1.0117, "step": 5393 }, { "epoch": 1.08768, "grad_norm": 0.024031486040159238, "learning_rate": 0.0001, "loss": 0.9679, "step": 5394 }, { "epoch": 1.0877333333333334, "grad_norm": 0.024070061247227326, "learning_rate": 0.0001, "loss": 0.9691, "step": 5395 }, { "epoch": 1.0877866666666667, "grad_norm": 0.022553830932739702, "learning_rate": 0.0001, "loss": 0.9772, "step": 5396 }, { "epoch": 1.08784, "grad_norm": 0.02563667349521712, "learning_rate": 0.0001, "loss": 1.0083, "step": 5397 }, { "epoch": 1.0878933333333334, "grad_norm": 0.02342864423376892, "learning_rate": 0.0001, "loss": 0.9695, "step": 5398 }, { "epoch": 1.0879466666666666, "grad_norm": 0.024095744759494494, "learning_rate": 0.0001, "loss": 0.9362, "step": 5399 }, { "epoch": 1.088, "grad_norm": 0.02495146061766215, "learning_rate": 0.0001, "loss": 0.9458, "step": 5400 }, { "epoch": 1.088, "eval_accuracy": 0.6178257006654867, "eval_loss": 1.367598533630371, "eval_runtime": 63.3325, "eval_samples_per_second": 15.79, "eval_steps_per_second": 0.505, "step": 5400 }, { "epoch": 1.0880533333333333, "grad_norm": 0.026224537113231177, "learning_rate": 0.0001, "loss": 0.953, "step": 5401 }, { "epoch": 1.0881066666666666, "grad_norm": 0.025601732792011826, "learning_rate": 0.0001, "loss": 0.9234, "step": 5402 }, { "epoch": 1.08816, "grad_norm": 0.023201105954557974, "learning_rate": 0.0001, "loss": 1.0289, "step": 5403 }, { "epoch": 1.0882133333333333, "grad_norm": 0.024741836494257805, "learning_rate": 0.0001, "loss": 0.9565, "step": 5404 }, { "epoch": 1.0882666666666667, "grad_norm": 0.025199460644633583, "learning_rate": 0.0001, "loss": 0.9623, "step": 5405 }, { "epoch": 1.08832, "grad_norm": 0.02309612830357707, "learning_rate": 0.0001, "loss": 0.9481, "step": 5406 }, { "epoch": 1.0883733333333334, "grad_norm": 0.023735102714719396, "learning_rate": 0.0001, "loss": 0.9697, "step": 5407 }, { "epoch": 1.0884266666666667, "grad_norm": 0.02482914382608947, "learning_rate": 0.0001, "loss": 0.9184, "step": 5408 }, { "epoch": 1.0884800000000001, "grad_norm": 0.025343248333721192, "learning_rate": 0.0001, "loss": 0.9807, "step": 5409 }, { "epoch": 1.0885333333333334, "grad_norm": 0.024348281477778188, "learning_rate": 0.0001, "loss": 0.9746, "step": 5410 }, { "epoch": 1.0885866666666666, "grad_norm": 0.022926963523185316, "learning_rate": 0.0001, "loss": 1.0092, "step": 5411 }, { "epoch": 1.08864, "grad_norm": 0.024187696996960606, "learning_rate": 0.0001, "loss": 0.9411, "step": 5412 }, { "epoch": 1.0886933333333333, "grad_norm": 0.024792651077237094, "learning_rate": 0.0001, "loss": 0.956, "step": 5413 }, { "epoch": 1.0887466666666668, "grad_norm": 0.02494666170137011, "learning_rate": 0.0001, "loss": 0.9917, "step": 5414 }, { "epoch": 1.0888, "grad_norm": 0.02384801198646467, "learning_rate": 0.0001, "loss": 0.9112, "step": 5415 }, { "epoch": 1.0888533333333332, "grad_norm": 0.024319686936650094, "learning_rate": 0.0001, "loss": 0.937, "step": 5416 }, { "epoch": 1.0889066666666667, "grad_norm": 0.025130572400233187, "learning_rate": 0.0001, "loss": 0.9988, "step": 5417 }, { "epoch": 1.08896, "grad_norm": 0.023886618955775898, "learning_rate": 0.0001, "loss": 1.0123, "step": 5418 }, { "epoch": 1.0890133333333334, "grad_norm": 0.02352342565718151, "learning_rate": 0.0001, "loss": 1.001, "step": 5419 }, { "epoch": 1.0890666666666666, "grad_norm": 0.02366827389206715, "learning_rate": 0.0001, "loss": 0.9414, "step": 5420 }, { "epoch": 1.08912, "grad_norm": 0.02367958789660692, "learning_rate": 0.0001, "loss": 0.9914, "step": 5421 }, { "epoch": 1.0891733333333333, "grad_norm": 0.02461895470602719, "learning_rate": 0.0001, "loss": 0.9303, "step": 5422 }, { "epoch": 1.0892266666666666, "grad_norm": 0.023972593012761816, "learning_rate": 0.0001, "loss": 1.0029, "step": 5423 }, { "epoch": 1.08928, "grad_norm": 0.02432821547324431, "learning_rate": 0.0001, "loss": 1.0187, "step": 5424 }, { "epoch": 1.0893333333333333, "grad_norm": 0.024156709701936115, "learning_rate": 0.0001, "loss": 0.9984, "step": 5425 }, { "epoch": 1.0893866666666667, "grad_norm": 0.023556472225441473, "learning_rate": 0.0001, "loss": 0.9941, "step": 5426 }, { "epoch": 1.08944, "grad_norm": 0.025053548354886553, "learning_rate": 0.0001, "loss": 0.9833, "step": 5427 }, { "epoch": 1.0894933333333334, "grad_norm": 0.024466834334306176, "learning_rate": 0.0001, "loss": 1.0437, "step": 5428 }, { "epoch": 1.0895466666666667, "grad_norm": 0.024203978424825492, "learning_rate": 0.0001, "loss": 0.9935, "step": 5429 }, { "epoch": 1.0896, "grad_norm": 0.02614689206315233, "learning_rate": 0.0001, "loss": 0.966, "step": 5430 }, { "epoch": 1.0896533333333334, "grad_norm": 0.024320664826792477, "learning_rate": 0.0001, "loss": 0.9933, "step": 5431 }, { "epoch": 1.0897066666666666, "grad_norm": 0.0245692734163972, "learning_rate": 0.0001, "loss": 0.978, "step": 5432 }, { "epoch": 1.08976, "grad_norm": 0.024932726612747202, "learning_rate": 0.0001, "loss": 0.9762, "step": 5433 }, { "epoch": 1.0898133333333333, "grad_norm": 0.023510111109406026, "learning_rate": 0.0001, "loss": 0.9817, "step": 5434 }, { "epoch": 1.0898666666666668, "grad_norm": 0.024115911620074815, "learning_rate": 0.0001, "loss": 0.9967, "step": 5435 }, { "epoch": 1.08992, "grad_norm": 0.026153199679287673, "learning_rate": 0.0001, "loss": 0.9897, "step": 5436 }, { "epoch": 1.0899733333333332, "grad_norm": 0.02539074759597056, "learning_rate": 0.0001, "loss": 0.9773, "step": 5437 }, { "epoch": 1.0900266666666667, "grad_norm": 0.022792275167629078, "learning_rate": 0.0001, "loss": 1.0059, "step": 5438 }, { "epoch": 1.09008, "grad_norm": 0.02328735690049007, "learning_rate": 0.0001, "loss": 0.9638, "step": 5439 }, { "epoch": 1.0901333333333334, "grad_norm": 0.025882206337241163, "learning_rate": 0.0001, "loss": 0.9313, "step": 5440 }, { "epoch": 1.0901866666666666, "grad_norm": 0.024270793696704224, "learning_rate": 0.0001, "loss": 0.9389, "step": 5441 }, { "epoch": 1.09024, "grad_norm": 0.025119120256480477, "learning_rate": 0.0001, "loss": 0.9726, "step": 5442 }, { "epoch": 1.0902933333333333, "grad_norm": 0.023912624526101187, "learning_rate": 0.0001, "loss": 1.0057, "step": 5443 }, { "epoch": 1.0903466666666666, "grad_norm": 0.022620910837785578, "learning_rate": 0.0001, "loss": 0.9865, "step": 5444 }, { "epoch": 1.0904, "grad_norm": 0.025229680860955193, "learning_rate": 0.0001, "loss": 0.9582, "step": 5445 }, { "epoch": 1.0904533333333333, "grad_norm": 0.023531799012144906, "learning_rate": 0.0001, "loss": 0.9739, "step": 5446 }, { "epoch": 1.0905066666666667, "grad_norm": 0.026610700778689336, "learning_rate": 0.0001, "loss": 0.9631, "step": 5447 }, { "epoch": 1.09056, "grad_norm": 0.023966339676864, "learning_rate": 0.0001, "loss": 0.9291, "step": 5448 }, { "epoch": 1.0906133333333334, "grad_norm": 0.02436687284239219, "learning_rate": 0.0001, "loss": 0.9515, "step": 5449 }, { "epoch": 1.0906666666666667, "grad_norm": 0.024478601058868316, "learning_rate": 0.0001, "loss": 0.9567, "step": 5450 }, { "epoch": 1.09072, "grad_norm": 0.02402488599794999, "learning_rate": 0.0001, "loss": 1.0498, "step": 5451 }, { "epoch": 1.0907733333333334, "grad_norm": 0.0269656007515562, "learning_rate": 0.0001, "loss": 1.0239, "step": 5452 }, { "epoch": 1.0908266666666666, "grad_norm": 0.023725201654153885, "learning_rate": 0.0001, "loss": 0.962, "step": 5453 }, { "epoch": 1.09088, "grad_norm": 0.02413305870649194, "learning_rate": 0.0001, "loss": 0.9941, "step": 5454 }, { "epoch": 1.0909333333333333, "grad_norm": 0.025672618515907207, "learning_rate": 0.0001, "loss": 0.9738, "step": 5455 }, { "epoch": 1.0909866666666668, "grad_norm": 0.02527717904014668, "learning_rate": 0.0001, "loss": 0.9245, "step": 5456 }, { "epoch": 1.09104, "grad_norm": 0.024848495817988685, "learning_rate": 0.0001, "loss": 0.959, "step": 5457 }, { "epoch": 1.0910933333333332, "grad_norm": 0.02358748069487493, "learning_rate": 0.0001, "loss": 0.9403, "step": 5458 }, { "epoch": 1.0911466666666667, "grad_norm": 0.02350354511835056, "learning_rate": 0.0001, "loss": 1.0037, "step": 5459 }, { "epoch": 1.0912, "grad_norm": 0.02462044142797206, "learning_rate": 0.0001, "loss": 0.9526, "step": 5460 }, { "epoch": 1.0912533333333334, "grad_norm": 0.023736111059015342, "learning_rate": 0.0001, "loss": 0.9831, "step": 5461 }, { "epoch": 1.0913066666666666, "grad_norm": 0.023956371225173648, "learning_rate": 0.0001, "loss": 0.958, "step": 5462 }, { "epoch": 1.0913599999999999, "grad_norm": 0.025746858164159583, "learning_rate": 0.0001, "loss": 0.9465, "step": 5463 }, { "epoch": 1.0914133333333333, "grad_norm": 0.02407267474699161, "learning_rate": 0.0001, "loss": 1.051, "step": 5464 }, { "epoch": 1.0914666666666666, "grad_norm": 0.025078672595403362, "learning_rate": 0.0001, "loss": 0.9686, "step": 5465 }, { "epoch": 1.09152, "grad_norm": 0.025313457038343607, "learning_rate": 0.0001, "loss": 1.0528, "step": 5466 }, { "epoch": 1.0915733333333333, "grad_norm": 0.026092883415715005, "learning_rate": 0.0001, "loss": 0.9527, "step": 5467 }, { "epoch": 1.0916266666666667, "grad_norm": 0.024572573491396448, "learning_rate": 0.0001, "loss": 0.9677, "step": 5468 }, { "epoch": 1.09168, "grad_norm": 0.027021746294949116, "learning_rate": 0.0001, "loss": 1.0039, "step": 5469 }, { "epoch": 1.0917333333333334, "grad_norm": 0.025657355143453877, "learning_rate": 0.0001, "loss": 0.9777, "step": 5470 }, { "epoch": 1.0917866666666667, "grad_norm": 0.024589722872828998, "learning_rate": 0.0001, "loss": 0.9755, "step": 5471 }, { "epoch": 1.09184, "grad_norm": 0.02381835053729346, "learning_rate": 0.0001, "loss": 0.938, "step": 5472 }, { "epoch": 1.0918933333333334, "grad_norm": 0.024518800166704807, "learning_rate": 0.0001, "loss": 0.9659, "step": 5473 }, { "epoch": 1.0919466666666666, "grad_norm": 0.024671508611492036, "learning_rate": 0.0001, "loss": 0.9279, "step": 5474 }, { "epoch": 1.092, "grad_norm": 0.02345440571504801, "learning_rate": 0.0001, "loss": 0.9787, "step": 5475 }, { "epoch": 1.0920533333333333, "grad_norm": 0.02515687847512022, "learning_rate": 0.0001, "loss": 0.986, "step": 5476 }, { "epoch": 1.0921066666666666, "grad_norm": 0.025980052149216358, "learning_rate": 0.0001, "loss": 0.9717, "step": 5477 }, { "epoch": 1.09216, "grad_norm": 0.026338872160574574, "learning_rate": 0.0001, "loss": 0.9546, "step": 5478 }, { "epoch": 1.0922133333333333, "grad_norm": 0.026729720347720337, "learning_rate": 0.0001, "loss": 0.9637, "step": 5479 }, { "epoch": 1.0922666666666667, "grad_norm": 0.025831101893613106, "learning_rate": 0.0001, "loss": 0.9842, "step": 5480 }, { "epoch": 1.09232, "grad_norm": 0.02440835320323529, "learning_rate": 0.0001, "loss": 0.9875, "step": 5481 }, { "epoch": 1.0923733333333334, "grad_norm": 0.02495663615448202, "learning_rate": 0.0001, "loss": 0.9456, "step": 5482 }, { "epoch": 1.0924266666666667, "grad_norm": 0.024397802027621093, "learning_rate": 0.0001, "loss": 0.9972, "step": 5483 }, { "epoch": 1.0924800000000001, "grad_norm": 0.0243684812992055, "learning_rate": 0.0001, "loss": 0.9554, "step": 5484 }, { "epoch": 1.0925333333333334, "grad_norm": 0.02556607749782903, "learning_rate": 0.0001, "loss": 0.9946, "step": 5485 }, { "epoch": 1.0925866666666666, "grad_norm": 0.025519487922027122, "learning_rate": 0.0001, "loss": 0.9961, "step": 5486 }, { "epoch": 1.09264, "grad_norm": 0.025918421020721297, "learning_rate": 0.0001, "loss": 1.0108, "step": 5487 }, { "epoch": 1.0926933333333333, "grad_norm": 0.025960295187532657, "learning_rate": 0.0001, "loss": 0.9751, "step": 5488 }, { "epoch": 1.0927466666666668, "grad_norm": 0.024648554929595633, "learning_rate": 0.0001, "loss": 1.0263, "step": 5489 }, { "epoch": 1.0928, "grad_norm": 0.025293776161721047, "learning_rate": 0.0001, "loss": 0.9689, "step": 5490 }, { "epoch": 1.0928533333333332, "grad_norm": 0.028177915555077808, "learning_rate": 0.0001, "loss": 0.8743, "step": 5491 }, { "epoch": 1.0929066666666667, "grad_norm": 0.024112960750611614, "learning_rate": 0.0001, "loss": 0.9942, "step": 5492 }, { "epoch": 1.09296, "grad_norm": 0.025509482477980194, "learning_rate": 0.0001, "loss": 0.9105, "step": 5493 }, { "epoch": 1.0930133333333334, "grad_norm": 0.028507720205317326, "learning_rate": 0.0001, "loss": 0.9436, "step": 5494 }, { "epoch": 1.0930666666666666, "grad_norm": 0.02429294420923327, "learning_rate": 0.0001, "loss": 0.9206, "step": 5495 }, { "epoch": 1.09312, "grad_norm": 0.026587288783749274, "learning_rate": 0.0001, "loss": 0.9727, "step": 5496 }, { "epoch": 1.0931733333333333, "grad_norm": 0.02561311400589922, "learning_rate": 0.0001, "loss": 1.0295, "step": 5497 }, { "epoch": 1.0932266666666666, "grad_norm": 0.02686784394429803, "learning_rate": 0.0001, "loss": 0.9667, "step": 5498 }, { "epoch": 1.09328, "grad_norm": 0.025079015337443465, "learning_rate": 0.0001, "loss": 0.9764, "step": 5499 }, { "epoch": 1.0933333333333333, "grad_norm": 0.02323718849562416, "learning_rate": 0.0001, "loss": 0.998, "step": 5500 }, { "epoch": 1.0933866666666667, "grad_norm": 0.024345687091664295, "learning_rate": 0.0001, "loss": 0.9897, "step": 5501 }, { "epoch": 1.09344, "grad_norm": 0.024207495952278255, "learning_rate": 0.0001, "loss": 0.9847, "step": 5502 }, { "epoch": 1.0934933333333334, "grad_norm": 0.024313769875642047, "learning_rate": 0.0001, "loss": 0.9813, "step": 5503 }, { "epoch": 1.0935466666666667, "grad_norm": 0.025327972583034992, "learning_rate": 0.0001, "loss": 0.9583, "step": 5504 }, { "epoch": 1.0936, "grad_norm": 0.025052389289688514, "learning_rate": 0.0001, "loss": 0.977, "step": 5505 }, { "epoch": 1.0936533333333334, "grad_norm": 0.02386429648221201, "learning_rate": 0.0001, "loss": 1.005, "step": 5506 }, { "epoch": 1.0937066666666666, "grad_norm": 0.024641059537914876, "learning_rate": 0.0001, "loss": 1.0257, "step": 5507 }, { "epoch": 1.09376, "grad_norm": 0.02423047945770857, "learning_rate": 0.0001, "loss": 0.9686, "step": 5508 }, { "epoch": 1.0938133333333333, "grad_norm": 0.02400645946069786, "learning_rate": 0.0001, "loss": 1.0032, "step": 5509 }, { "epoch": 1.0938666666666668, "grad_norm": 0.027153199835011965, "learning_rate": 0.0001, "loss": 1.0057, "step": 5510 }, { "epoch": 1.09392, "grad_norm": 0.025305947636713472, "learning_rate": 0.0001, "loss": 0.9685, "step": 5511 }, { "epoch": 1.0939733333333332, "grad_norm": 0.02415912504660784, "learning_rate": 0.0001, "loss": 0.9569, "step": 5512 }, { "epoch": 1.0940266666666667, "grad_norm": 0.02281209968910904, "learning_rate": 0.0001, "loss": 0.9543, "step": 5513 }, { "epoch": 1.09408, "grad_norm": 0.02539451166075499, "learning_rate": 0.0001, "loss": 1.0059, "step": 5514 }, { "epoch": 1.0941333333333334, "grad_norm": 0.023732536477669264, "learning_rate": 0.0001, "loss": 0.8877, "step": 5515 }, { "epoch": 1.0941866666666666, "grad_norm": 0.025433957947910747, "learning_rate": 0.0001, "loss": 0.9711, "step": 5516 }, { "epoch": 1.09424, "grad_norm": 0.024349360944002307, "learning_rate": 0.0001, "loss": 1.0086, "step": 5517 }, { "epoch": 1.0942933333333333, "grad_norm": 0.024079554256786904, "learning_rate": 0.0001, "loss": 0.9249, "step": 5518 }, { "epoch": 1.0943466666666666, "grad_norm": 0.02540603590913862, "learning_rate": 0.0001, "loss": 0.9465, "step": 5519 }, { "epoch": 1.0944, "grad_norm": 0.025205490515330112, "learning_rate": 0.0001, "loss": 0.9891, "step": 5520 }, { "epoch": 1.0944533333333333, "grad_norm": 0.025192362313165743, "learning_rate": 0.0001, "loss": 1.0151, "step": 5521 }, { "epoch": 1.0945066666666667, "grad_norm": 0.02389534395200932, "learning_rate": 0.0001, "loss": 0.9563, "step": 5522 }, { "epoch": 1.09456, "grad_norm": 0.026009713596987845, "learning_rate": 0.0001, "loss": 1.02, "step": 5523 }, { "epoch": 1.0946133333333332, "grad_norm": 0.026706366973114945, "learning_rate": 0.0001, "loss": 0.9542, "step": 5524 }, { "epoch": 1.0946666666666667, "grad_norm": 0.025290129776536014, "learning_rate": 0.0001, "loss": 1.0185, "step": 5525 }, { "epoch": 1.09472, "grad_norm": 0.024157523645464012, "learning_rate": 0.0001, "loss": 0.9451, "step": 5526 }, { "epoch": 1.0947733333333334, "grad_norm": 0.0245954610327734, "learning_rate": 0.0001, "loss": 0.9355, "step": 5527 }, { "epoch": 1.0948266666666666, "grad_norm": 0.026173827662226718, "learning_rate": 0.0001, "loss": 1.0709, "step": 5528 }, { "epoch": 1.09488, "grad_norm": 0.023698757322461364, "learning_rate": 0.0001, "loss": 0.9561, "step": 5529 }, { "epoch": 1.0949333333333333, "grad_norm": 0.026627898727698572, "learning_rate": 0.0001, "loss": 1.0236, "step": 5530 }, { "epoch": 1.0949866666666668, "grad_norm": 0.023516227530357883, "learning_rate": 0.0001, "loss": 0.9218, "step": 5531 }, { "epoch": 1.09504, "grad_norm": 0.0258707525867235, "learning_rate": 0.0001, "loss": 1.038, "step": 5532 }, { "epoch": 1.0950933333333333, "grad_norm": 0.02380909662976778, "learning_rate": 0.0001, "loss": 0.9563, "step": 5533 }, { "epoch": 1.0951466666666667, "grad_norm": 0.02412126227757258, "learning_rate": 0.0001, "loss": 1.0287, "step": 5534 }, { "epoch": 1.0952, "grad_norm": 0.023784390006525238, "learning_rate": 0.0001, "loss": 0.9567, "step": 5535 }, { "epoch": 1.0952533333333334, "grad_norm": 0.023908122287299584, "learning_rate": 0.0001, "loss": 0.9541, "step": 5536 }, { "epoch": 1.0953066666666667, "grad_norm": 0.02495327254541312, "learning_rate": 0.0001, "loss": 0.9836, "step": 5537 }, { "epoch": 1.09536, "grad_norm": 0.022849704639174722, "learning_rate": 0.0001, "loss": 0.9754, "step": 5538 }, { "epoch": 1.0954133333333333, "grad_norm": 0.022978519698851823, "learning_rate": 0.0001, "loss": 0.962, "step": 5539 }, { "epoch": 1.0954666666666666, "grad_norm": 0.025093078661226637, "learning_rate": 0.0001, "loss": 0.9773, "step": 5540 }, { "epoch": 1.09552, "grad_norm": 0.02359525107410276, "learning_rate": 0.0001, "loss": 0.9487, "step": 5541 }, { "epoch": 1.0955733333333333, "grad_norm": 0.024108005646971176, "learning_rate": 0.0001, "loss": 0.9433, "step": 5542 }, { "epoch": 1.0956266666666667, "grad_norm": 0.025537429171524347, "learning_rate": 0.0001, "loss": 0.9642, "step": 5543 }, { "epoch": 1.09568, "grad_norm": 0.02386427586929367, "learning_rate": 0.0001, "loss": 0.9582, "step": 5544 }, { "epoch": 1.0957333333333334, "grad_norm": 0.023058191467297803, "learning_rate": 0.0001, "loss": 0.9408, "step": 5545 }, { "epoch": 1.0957866666666667, "grad_norm": 0.024275418636215376, "learning_rate": 0.0001, "loss": 0.9969, "step": 5546 }, { "epoch": 1.09584, "grad_norm": 0.024037826177039312, "learning_rate": 0.0001, "loss": 1.038, "step": 5547 }, { "epoch": 1.0958933333333334, "grad_norm": 0.02364432305260219, "learning_rate": 0.0001, "loss": 1.0122, "step": 5548 }, { "epoch": 1.0959466666666666, "grad_norm": 0.029566854805905457, "learning_rate": 0.0001, "loss": 0.9397, "step": 5549 }, { "epoch": 1.096, "grad_norm": 0.02518245641346586, "learning_rate": 0.0001, "loss": 1.0744, "step": 5550 }, { "epoch": 1.0960533333333333, "grad_norm": 0.026726028700560144, "learning_rate": 0.0001, "loss": 0.9916, "step": 5551 }, { "epoch": 1.0961066666666666, "grad_norm": 0.024232968064882086, "learning_rate": 0.0001, "loss": 0.9279, "step": 5552 }, { "epoch": 1.09616, "grad_norm": 0.024462718793837768, "learning_rate": 0.0001, "loss": 0.9471, "step": 5553 }, { "epoch": 1.0962133333333333, "grad_norm": 0.023697338249250473, "learning_rate": 0.0001, "loss": 0.9897, "step": 5554 }, { "epoch": 1.0962666666666667, "grad_norm": 0.023920908668427162, "learning_rate": 0.0001, "loss": 1.033, "step": 5555 }, { "epoch": 1.09632, "grad_norm": 0.026159281605135594, "learning_rate": 0.0001, "loss": 0.9304, "step": 5556 }, { "epoch": 1.0963733333333334, "grad_norm": 0.024465679634085833, "learning_rate": 0.0001, "loss": 0.9713, "step": 5557 }, { "epoch": 1.0964266666666667, "grad_norm": 0.024314326937403305, "learning_rate": 0.0001, "loss": 1.0237, "step": 5558 }, { "epoch": 1.09648, "grad_norm": 0.027373361697239394, "learning_rate": 0.0001, "loss": 1.0017, "step": 5559 }, { "epoch": 1.0965333333333334, "grad_norm": 0.0240621327077373, "learning_rate": 0.0001, "loss": 0.9746, "step": 5560 }, { "epoch": 1.0965866666666666, "grad_norm": 0.025142646854822637, "learning_rate": 0.0001, "loss": 0.9791, "step": 5561 }, { "epoch": 1.09664, "grad_norm": 0.023181108916952076, "learning_rate": 0.0001, "loss": 1.0092, "step": 5562 }, { "epoch": 1.0966933333333333, "grad_norm": 0.024600812003252006, "learning_rate": 0.0001, "loss": 0.9095, "step": 5563 }, { "epoch": 1.0967466666666668, "grad_norm": 0.023669023926223963, "learning_rate": 0.0001, "loss": 0.9182, "step": 5564 }, { "epoch": 1.0968, "grad_norm": 0.0237209850728578, "learning_rate": 0.0001, "loss": 0.9673, "step": 5565 }, { "epoch": 1.0968533333333332, "grad_norm": 0.028992624386155748, "learning_rate": 0.0001, "loss": 0.9864, "step": 5566 }, { "epoch": 1.0969066666666667, "grad_norm": 0.024463736704119738, "learning_rate": 0.0001, "loss": 1.0162, "step": 5567 }, { "epoch": 1.09696, "grad_norm": 0.024305595912931466, "learning_rate": 0.0001, "loss": 1.0543, "step": 5568 }, { "epoch": 1.0970133333333334, "grad_norm": 0.02619147535947587, "learning_rate": 0.0001, "loss": 1.0243, "step": 5569 }, { "epoch": 1.0970666666666666, "grad_norm": 0.027049589456740544, "learning_rate": 0.0001, "loss": 0.9801, "step": 5570 }, { "epoch": 1.09712, "grad_norm": 0.024151371207620335, "learning_rate": 0.0001, "loss": 0.9353, "step": 5571 }, { "epoch": 1.0971733333333333, "grad_norm": 0.02515828925166502, "learning_rate": 0.0001, "loss": 1.0017, "step": 5572 }, { "epoch": 1.0972266666666666, "grad_norm": 0.025517565646948834, "learning_rate": 0.0001, "loss": 0.9954, "step": 5573 }, { "epoch": 1.09728, "grad_norm": 0.024893452909516393, "learning_rate": 0.0001, "loss": 0.9514, "step": 5574 }, { "epoch": 1.0973333333333333, "grad_norm": 0.024815765827224622, "learning_rate": 0.0001, "loss": 0.9384, "step": 5575 }, { "epoch": 1.0973866666666667, "grad_norm": 0.025383650210339174, "learning_rate": 0.0001, "loss": 0.9372, "step": 5576 }, { "epoch": 1.09744, "grad_norm": 0.02413081654084862, "learning_rate": 0.0001, "loss": 0.9567, "step": 5577 }, { "epoch": 1.0974933333333334, "grad_norm": 0.02846082244314978, "learning_rate": 0.0001, "loss": 0.9607, "step": 5578 }, { "epoch": 1.0975466666666667, "grad_norm": 0.025297815564696523, "learning_rate": 0.0001, "loss": 0.9352, "step": 5579 }, { "epoch": 1.0976, "grad_norm": 0.024212633532749078, "learning_rate": 0.0001, "loss": 0.9084, "step": 5580 }, { "epoch": 1.0976533333333334, "grad_norm": 0.026204464622635305, "learning_rate": 0.0001, "loss": 1.0011, "step": 5581 }, { "epoch": 1.0977066666666666, "grad_norm": 0.026529641022938713, "learning_rate": 0.0001, "loss": 0.9547, "step": 5582 }, { "epoch": 1.09776, "grad_norm": 0.024222035290744282, "learning_rate": 0.0001, "loss": 0.9839, "step": 5583 }, { "epoch": 1.0978133333333333, "grad_norm": 0.02720147677451512, "learning_rate": 0.0001, "loss": 0.9299, "step": 5584 }, { "epoch": 1.0978666666666668, "grad_norm": 0.025859668384330164, "learning_rate": 0.0001, "loss": 1.0551, "step": 5585 }, { "epoch": 1.09792, "grad_norm": 0.024759258508085445, "learning_rate": 0.0001, "loss": 0.9464, "step": 5586 }, { "epoch": 1.0979733333333332, "grad_norm": 0.026791484921885295, "learning_rate": 0.0001, "loss": 0.9398, "step": 5587 }, { "epoch": 1.0980266666666667, "grad_norm": 0.025251806429387024, "learning_rate": 0.0001, "loss": 0.9367, "step": 5588 }, { "epoch": 1.09808, "grad_norm": 0.025150275960437767, "learning_rate": 0.0001, "loss": 0.9606, "step": 5589 }, { "epoch": 1.0981333333333334, "grad_norm": 0.02716835437695572, "learning_rate": 0.0001, "loss": 0.9882, "step": 5590 }, { "epoch": 1.0981866666666666, "grad_norm": 0.04222119425145647, "learning_rate": 0.0001, "loss": 0.9404, "step": 5591 }, { "epoch": 1.09824, "grad_norm": 0.02361710058004188, "learning_rate": 0.0001, "loss": 1.0176, "step": 5592 }, { "epoch": 1.0982933333333333, "grad_norm": 0.026812891173321248, "learning_rate": 0.0001, "loss": 0.976, "step": 5593 }, { "epoch": 1.0983466666666666, "grad_norm": 0.024357590322644226, "learning_rate": 0.0001, "loss": 0.984, "step": 5594 }, { "epoch": 1.0984, "grad_norm": 0.024015343468942723, "learning_rate": 0.0001, "loss": 0.9868, "step": 5595 }, { "epoch": 1.0984533333333333, "grad_norm": 0.02484493646718331, "learning_rate": 0.0001, "loss": 0.9919, "step": 5596 }, { "epoch": 1.0985066666666667, "grad_norm": 0.024906538892755983, "learning_rate": 0.0001, "loss": 0.9952, "step": 5597 }, { "epoch": 1.09856, "grad_norm": 0.025324817136249195, "learning_rate": 0.0001, "loss": 0.9963, "step": 5598 }, { "epoch": 1.0986133333333332, "grad_norm": 0.024933350892388732, "learning_rate": 0.0001, "loss": 0.9379, "step": 5599 }, { "epoch": 1.0986666666666667, "grad_norm": 0.025556073803813823, "learning_rate": 0.0001, "loss": 0.9532, "step": 5600 }, { "epoch": 1.0986666666666667, "eval_accuracy": 0.6178924385686356, "eval_loss": 1.3665144443511963, "eval_runtime": 62.4704, "eval_samples_per_second": 16.008, "eval_steps_per_second": 0.512, "step": 5600 }, { "epoch": 1.09872, "grad_norm": 0.022965628125048817, "learning_rate": 0.0001, "loss": 0.9572, "step": 5601 }, { "epoch": 1.0987733333333334, "grad_norm": 0.026472139108689164, "learning_rate": 0.0001, "loss": 0.9543, "step": 5602 }, { "epoch": 1.0988266666666666, "grad_norm": 0.023245512185718263, "learning_rate": 0.0001, "loss": 1.0033, "step": 5603 }, { "epoch": 1.09888, "grad_norm": 0.0237020922065763, "learning_rate": 0.0001, "loss": 0.9615, "step": 5604 }, { "epoch": 1.0989333333333333, "grad_norm": 0.023382850068568852, "learning_rate": 0.0001, "loss": 0.985, "step": 5605 }, { "epoch": 1.0989866666666668, "grad_norm": 0.026205970827593975, "learning_rate": 0.0001, "loss": 0.9476, "step": 5606 }, { "epoch": 1.09904, "grad_norm": 0.023289236472093456, "learning_rate": 0.0001, "loss": 0.8998, "step": 5607 }, { "epoch": 1.0990933333333333, "grad_norm": 0.025170868460205054, "learning_rate": 0.0001, "loss": 1.0108, "step": 5608 }, { "epoch": 1.0991466666666667, "grad_norm": 0.024952962375621522, "learning_rate": 0.0001, "loss": 0.9918, "step": 5609 }, { "epoch": 1.0992, "grad_norm": 0.023920236053097964, "learning_rate": 0.0001, "loss": 0.9281, "step": 5610 }, { "epoch": 1.0992533333333334, "grad_norm": 0.024901945574898696, "learning_rate": 0.0001, "loss": 0.9978, "step": 5611 }, { "epoch": 1.0993066666666667, "grad_norm": 0.023464531803288644, "learning_rate": 0.0001, "loss": 0.9679, "step": 5612 }, { "epoch": 1.09936, "grad_norm": 0.025834052635356076, "learning_rate": 0.0001, "loss": 0.9764, "step": 5613 }, { "epoch": 1.0994133333333334, "grad_norm": 0.022562124218375935, "learning_rate": 0.0001, "loss": 0.982, "step": 5614 }, { "epoch": 1.0994666666666666, "grad_norm": 0.023710194314329535, "learning_rate": 0.0001, "loss": 0.978, "step": 5615 }, { "epoch": 1.09952, "grad_norm": 0.024191642781317118, "learning_rate": 0.0001, "loss": 0.9823, "step": 5616 }, { "epoch": 1.0995733333333333, "grad_norm": 0.023512866656303907, "learning_rate": 0.0001, "loss": 0.935, "step": 5617 }, { "epoch": 1.0996266666666668, "grad_norm": 0.022034183796319117, "learning_rate": 0.0001, "loss": 0.9715, "step": 5618 }, { "epoch": 1.09968, "grad_norm": 0.024091065126488304, "learning_rate": 0.0001, "loss": 0.913, "step": 5619 }, { "epoch": 1.0997333333333332, "grad_norm": 0.02631728433793347, "learning_rate": 0.0001, "loss": 0.9841, "step": 5620 }, { "epoch": 1.0997866666666667, "grad_norm": 0.023056178430352355, "learning_rate": 0.0001, "loss": 0.9937, "step": 5621 }, { "epoch": 1.09984, "grad_norm": 0.02316053756039938, "learning_rate": 0.0001, "loss": 1.0196, "step": 5622 }, { "epoch": 1.0998933333333334, "grad_norm": 0.024875854208064735, "learning_rate": 0.0001, "loss": 0.9891, "step": 5623 }, { "epoch": 1.0999466666666666, "grad_norm": 0.04097373235686131, "learning_rate": 0.0001, "loss": 1.0012, "step": 5624 }, { "epoch": 1.1, "grad_norm": 0.024285001828013297, "learning_rate": 0.0001, "loss": 0.9526, "step": 5625 }, { "epoch": 1.1000533333333333, "grad_norm": 0.024307150573079313, "learning_rate": 0.0001, "loss": 0.948, "step": 5626 }, { "epoch": 1.1001066666666666, "grad_norm": 0.025045693615842104, "learning_rate": 0.0001, "loss": 0.9884, "step": 5627 }, { "epoch": 1.10016, "grad_norm": 0.02560254143130997, "learning_rate": 0.0001, "loss": 1.0137, "step": 5628 }, { "epoch": 1.1002133333333333, "grad_norm": 0.02400245519884449, "learning_rate": 0.0001, "loss": 1.0258, "step": 5629 }, { "epoch": 1.1002666666666667, "grad_norm": 0.02669355940761002, "learning_rate": 0.0001, "loss": 1.0116, "step": 5630 }, { "epoch": 1.10032, "grad_norm": 0.026752987986533135, "learning_rate": 0.0001, "loss": 1.0176, "step": 5631 }, { "epoch": 1.1003733333333334, "grad_norm": 0.02369763495097928, "learning_rate": 0.0001, "loss": 1.0138, "step": 5632 }, { "epoch": 1.1004266666666667, "grad_norm": 0.023468803176476934, "learning_rate": 0.0001, "loss": 0.9687, "step": 5633 }, { "epoch": 1.10048, "grad_norm": 0.02528860712090332, "learning_rate": 0.0001, "loss": 0.9857, "step": 5634 }, { "epoch": 1.1005333333333334, "grad_norm": 0.02440177407730071, "learning_rate": 0.0001, "loss": 1.0187, "step": 5635 }, { "epoch": 1.1005866666666666, "grad_norm": 0.025484259026444595, "learning_rate": 0.0001, "loss": 0.9843, "step": 5636 }, { "epoch": 1.10064, "grad_norm": 0.02388397905005154, "learning_rate": 0.0001, "loss": 0.9814, "step": 5637 }, { "epoch": 1.1006933333333333, "grad_norm": 0.024472034579618985, "learning_rate": 0.0001, "loss": 0.987, "step": 5638 }, { "epoch": 1.1007466666666668, "grad_norm": 0.023661322553545076, "learning_rate": 0.0001, "loss": 0.9321, "step": 5639 }, { "epoch": 1.1008, "grad_norm": 0.02432118609880922, "learning_rate": 0.0001, "loss": 0.9874, "step": 5640 }, { "epoch": 1.1008533333333332, "grad_norm": 0.02266564509495085, "learning_rate": 0.0001, "loss": 0.9559, "step": 5641 }, { "epoch": 1.1009066666666667, "grad_norm": 0.02285050556508099, "learning_rate": 0.0001, "loss": 0.9911, "step": 5642 }, { "epoch": 1.10096, "grad_norm": 0.024718541652846194, "learning_rate": 0.0001, "loss": 0.9597, "step": 5643 }, { "epoch": 1.1010133333333334, "grad_norm": 0.024325225605557617, "learning_rate": 0.0001, "loss": 0.9723, "step": 5644 }, { "epoch": 1.1010666666666666, "grad_norm": 0.02601902816423476, "learning_rate": 0.0001, "loss": 1.0223, "step": 5645 }, { "epoch": 1.10112, "grad_norm": 0.02504433368430826, "learning_rate": 0.0001, "loss": 0.9833, "step": 5646 }, { "epoch": 1.1011733333333333, "grad_norm": 0.023961213857143518, "learning_rate": 0.0001, "loss": 0.9522, "step": 5647 }, { "epoch": 1.1012266666666666, "grad_norm": 0.024519096485024965, "learning_rate": 0.0001, "loss": 1.0653, "step": 5648 }, { "epoch": 1.10128, "grad_norm": 0.02386774963871836, "learning_rate": 0.0001, "loss": 0.9295, "step": 5649 }, { "epoch": 1.1013333333333333, "grad_norm": 0.02486710715458161, "learning_rate": 0.0001, "loss": 1.0323, "step": 5650 }, { "epoch": 1.1013866666666667, "grad_norm": 0.025655902439552087, "learning_rate": 0.0001, "loss": 0.9104, "step": 5651 }, { "epoch": 1.10144, "grad_norm": 0.024209910444680963, "learning_rate": 0.0001, "loss": 1.0195, "step": 5652 }, { "epoch": 1.1014933333333334, "grad_norm": 0.02365821642766958, "learning_rate": 0.0001, "loss": 1.0512, "step": 5653 }, { "epoch": 1.1015466666666667, "grad_norm": 0.023137532311931094, "learning_rate": 0.0001, "loss": 0.9864, "step": 5654 }, { "epoch": 1.1016, "grad_norm": 0.023284460889304213, "learning_rate": 0.0001, "loss": 0.974, "step": 5655 }, { "epoch": 1.1016533333333334, "grad_norm": 0.024209516433346834, "learning_rate": 0.0001, "loss": 0.9776, "step": 5656 }, { "epoch": 1.1017066666666666, "grad_norm": 0.023466482888525757, "learning_rate": 0.0001, "loss": 0.9871, "step": 5657 }, { "epoch": 1.10176, "grad_norm": 0.024217456320927942, "learning_rate": 0.0001, "loss": 0.9412, "step": 5658 }, { "epoch": 1.1018133333333333, "grad_norm": 0.024565920121169336, "learning_rate": 0.0001, "loss": 0.9869, "step": 5659 }, { "epoch": 1.1018666666666665, "grad_norm": 0.02342100197632389, "learning_rate": 0.0001, "loss": 1.0027, "step": 5660 }, { "epoch": 1.10192, "grad_norm": 0.024330382686747854, "learning_rate": 0.0001, "loss": 0.9817, "step": 5661 }, { "epoch": 1.1019733333333332, "grad_norm": 0.024062921277976528, "learning_rate": 0.0001, "loss": 0.9695, "step": 5662 }, { "epoch": 1.1020266666666667, "grad_norm": 0.02495393327272086, "learning_rate": 0.0001, "loss": 0.9247, "step": 5663 }, { "epoch": 1.10208, "grad_norm": 0.02478337815861847, "learning_rate": 0.0001, "loss": 1.045, "step": 5664 }, { "epoch": 1.1021333333333334, "grad_norm": 0.025423483293232903, "learning_rate": 0.0001, "loss": 0.9512, "step": 5665 }, { "epoch": 1.1021866666666666, "grad_norm": 0.023271677431051886, "learning_rate": 0.0001, "loss": 0.9923, "step": 5666 }, { "epoch": 1.10224, "grad_norm": 0.024798632182202966, "learning_rate": 0.0001, "loss": 1.0327, "step": 5667 }, { "epoch": 1.1022933333333333, "grad_norm": 0.02440337625812419, "learning_rate": 0.0001, "loss": 0.9334, "step": 5668 }, { "epoch": 1.1023466666666666, "grad_norm": 0.024411119992089392, "learning_rate": 0.0001, "loss": 1.011, "step": 5669 }, { "epoch": 1.1024, "grad_norm": 0.02415166554067924, "learning_rate": 0.0001, "loss": 0.9237, "step": 5670 }, { "epoch": 1.1024533333333333, "grad_norm": 0.024125936384685468, "learning_rate": 0.0001, "loss": 1.0342, "step": 5671 }, { "epoch": 1.1025066666666667, "grad_norm": 0.02412293592332795, "learning_rate": 0.0001, "loss": 0.9985, "step": 5672 }, { "epoch": 1.10256, "grad_norm": 0.02521246944064526, "learning_rate": 0.0001, "loss": 0.9647, "step": 5673 }, { "epoch": 1.1026133333333332, "grad_norm": 0.025340221371096136, "learning_rate": 0.0001, "loss": 0.9434, "step": 5674 }, { "epoch": 1.1026666666666667, "grad_norm": 0.024926994059381827, "learning_rate": 0.0001, "loss": 0.9685, "step": 5675 }, { "epoch": 1.10272, "grad_norm": 0.024411539313029085, "learning_rate": 0.0001, "loss": 0.9934, "step": 5676 }, { "epoch": 1.1027733333333334, "grad_norm": 0.023450991124520666, "learning_rate": 0.0001, "loss": 0.9735, "step": 5677 }, { "epoch": 1.1028266666666666, "grad_norm": 0.025732116443767352, "learning_rate": 0.0001, "loss": 0.9439, "step": 5678 }, { "epoch": 1.10288, "grad_norm": 0.026494104272060292, "learning_rate": 0.0001, "loss": 0.9965, "step": 5679 }, { "epoch": 1.1029333333333333, "grad_norm": 0.024531821937277997, "learning_rate": 0.0001, "loss": 0.9609, "step": 5680 }, { "epoch": 1.1029866666666668, "grad_norm": 0.025096947491077777, "learning_rate": 0.0001, "loss": 0.9952, "step": 5681 }, { "epoch": 1.10304, "grad_norm": 0.02592827766559877, "learning_rate": 0.0001, "loss": 0.9694, "step": 5682 }, { "epoch": 1.1030933333333333, "grad_norm": 0.02760385133485528, "learning_rate": 0.0001, "loss": 1.0186, "step": 5683 }, { "epoch": 1.1031466666666667, "grad_norm": 0.024224126691885783, "learning_rate": 0.0001, "loss": 0.962, "step": 5684 }, { "epoch": 1.1032, "grad_norm": 0.023621459147206814, "learning_rate": 0.0001, "loss": 1.0013, "step": 5685 }, { "epoch": 1.1032533333333334, "grad_norm": 0.02440945028811691, "learning_rate": 0.0001, "loss": 0.9735, "step": 5686 }, { "epoch": 1.1033066666666667, "grad_norm": 0.024181156285096, "learning_rate": 0.0001, "loss": 1.0234, "step": 5687 }, { "epoch": 1.10336, "grad_norm": 0.02330791507532711, "learning_rate": 0.0001, "loss": 0.9711, "step": 5688 }, { "epoch": 1.1034133333333334, "grad_norm": 0.02388764210599723, "learning_rate": 0.0001, "loss": 0.955, "step": 5689 }, { "epoch": 1.1034666666666666, "grad_norm": 0.02364940422439363, "learning_rate": 0.0001, "loss": 0.9991, "step": 5690 }, { "epoch": 1.10352, "grad_norm": 0.023183852214704235, "learning_rate": 0.0001, "loss": 0.9354, "step": 5691 }, { "epoch": 1.1035733333333333, "grad_norm": 0.024570049444391576, "learning_rate": 0.0001, "loss": 0.908, "step": 5692 }, { "epoch": 1.1036266666666668, "grad_norm": 0.02341787883441545, "learning_rate": 0.0001, "loss": 1.0468, "step": 5693 }, { "epoch": 1.10368, "grad_norm": 0.024902572765729655, "learning_rate": 0.0001, "loss": 1.0404, "step": 5694 }, { "epoch": 1.1037333333333332, "grad_norm": 0.02435602600140661, "learning_rate": 0.0001, "loss": 1.0034, "step": 5695 }, { "epoch": 1.1037866666666667, "grad_norm": 0.026308071697665955, "learning_rate": 0.0001, "loss": 0.8999, "step": 5696 }, { "epoch": 1.10384, "grad_norm": 0.02494326436076829, "learning_rate": 0.0001, "loss": 0.9189, "step": 5697 }, { "epoch": 1.1038933333333334, "grad_norm": 0.025157043855064638, "learning_rate": 0.0001, "loss": 1.0236, "step": 5698 }, { "epoch": 1.1039466666666666, "grad_norm": 0.026308059333180884, "learning_rate": 0.0001, "loss": 0.9595, "step": 5699 }, { "epoch": 1.104, "grad_norm": 0.02521876485267348, "learning_rate": 0.0001, "loss": 0.9865, "step": 5700 }, { "epoch": 1.1040533333333333, "grad_norm": 0.023480319742917578, "learning_rate": 0.0001, "loss": 0.96, "step": 5701 }, { "epoch": 1.1041066666666666, "grad_norm": 0.024290664139781582, "learning_rate": 0.0001, "loss": 0.9716, "step": 5702 }, { "epoch": 1.10416, "grad_norm": 0.02467000089878983, "learning_rate": 0.0001, "loss": 1.0085, "step": 5703 }, { "epoch": 1.1042133333333333, "grad_norm": 0.023176188003987897, "learning_rate": 0.0001, "loss": 1.04, "step": 5704 }, { "epoch": 1.1042666666666667, "grad_norm": 0.026799275692690475, "learning_rate": 0.0001, "loss": 0.9819, "step": 5705 }, { "epoch": 1.10432, "grad_norm": 0.024609554791232047, "learning_rate": 0.0001, "loss": 0.9754, "step": 5706 }, { "epoch": 1.1043733333333334, "grad_norm": 0.0270970104228632, "learning_rate": 0.0001, "loss": 0.9661, "step": 5707 }, { "epoch": 1.1044266666666667, "grad_norm": 0.024757157405666322, "learning_rate": 0.0001, "loss": 0.9947, "step": 5708 }, { "epoch": 1.10448, "grad_norm": 0.024550443549874065, "learning_rate": 0.0001, "loss": 0.9458, "step": 5709 }, { "epoch": 1.1045333333333334, "grad_norm": 0.025009958707557404, "learning_rate": 0.0001, "loss": 1.0317, "step": 5710 }, { "epoch": 1.1045866666666666, "grad_norm": 0.024215540445977367, "learning_rate": 0.0001, "loss": 0.9371, "step": 5711 }, { "epoch": 1.10464, "grad_norm": 0.025262996005739682, "learning_rate": 0.0001, "loss": 0.9862, "step": 5712 }, { "epoch": 1.1046933333333333, "grad_norm": 0.024629455849490573, "learning_rate": 0.0001, "loss": 0.957, "step": 5713 }, { "epoch": 1.1047466666666668, "grad_norm": 0.02363729729718454, "learning_rate": 0.0001, "loss": 0.9844, "step": 5714 }, { "epoch": 1.1048, "grad_norm": 0.023686001949631455, "learning_rate": 0.0001, "loss": 0.9601, "step": 5715 }, { "epoch": 1.1048533333333332, "grad_norm": 0.02399599595005158, "learning_rate": 0.0001, "loss": 1.0136, "step": 5716 }, { "epoch": 1.1049066666666667, "grad_norm": 0.02441392151610895, "learning_rate": 0.0001, "loss": 1.0017, "step": 5717 }, { "epoch": 1.10496, "grad_norm": 0.023255291406890977, "learning_rate": 0.0001, "loss": 0.9813, "step": 5718 }, { "epoch": 1.1050133333333334, "grad_norm": 0.024156879083448966, "learning_rate": 0.0001, "loss": 0.9685, "step": 5719 }, { "epoch": 1.1050666666666666, "grad_norm": 0.023454716855884704, "learning_rate": 0.0001, "loss": 0.9983, "step": 5720 }, { "epoch": 1.10512, "grad_norm": 0.02295148676410401, "learning_rate": 0.0001, "loss": 0.9473, "step": 5721 }, { "epoch": 1.1051733333333333, "grad_norm": 0.023640334549520192, "learning_rate": 0.0001, "loss": 0.9678, "step": 5722 }, { "epoch": 1.1052266666666666, "grad_norm": 0.025809829482070768, "learning_rate": 0.0001, "loss": 1.0071, "step": 5723 }, { "epoch": 1.10528, "grad_norm": 0.02384290534851165, "learning_rate": 0.0001, "loss": 0.9816, "step": 5724 }, { "epoch": 1.1053333333333333, "grad_norm": 0.025198487285094294, "learning_rate": 0.0001, "loss": 0.9697, "step": 5725 }, { "epoch": 1.1053866666666667, "grad_norm": 0.02521676293857615, "learning_rate": 0.0001, "loss": 0.9959, "step": 5726 }, { "epoch": 1.10544, "grad_norm": 0.024699814150043714, "learning_rate": 0.0001, "loss": 0.9577, "step": 5727 }, { "epoch": 1.1054933333333334, "grad_norm": 0.024203783839079798, "learning_rate": 0.0001, "loss": 0.9604, "step": 5728 }, { "epoch": 1.1055466666666667, "grad_norm": 0.023063648560891728, "learning_rate": 0.0001, "loss": 1.0248, "step": 5729 }, { "epoch": 1.1056, "grad_norm": 0.024310417474311712, "learning_rate": 0.0001, "loss": 0.9364, "step": 5730 }, { "epoch": 1.1056533333333334, "grad_norm": 0.026882691935326122, "learning_rate": 0.0001, "loss": 1.0493, "step": 5731 }, { "epoch": 1.1057066666666666, "grad_norm": 0.02474679183841228, "learning_rate": 0.0001, "loss": 0.9656, "step": 5732 }, { "epoch": 1.10576, "grad_norm": 0.02533442431845857, "learning_rate": 0.0001, "loss": 0.9931, "step": 5733 }, { "epoch": 1.1058133333333333, "grad_norm": 0.025141255640614313, "learning_rate": 0.0001, "loss": 0.9635, "step": 5734 }, { "epoch": 1.1058666666666666, "grad_norm": 0.025032733430675448, "learning_rate": 0.0001, "loss": 1.0232, "step": 5735 }, { "epoch": 1.10592, "grad_norm": 0.02494299971457134, "learning_rate": 0.0001, "loss": 0.952, "step": 5736 }, { "epoch": 1.1059733333333333, "grad_norm": 0.027296097026488317, "learning_rate": 0.0001, "loss": 1.0194, "step": 5737 }, { "epoch": 1.1060266666666667, "grad_norm": 0.027370291153779466, "learning_rate": 0.0001, "loss": 0.9368, "step": 5738 }, { "epoch": 1.10608, "grad_norm": 0.027522947862159662, "learning_rate": 0.0001, "loss": 1.0714, "step": 5739 }, { "epoch": 1.1061333333333334, "grad_norm": 0.027793441518620142, "learning_rate": 0.0001, "loss": 0.9732, "step": 5740 }, { "epoch": 1.1061866666666667, "grad_norm": 0.025424229440947455, "learning_rate": 0.0001, "loss": 0.959, "step": 5741 }, { "epoch": 1.1062400000000001, "grad_norm": 0.025261919863052065, "learning_rate": 0.0001, "loss": 0.9369, "step": 5742 }, { "epoch": 1.1062933333333334, "grad_norm": 0.023263013108909228, "learning_rate": 0.0001, "loss": 0.9634, "step": 5743 }, { "epoch": 1.1063466666666666, "grad_norm": 0.02291017317651826, "learning_rate": 0.0001, "loss": 0.9514, "step": 5744 }, { "epoch": 1.1064, "grad_norm": 0.026768706182061522, "learning_rate": 0.0001, "loss": 0.9681, "step": 5745 }, { "epoch": 1.1064533333333333, "grad_norm": 0.022878302733354585, "learning_rate": 0.0001, "loss": 1.0172, "step": 5746 }, { "epoch": 1.1065066666666667, "grad_norm": 0.024253017641403165, "learning_rate": 0.0001, "loss": 0.9229, "step": 5747 }, { "epoch": 1.10656, "grad_norm": 0.023432666038394688, "learning_rate": 0.0001, "loss": 1.0797, "step": 5748 }, { "epoch": 1.1066133333333332, "grad_norm": 0.024411630832018152, "learning_rate": 0.0001, "loss": 0.9831, "step": 5749 }, { "epoch": 1.1066666666666667, "grad_norm": 0.0267523866630653, "learning_rate": 0.0001, "loss": 0.9989, "step": 5750 }, { "epoch": 1.10672, "grad_norm": 0.026075852380729795, "learning_rate": 0.0001, "loss": 1.022, "step": 5751 }, { "epoch": 1.1067733333333334, "grad_norm": 0.025479383134180262, "learning_rate": 0.0001, "loss": 0.8971, "step": 5752 }, { "epoch": 1.1068266666666666, "grad_norm": 0.024962912718087933, "learning_rate": 0.0001, "loss": 0.99, "step": 5753 }, { "epoch": 1.10688, "grad_norm": 0.025486901538910527, "learning_rate": 0.0001, "loss": 0.9925, "step": 5754 }, { "epoch": 1.1069333333333333, "grad_norm": 0.024552911565163843, "learning_rate": 0.0001, "loss": 0.9383, "step": 5755 }, { "epoch": 1.1069866666666666, "grad_norm": 0.025762341215076888, "learning_rate": 0.0001, "loss": 0.967, "step": 5756 }, { "epoch": 1.10704, "grad_norm": 0.023682444809990297, "learning_rate": 0.0001, "loss": 1.0092, "step": 5757 }, { "epoch": 1.1070933333333333, "grad_norm": 0.02558908717459632, "learning_rate": 0.0001, "loss": 0.9986, "step": 5758 }, { "epoch": 1.1071466666666667, "grad_norm": 0.023970197063280074, "learning_rate": 0.0001, "loss": 1.0145, "step": 5759 }, { "epoch": 1.1072, "grad_norm": 0.023722267576210623, "learning_rate": 0.0001, "loss": 1.0058, "step": 5760 }, { "epoch": 1.1072533333333334, "grad_norm": 0.02454350012026122, "learning_rate": 0.0001, "loss": 0.9956, "step": 5761 }, { "epoch": 1.1073066666666667, "grad_norm": 0.023393909846020213, "learning_rate": 0.0001, "loss": 0.9816, "step": 5762 }, { "epoch": 1.10736, "grad_norm": 0.024021926876560056, "learning_rate": 0.0001, "loss": 1.0334, "step": 5763 }, { "epoch": 1.1074133333333334, "grad_norm": 0.026831401906895803, "learning_rate": 0.0001, "loss": 1.0186, "step": 5764 }, { "epoch": 1.1074666666666666, "grad_norm": 0.023289107944469943, "learning_rate": 0.0001, "loss": 0.9541, "step": 5765 }, { "epoch": 1.10752, "grad_norm": 0.025347058977415456, "learning_rate": 0.0001, "loss": 0.9949, "step": 5766 }, { "epoch": 1.1075733333333333, "grad_norm": 0.02284190400671026, "learning_rate": 0.0001, "loss": 0.9447, "step": 5767 }, { "epoch": 1.1076266666666668, "grad_norm": 0.026208403866262324, "learning_rate": 0.0001, "loss": 0.9137, "step": 5768 }, { "epoch": 1.10768, "grad_norm": 0.027119032919969983, "learning_rate": 0.0001, "loss": 0.975, "step": 5769 }, { "epoch": 1.1077333333333332, "grad_norm": 0.02399165137558722, "learning_rate": 0.0001, "loss": 0.9998, "step": 5770 }, { "epoch": 1.1077866666666667, "grad_norm": 0.02731784115013912, "learning_rate": 0.0001, "loss": 0.9862, "step": 5771 }, { "epoch": 1.10784, "grad_norm": 0.02466814938655514, "learning_rate": 0.0001, "loss": 0.9889, "step": 5772 }, { "epoch": 1.1078933333333334, "grad_norm": 0.026002274840438284, "learning_rate": 0.0001, "loss": 1.0159, "step": 5773 }, { "epoch": 1.1079466666666666, "grad_norm": 0.023997827257462797, "learning_rate": 0.0001, "loss": 1.0059, "step": 5774 }, { "epoch": 1.108, "grad_norm": 0.024227286368251052, "learning_rate": 0.0001, "loss": 0.9811, "step": 5775 }, { "epoch": 1.1080533333333333, "grad_norm": 0.02601279025997172, "learning_rate": 0.0001, "loss": 1.0342, "step": 5776 }, { "epoch": 1.1081066666666666, "grad_norm": 0.027863787243752717, "learning_rate": 0.0001, "loss": 0.9879, "step": 5777 }, { "epoch": 1.10816, "grad_norm": 0.025476364650418328, "learning_rate": 0.0001, "loss": 0.9781, "step": 5778 }, { "epoch": 1.1082133333333333, "grad_norm": 0.028007182867645856, "learning_rate": 0.0001, "loss": 0.9707, "step": 5779 }, { "epoch": 1.1082666666666667, "grad_norm": 0.025110989738485186, "learning_rate": 0.0001, "loss": 1.0075, "step": 5780 }, { "epoch": 1.10832, "grad_norm": 0.024014903962715207, "learning_rate": 0.0001, "loss": 0.9455, "step": 5781 }, { "epoch": 1.1083733333333334, "grad_norm": 0.024711652409810714, "learning_rate": 0.0001, "loss": 0.9867, "step": 5782 }, { "epoch": 1.1084266666666667, "grad_norm": 0.024631043875630063, "learning_rate": 0.0001, "loss": 1.0223, "step": 5783 }, { "epoch": 1.10848, "grad_norm": 0.023958515321982156, "learning_rate": 0.0001, "loss": 1.0058, "step": 5784 }, { "epoch": 1.1085333333333334, "grad_norm": 0.02433904360206574, "learning_rate": 0.0001, "loss": 1.022, "step": 5785 }, { "epoch": 1.1085866666666666, "grad_norm": 0.02495867564205744, "learning_rate": 0.0001, "loss": 1.0292, "step": 5786 }, { "epoch": 1.10864, "grad_norm": 0.023487135769021214, "learning_rate": 0.0001, "loss": 0.9757, "step": 5787 }, { "epoch": 1.1086933333333333, "grad_norm": 0.026710257972031446, "learning_rate": 0.0001, "loss": 0.9815, "step": 5788 }, { "epoch": 1.1087466666666668, "grad_norm": 0.024795015446326937, "learning_rate": 0.0001, "loss": 0.9347, "step": 5789 }, { "epoch": 1.1088, "grad_norm": 0.024480103651101124, "learning_rate": 0.0001, "loss": 0.9997, "step": 5790 }, { "epoch": 1.1088533333333332, "grad_norm": 0.02484325153264851, "learning_rate": 0.0001, "loss": 0.9347, "step": 5791 }, { "epoch": 1.1089066666666667, "grad_norm": 0.02408094449064151, "learning_rate": 0.0001, "loss": 0.9841, "step": 5792 }, { "epoch": 1.10896, "grad_norm": 0.02664191662956247, "learning_rate": 0.0001, "loss": 0.9524, "step": 5793 }, { "epoch": 1.1090133333333334, "grad_norm": 0.025859763644660982, "learning_rate": 0.0001, "loss": 0.9413, "step": 5794 }, { "epoch": 1.1090666666666666, "grad_norm": 0.024489254810948803, "learning_rate": 0.0001, "loss": 0.9443, "step": 5795 }, { "epoch": 1.1091199999999999, "grad_norm": 0.025744030634845164, "learning_rate": 0.0001, "loss": 0.9791, "step": 5796 }, { "epoch": 1.1091733333333333, "grad_norm": 0.02516039952234454, "learning_rate": 0.0001, "loss": 0.9647, "step": 5797 }, { "epoch": 1.1092266666666666, "grad_norm": 0.024992922016709777, "learning_rate": 0.0001, "loss": 0.9634, "step": 5798 }, { "epoch": 1.10928, "grad_norm": 0.023849702203761706, "learning_rate": 0.0001, "loss": 0.9567, "step": 5799 }, { "epoch": 1.1093333333333333, "grad_norm": 0.025170668375922873, "learning_rate": 0.0001, "loss": 1.0356, "step": 5800 }, { "epoch": 1.1093333333333333, "eval_accuracy": 0.6182009414287016, "eval_loss": 1.3655881881713867, "eval_runtime": 63.2872, "eval_samples_per_second": 15.801, "eval_steps_per_second": 0.506, "step": 5800 }, { "epoch": 1.1093866666666667, "grad_norm": 0.025054542051416107, "learning_rate": 0.0001, "loss": 0.9654, "step": 5801 }, { "epoch": 1.10944, "grad_norm": 0.024317428278769093, "learning_rate": 0.0001, "loss": 0.9619, "step": 5802 }, { "epoch": 1.1094933333333334, "grad_norm": 0.025504314728592936, "learning_rate": 0.0001, "loss": 0.9892, "step": 5803 }, { "epoch": 1.1095466666666667, "grad_norm": 0.025092001522056002, "learning_rate": 0.0001, "loss": 0.9373, "step": 5804 }, { "epoch": 1.1096, "grad_norm": 0.024324796537428837, "learning_rate": 0.0001, "loss": 0.9827, "step": 5805 }, { "epoch": 1.1096533333333334, "grad_norm": 0.025284019604956756, "learning_rate": 0.0001, "loss": 0.9907, "step": 5806 }, { "epoch": 1.1097066666666666, "grad_norm": 0.02574916691093276, "learning_rate": 0.0001, "loss": 0.9597, "step": 5807 }, { "epoch": 1.10976, "grad_norm": 0.02463419970501748, "learning_rate": 0.0001, "loss": 0.9747, "step": 5808 }, { "epoch": 1.1098133333333333, "grad_norm": 0.02468322217649787, "learning_rate": 0.0001, "loss": 0.9639, "step": 5809 }, { "epoch": 1.1098666666666666, "grad_norm": 0.024669281612101326, "learning_rate": 0.0001, "loss": 1.0236, "step": 5810 }, { "epoch": 1.10992, "grad_norm": 0.024767611395539506, "learning_rate": 0.0001, "loss": 0.9984, "step": 5811 }, { "epoch": 1.1099733333333333, "grad_norm": 0.023285716624338225, "learning_rate": 0.0001, "loss": 0.9997, "step": 5812 }, { "epoch": 1.1100266666666667, "grad_norm": 0.02756785611804421, "learning_rate": 0.0001, "loss": 0.9811, "step": 5813 }, { "epoch": 1.11008, "grad_norm": 0.0258655839152441, "learning_rate": 0.0001, "loss": 0.9376, "step": 5814 }, { "epoch": 1.1101333333333334, "grad_norm": 0.02483086174542267, "learning_rate": 0.0001, "loss": 0.9865, "step": 5815 }, { "epoch": 1.1101866666666667, "grad_norm": 0.022416342381026827, "learning_rate": 0.0001, "loss": 0.9185, "step": 5816 }, { "epoch": 1.1102400000000001, "grad_norm": 0.02371497575266575, "learning_rate": 0.0001, "loss": 0.9253, "step": 5817 }, { "epoch": 1.1102933333333334, "grad_norm": 0.02509851553564867, "learning_rate": 0.0001, "loss": 0.9476, "step": 5818 }, { "epoch": 1.1103466666666666, "grad_norm": 0.023170080798750502, "learning_rate": 0.0001, "loss": 0.9777, "step": 5819 }, { "epoch": 1.1104, "grad_norm": 0.02489162874876585, "learning_rate": 0.0001, "loss": 1.0004, "step": 5820 }, { "epoch": 1.1104533333333333, "grad_norm": 0.02698251126135709, "learning_rate": 0.0001, "loss": 0.9558, "step": 5821 }, { "epoch": 1.1105066666666668, "grad_norm": 0.02395938112898078, "learning_rate": 0.0001, "loss": 1.0352, "step": 5822 }, { "epoch": 1.11056, "grad_norm": 0.023449258715526673, "learning_rate": 0.0001, "loss": 0.9717, "step": 5823 }, { "epoch": 1.1106133333333332, "grad_norm": 0.02347615878438622, "learning_rate": 0.0001, "loss": 0.937, "step": 5824 }, { "epoch": 1.1106666666666667, "grad_norm": 0.025746419398084537, "learning_rate": 0.0001, "loss": 0.9654, "step": 5825 }, { "epoch": 1.11072, "grad_norm": 0.023732712537787495, "learning_rate": 0.0001, "loss": 0.9509, "step": 5826 }, { "epoch": 1.1107733333333334, "grad_norm": 0.02567430580039889, "learning_rate": 0.0001, "loss": 0.9222, "step": 5827 }, { "epoch": 1.1108266666666666, "grad_norm": 0.02632791948539354, "learning_rate": 0.0001, "loss": 1.0037, "step": 5828 }, { "epoch": 1.11088, "grad_norm": 0.02379585561231056, "learning_rate": 0.0001, "loss": 0.9559, "step": 5829 }, { "epoch": 1.1109333333333333, "grad_norm": 0.02491626948998343, "learning_rate": 0.0001, "loss": 1.0225, "step": 5830 }, { "epoch": 1.1109866666666666, "grad_norm": 0.024919259025828953, "learning_rate": 0.0001, "loss": 0.9551, "step": 5831 }, { "epoch": 1.11104, "grad_norm": 0.024452444977629065, "learning_rate": 0.0001, "loss": 0.9551, "step": 5832 }, { "epoch": 1.1110933333333333, "grad_norm": 0.022512301695117823, "learning_rate": 0.0001, "loss": 0.9499, "step": 5833 }, { "epoch": 1.1111466666666667, "grad_norm": 0.028277124938258895, "learning_rate": 0.0001, "loss": 0.9726, "step": 5834 }, { "epoch": 1.1112, "grad_norm": 0.026755158338158943, "learning_rate": 0.0001, "loss": 0.9882, "step": 5835 }, { "epoch": 1.1112533333333334, "grad_norm": 0.02412643607301642, "learning_rate": 0.0001, "loss": 1.0096, "step": 5836 }, { "epoch": 1.1113066666666667, "grad_norm": 0.0259115557313889, "learning_rate": 0.0001, "loss": 0.9403, "step": 5837 }, { "epoch": 1.11136, "grad_norm": 0.02329279831865745, "learning_rate": 0.0001, "loss": 0.9539, "step": 5838 }, { "epoch": 1.1114133333333334, "grad_norm": 0.027519338167603744, "learning_rate": 0.0001, "loss": 0.9909, "step": 5839 }, { "epoch": 1.1114666666666666, "grad_norm": 0.02451102513474203, "learning_rate": 0.0001, "loss": 0.9642, "step": 5840 }, { "epoch": 1.11152, "grad_norm": 0.023713899430765066, "learning_rate": 0.0001, "loss": 0.9613, "step": 5841 }, { "epoch": 1.1115733333333333, "grad_norm": 0.02402120017223577, "learning_rate": 0.0001, "loss": 0.9594, "step": 5842 }, { "epoch": 1.1116266666666668, "grad_norm": 0.02420327661217613, "learning_rate": 0.0001, "loss": 1.001, "step": 5843 }, { "epoch": 1.11168, "grad_norm": 0.023272891946369615, "learning_rate": 0.0001, "loss": 0.9831, "step": 5844 }, { "epoch": 1.1117333333333332, "grad_norm": 0.02438404050455527, "learning_rate": 0.0001, "loss": 1.0105, "step": 5845 }, { "epoch": 1.1117866666666667, "grad_norm": 0.024778589230012114, "learning_rate": 0.0001, "loss": 0.98, "step": 5846 }, { "epoch": 1.11184, "grad_norm": 0.025074667843837335, "learning_rate": 0.0001, "loss": 0.989, "step": 5847 }, { "epoch": 1.1118933333333334, "grad_norm": 0.02335524378200087, "learning_rate": 0.0001, "loss": 0.9421, "step": 5848 }, { "epoch": 1.1119466666666666, "grad_norm": 0.026065333727846578, "learning_rate": 0.0001, "loss": 0.9645, "step": 5849 }, { "epoch": 1.112, "grad_norm": 0.02694971212130911, "learning_rate": 0.0001, "loss": 1.0013, "step": 5850 }, { "epoch": 1.1120533333333333, "grad_norm": 0.02283920621886357, "learning_rate": 0.0001, "loss": 0.9686, "step": 5851 }, { "epoch": 1.1121066666666666, "grad_norm": 0.025176800274640306, "learning_rate": 0.0001, "loss": 0.9802, "step": 5852 }, { "epoch": 1.11216, "grad_norm": 0.024182989385497164, "learning_rate": 0.0001, "loss": 0.998, "step": 5853 }, { "epoch": 1.1122133333333333, "grad_norm": 0.023041946305553583, "learning_rate": 0.0001, "loss": 0.9271, "step": 5854 }, { "epoch": 1.1122666666666667, "grad_norm": 0.02504923130281724, "learning_rate": 0.0001, "loss": 0.9321, "step": 5855 }, { "epoch": 1.11232, "grad_norm": 0.025329840477050548, "learning_rate": 0.0001, "loss": 0.9732, "step": 5856 }, { "epoch": 1.1123733333333334, "grad_norm": 0.0262925142162347, "learning_rate": 0.0001, "loss": 0.9893, "step": 5857 }, { "epoch": 1.1124266666666667, "grad_norm": 0.024823281198054072, "learning_rate": 0.0001, "loss": 0.998, "step": 5858 }, { "epoch": 1.11248, "grad_norm": 0.024566249075222934, "learning_rate": 0.0001, "loss": 1.0337, "step": 5859 }, { "epoch": 1.1125333333333334, "grad_norm": 0.02367537248310708, "learning_rate": 0.0001, "loss": 0.9804, "step": 5860 }, { "epoch": 1.1125866666666666, "grad_norm": 0.02501633535570611, "learning_rate": 0.0001, "loss": 1.0078, "step": 5861 }, { "epoch": 1.11264, "grad_norm": 0.028011619853165345, "learning_rate": 0.0001, "loss": 0.9731, "step": 5862 }, { "epoch": 1.1126933333333333, "grad_norm": 0.024483496468406266, "learning_rate": 0.0001, "loss": 1.0033, "step": 5863 }, { "epoch": 1.1127466666666668, "grad_norm": 0.023518805880280647, "learning_rate": 0.0001, "loss": 0.9959, "step": 5864 }, { "epoch": 1.1128, "grad_norm": 0.023994863333668865, "learning_rate": 0.0001, "loss": 0.9391, "step": 5865 }, { "epoch": 1.1128533333333333, "grad_norm": 0.025932479653673905, "learning_rate": 0.0001, "loss": 0.993, "step": 5866 }, { "epoch": 1.1129066666666667, "grad_norm": 0.0238900959599984, "learning_rate": 0.0001, "loss": 1.0321, "step": 5867 }, { "epoch": 1.11296, "grad_norm": 0.02335003158998613, "learning_rate": 0.0001, "loss": 1.0146, "step": 5868 }, { "epoch": 1.1130133333333334, "grad_norm": 0.024968321895009252, "learning_rate": 0.0001, "loss": 0.9528, "step": 5869 }, { "epoch": 1.1130666666666666, "grad_norm": 0.029764555370831215, "learning_rate": 0.0001, "loss": 0.9283, "step": 5870 }, { "epoch": 1.1131199999999999, "grad_norm": 0.023375916794441984, "learning_rate": 0.0001, "loss": 0.9863, "step": 5871 }, { "epoch": 1.1131733333333333, "grad_norm": 0.023342652294472445, "learning_rate": 0.0001, "loss": 0.9608, "step": 5872 }, { "epoch": 1.1132266666666666, "grad_norm": 0.024215939320929244, "learning_rate": 0.0001, "loss": 1.0071, "step": 5873 }, { "epoch": 1.11328, "grad_norm": 0.02546597475197924, "learning_rate": 0.0001, "loss": 0.9491, "step": 5874 }, { "epoch": 1.1133333333333333, "grad_norm": 0.024720779102156643, "learning_rate": 0.0001, "loss": 0.9404, "step": 5875 }, { "epoch": 1.1133866666666667, "grad_norm": 0.025270077244811024, "learning_rate": 0.0001, "loss": 0.954, "step": 5876 }, { "epoch": 1.11344, "grad_norm": 0.025514182921980634, "learning_rate": 0.0001, "loss": 0.9883, "step": 5877 }, { "epoch": 1.1134933333333334, "grad_norm": 0.022735055631217513, "learning_rate": 0.0001, "loss": 1.0081, "step": 5878 }, { "epoch": 1.1135466666666667, "grad_norm": 0.024372719397667723, "learning_rate": 0.0001, "loss": 0.9607, "step": 5879 }, { "epoch": 1.1136, "grad_norm": 0.024139064418314433, "learning_rate": 0.0001, "loss": 0.9307, "step": 5880 }, { "epoch": 1.1136533333333334, "grad_norm": 0.026046917376671173, "learning_rate": 0.0001, "loss": 0.9906, "step": 5881 }, { "epoch": 1.1137066666666666, "grad_norm": 0.024666091145529402, "learning_rate": 0.0001, "loss": 1.0444, "step": 5882 }, { "epoch": 1.11376, "grad_norm": 0.02405312826561245, "learning_rate": 0.0001, "loss": 0.945, "step": 5883 }, { "epoch": 1.1138133333333333, "grad_norm": 0.025849970860015715, "learning_rate": 0.0001, "loss": 0.9561, "step": 5884 }, { "epoch": 1.1138666666666666, "grad_norm": 0.025194055062102157, "learning_rate": 0.0001, "loss": 0.9973, "step": 5885 }, { "epoch": 1.11392, "grad_norm": 0.02549671005670012, "learning_rate": 0.0001, "loss": 0.9585, "step": 5886 }, { "epoch": 1.1139733333333333, "grad_norm": 0.023596048023300596, "learning_rate": 0.0001, "loss": 0.9811, "step": 5887 }, { "epoch": 1.1140266666666667, "grad_norm": 0.023072112951730884, "learning_rate": 0.0001, "loss": 0.992, "step": 5888 }, { "epoch": 1.11408, "grad_norm": 0.023469086430195678, "learning_rate": 0.0001, "loss": 0.9872, "step": 5889 }, { "epoch": 1.1141333333333334, "grad_norm": 0.02438587066103468, "learning_rate": 0.0001, "loss": 0.9832, "step": 5890 }, { "epoch": 1.1141866666666667, "grad_norm": 0.024930195486209932, "learning_rate": 0.0001, "loss": 0.9194, "step": 5891 }, { "epoch": 1.11424, "grad_norm": 0.02438642673165763, "learning_rate": 0.0001, "loss": 0.9922, "step": 5892 }, { "epoch": 1.1142933333333334, "grad_norm": 0.026166458450300925, "learning_rate": 0.0001, "loss": 0.9565, "step": 5893 }, { "epoch": 1.1143466666666666, "grad_norm": 0.024105710816736382, "learning_rate": 0.0001, "loss": 0.9664, "step": 5894 }, { "epoch": 1.1144, "grad_norm": 0.02469416453501075, "learning_rate": 0.0001, "loss": 0.9889, "step": 5895 }, { "epoch": 1.1144533333333333, "grad_norm": 0.023342164354857982, "learning_rate": 0.0001, "loss": 0.9953, "step": 5896 }, { "epoch": 1.1145066666666668, "grad_norm": 0.02440905340918853, "learning_rate": 0.0001, "loss": 0.9571, "step": 5897 }, { "epoch": 1.11456, "grad_norm": 0.02848188474118291, "learning_rate": 0.0001, "loss": 1.0169, "step": 5898 }, { "epoch": 1.1146133333333332, "grad_norm": 0.023255988257227248, "learning_rate": 0.0001, "loss": 0.9885, "step": 5899 }, { "epoch": 1.1146666666666667, "grad_norm": 0.023939783647570653, "learning_rate": 0.0001, "loss": 0.9898, "step": 5900 }, { "epoch": 1.11472, "grad_norm": 0.024062481061688998, "learning_rate": 0.0001, "loss": 0.9987, "step": 5901 }, { "epoch": 1.1147733333333334, "grad_norm": 0.024188476743634432, "learning_rate": 0.0001, "loss": 0.9719, "step": 5902 }, { "epoch": 1.1148266666666666, "grad_norm": 0.024785775415722952, "learning_rate": 0.0001, "loss": 0.9785, "step": 5903 }, { "epoch": 1.11488, "grad_norm": 0.02380051259747505, "learning_rate": 0.0001, "loss": 1.044, "step": 5904 }, { "epoch": 1.1149333333333333, "grad_norm": 0.021811826669405784, "learning_rate": 0.0001, "loss": 0.9662, "step": 5905 }, { "epoch": 1.1149866666666666, "grad_norm": 0.02502050514455395, "learning_rate": 0.0001, "loss": 1.0059, "step": 5906 }, { "epoch": 1.11504, "grad_norm": 0.02470039293691687, "learning_rate": 0.0001, "loss": 1.0419, "step": 5907 }, { "epoch": 1.1150933333333333, "grad_norm": 0.026511488099232802, "learning_rate": 0.0001, "loss": 0.9426, "step": 5908 }, { "epoch": 1.1151466666666667, "grad_norm": 0.03282893120921153, "learning_rate": 0.0001, "loss": 1.012, "step": 5909 }, { "epoch": 1.1152, "grad_norm": 0.025315671725951533, "learning_rate": 0.0001, "loss": 1.0357, "step": 5910 }, { "epoch": 1.1152533333333334, "grad_norm": 0.02387315802777819, "learning_rate": 0.0001, "loss": 0.9586, "step": 5911 }, { "epoch": 1.1153066666666667, "grad_norm": 0.025923789576962238, "learning_rate": 0.0001, "loss": 1.034, "step": 5912 }, { "epoch": 1.11536, "grad_norm": 0.023736441202909405, "learning_rate": 0.0001, "loss": 1.0227, "step": 5913 }, { "epoch": 1.1154133333333334, "grad_norm": 0.023522364785144058, "learning_rate": 0.0001, "loss": 0.9574, "step": 5914 }, { "epoch": 1.1154666666666666, "grad_norm": 0.025781041645689676, "learning_rate": 0.0001, "loss": 1.0055, "step": 5915 }, { "epoch": 1.11552, "grad_norm": 0.023489291715648147, "learning_rate": 0.0001, "loss": 0.9777, "step": 5916 }, { "epoch": 1.1155733333333333, "grad_norm": 0.023178649466714274, "learning_rate": 0.0001, "loss": 1.0203, "step": 5917 }, { "epoch": 1.1156266666666668, "grad_norm": 0.024967421233590855, "learning_rate": 0.0001, "loss": 0.996, "step": 5918 }, { "epoch": 1.11568, "grad_norm": 0.024452916801779273, "learning_rate": 0.0001, "loss": 0.9995, "step": 5919 }, { "epoch": 1.1157333333333332, "grad_norm": 0.02470185095910496, "learning_rate": 0.0001, "loss": 0.9505, "step": 5920 }, { "epoch": 1.1157866666666667, "grad_norm": 0.02612494689979026, "learning_rate": 0.0001, "loss": 0.981, "step": 5921 }, { "epoch": 1.11584, "grad_norm": 0.025166030896812516, "learning_rate": 0.0001, "loss": 0.9371, "step": 5922 }, { "epoch": 1.1158933333333334, "grad_norm": 0.02373893286070655, "learning_rate": 0.0001, "loss": 0.9846, "step": 5923 }, { "epoch": 1.1159466666666666, "grad_norm": 0.023526329275517028, "learning_rate": 0.0001, "loss": 1.001, "step": 5924 }, { "epoch": 1.116, "grad_norm": 0.02551595660749056, "learning_rate": 0.0001, "loss": 1.0133, "step": 5925 }, { "epoch": 1.1160533333333333, "grad_norm": 0.02529241440443662, "learning_rate": 0.0001, "loss": 0.9677, "step": 5926 }, { "epoch": 1.1161066666666666, "grad_norm": 0.02510435299372389, "learning_rate": 0.0001, "loss": 0.9759, "step": 5927 }, { "epoch": 1.11616, "grad_norm": 0.02573894982504277, "learning_rate": 0.0001, "loss": 0.9482, "step": 5928 }, { "epoch": 1.1162133333333333, "grad_norm": 0.02356310133640346, "learning_rate": 0.0001, "loss": 1.0253, "step": 5929 }, { "epoch": 1.1162666666666667, "grad_norm": 0.024322592758736855, "learning_rate": 0.0001, "loss": 0.9566, "step": 5930 }, { "epoch": 1.11632, "grad_norm": 0.02549094495128183, "learning_rate": 0.0001, "loss": 0.9808, "step": 5931 }, { "epoch": 1.1163733333333332, "grad_norm": 0.024997540818977527, "learning_rate": 0.0001, "loss": 0.9594, "step": 5932 }, { "epoch": 1.1164266666666667, "grad_norm": 0.023645588342810563, "learning_rate": 0.0001, "loss": 1.0237, "step": 5933 }, { "epoch": 1.11648, "grad_norm": 0.024586696323281015, "learning_rate": 0.0001, "loss": 0.951, "step": 5934 }, { "epoch": 1.1165333333333334, "grad_norm": 0.02334460096049282, "learning_rate": 0.0001, "loss": 0.9908, "step": 5935 }, { "epoch": 1.1165866666666666, "grad_norm": 0.025186694844563765, "learning_rate": 0.0001, "loss": 0.9, "step": 5936 }, { "epoch": 1.11664, "grad_norm": 0.025471599130743674, "learning_rate": 0.0001, "loss": 0.9588, "step": 5937 }, { "epoch": 1.1166933333333333, "grad_norm": 0.025923039344713423, "learning_rate": 0.0001, "loss": 0.9667, "step": 5938 }, { "epoch": 1.1167466666666668, "grad_norm": 0.02705317224208427, "learning_rate": 0.0001, "loss": 0.9949, "step": 5939 }, { "epoch": 1.1168, "grad_norm": 0.024810778333431503, "learning_rate": 0.0001, "loss": 0.9756, "step": 5940 }, { "epoch": 1.1168533333333333, "grad_norm": 0.023636843666888084, "learning_rate": 0.0001, "loss": 0.9732, "step": 5941 }, { "epoch": 1.1169066666666667, "grad_norm": 0.023680301873923778, "learning_rate": 0.0001, "loss": 0.9375, "step": 5942 }, { "epoch": 1.11696, "grad_norm": 0.025164740004557495, "learning_rate": 0.0001, "loss": 0.939, "step": 5943 }, { "epoch": 1.1170133333333334, "grad_norm": 0.021832322874211593, "learning_rate": 0.0001, "loss": 0.9959, "step": 5944 }, { "epoch": 1.1170666666666667, "grad_norm": 0.028343472549836057, "learning_rate": 0.0001, "loss": 0.9661, "step": 5945 }, { "epoch": 1.11712, "grad_norm": 0.02455532027838161, "learning_rate": 0.0001, "loss": 0.9931, "step": 5946 }, { "epoch": 1.1171733333333334, "grad_norm": 0.023688384443245693, "learning_rate": 0.0001, "loss": 1.0015, "step": 5947 }, { "epoch": 1.1172266666666666, "grad_norm": 0.025442165756779378, "learning_rate": 0.0001, "loss": 0.9357, "step": 5948 }, { "epoch": 1.11728, "grad_norm": 0.024057783358238518, "learning_rate": 0.0001, "loss": 0.9574, "step": 5949 }, { "epoch": 1.1173333333333333, "grad_norm": 0.023559160986768704, "learning_rate": 0.0001, "loss": 0.9552, "step": 5950 }, { "epoch": 1.1173866666666668, "grad_norm": 0.026069430500744294, "learning_rate": 0.0001, "loss": 1.0076, "step": 5951 }, { "epoch": 1.11744, "grad_norm": 0.02528933554315585, "learning_rate": 0.0001, "loss": 0.9984, "step": 5952 }, { "epoch": 1.1174933333333334, "grad_norm": 0.024591998646919917, "learning_rate": 0.0001, "loss": 0.9651, "step": 5953 }, { "epoch": 1.1175466666666667, "grad_norm": 0.023803522728687847, "learning_rate": 0.0001, "loss": 0.9172, "step": 5954 }, { "epoch": 1.1176, "grad_norm": 0.023437289425729965, "learning_rate": 0.0001, "loss": 1.0001, "step": 5955 }, { "epoch": 1.1176533333333334, "grad_norm": 0.02512819581475808, "learning_rate": 0.0001, "loss": 0.9816, "step": 5956 }, { "epoch": 1.1177066666666666, "grad_norm": 0.023553930759519608, "learning_rate": 0.0001, "loss": 1.004, "step": 5957 }, { "epoch": 1.11776, "grad_norm": 0.02471010083976714, "learning_rate": 0.0001, "loss": 0.9862, "step": 5958 }, { "epoch": 1.1178133333333333, "grad_norm": 0.023890978945947577, "learning_rate": 0.0001, "loss": 0.9803, "step": 5959 }, { "epoch": 1.1178666666666666, "grad_norm": 0.022719686722798883, "learning_rate": 0.0001, "loss": 1.0235, "step": 5960 }, { "epoch": 1.11792, "grad_norm": 0.024928643875970578, "learning_rate": 0.0001, "loss": 0.9576, "step": 5961 }, { "epoch": 1.1179733333333333, "grad_norm": 0.024187524320133626, "learning_rate": 0.0001, "loss": 0.9908, "step": 5962 }, { "epoch": 1.1180266666666667, "grad_norm": 0.023010009597304096, "learning_rate": 0.0001, "loss": 0.9286, "step": 5963 }, { "epoch": 1.11808, "grad_norm": 0.025770329808923405, "learning_rate": 0.0001, "loss": 0.9523, "step": 5964 }, { "epoch": 1.1181333333333334, "grad_norm": 0.02326110103783602, "learning_rate": 0.0001, "loss": 0.9989, "step": 5965 }, { "epoch": 1.1181866666666667, "grad_norm": 0.0242362814737316, "learning_rate": 0.0001, "loss": 0.994, "step": 5966 }, { "epoch": 1.11824, "grad_norm": 0.023763691900696368, "learning_rate": 0.0001, "loss": 0.9721, "step": 5967 }, { "epoch": 1.1182933333333334, "grad_norm": 0.022214671565407237, "learning_rate": 0.0001, "loss": 0.9373, "step": 5968 }, { "epoch": 1.1183466666666666, "grad_norm": 0.023997406499741927, "learning_rate": 0.0001, "loss": 0.9698, "step": 5969 }, { "epoch": 1.1184, "grad_norm": 0.026364675221371054, "learning_rate": 0.0001, "loss": 0.9916, "step": 5970 }, { "epoch": 1.1184533333333333, "grad_norm": 0.02497346291964689, "learning_rate": 0.0001, "loss": 0.9839, "step": 5971 }, { "epoch": 1.1185066666666668, "grad_norm": 0.023994914662545077, "learning_rate": 0.0001, "loss": 0.9907, "step": 5972 }, { "epoch": 1.11856, "grad_norm": 0.025946145637369633, "learning_rate": 0.0001, "loss": 0.9747, "step": 5973 }, { "epoch": 1.1186133333333332, "grad_norm": 0.025087637207131624, "learning_rate": 0.0001, "loss": 0.9563, "step": 5974 }, { "epoch": 1.1186666666666667, "grad_norm": 0.028135445898069326, "learning_rate": 0.0001, "loss": 0.9402, "step": 5975 }, { "epoch": 1.11872, "grad_norm": 0.02519388652607875, "learning_rate": 0.0001, "loss": 0.9251, "step": 5976 }, { "epoch": 1.1187733333333334, "grad_norm": 0.026487001176472888, "learning_rate": 0.0001, "loss": 0.9631, "step": 5977 }, { "epoch": 1.1188266666666666, "grad_norm": 0.024526707499611125, "learning_rate": 0.0001, "loss": 0.9721, "step": 5978 }, { "epoch": 1.11888, "grad_norm": 0.02449228509213342, "learning_rate": 0.0001, "loss": 1.0041, "step": 5979 }, { "epoch": 1.1189333333333333, "grad_norm": 0.025577130289059655, "learning_rate": 0.0001, "loss": 0.9998, "step": 5980 }, { "epoch": 1.1189866666666666, "grad_norm": 0.02395477208459, "learning_rate": 0.0001, "loss": 1.0047, "step": 5981 }, { "epoch": 1.11904, "grad_norm": 0.023696082038063726, "learning_rate": 0.0001, "loss": 0.9703, "step": 5982 }, { "epoch": 1.1190933333333333, "grad_norm": 0.024496516043729787, "learning_rate": 0.0001, "loss": 0.9872, "step": 5983 }, { "epoch": 1.1191466666666667, "grad_norm": 0.026819693563996116, "learning_rate": 0.0001, "loss": 0.9707, "step": 5984 }, { "epoch": 1.1192, "grad_norm": 0.024315839527815363, "learning_rate": 0.0001, "loss": 0.9609, "step": 5985 }, { "epoch": 1.1192533333333334, "grad_norm": 0.02435610986004348, "learning_rate": 0.0001, "loss": 0.9854, "step": 5986 }, { "epoch": 1.1193066666666667, "grad_norm": 0.025941478291374574, "learning_rate": 0.0001, "loss": 0.9529, "step": 5987 }, { "epoch": 1.11936, "grad_norm": 0.025423181050290834, "learning_rate": 0.0001, "loss": 1.0165, "step": 5988 }, { "epoch": 1.1194133333333334, "grad_norm": 0.023841892910702496, "learning_rate": 0.0001, "loss": 0.9737, "step": 5989 }, { "epoch": 1.1194666666666666, "grad_norm": 0.024220934486526836, "learning_rate": 0.0001, "loss": 0.8823, "step": 5990 }, { "epoch": 1.11952, "grad_norm": 0.023916493470116623, "learning_rate": 0.0001, "loss": 0.9501, "step": 5991 }, { "epoch": 1.1195733333333333, "grad_norm": 0.024003638362095847, "learning_rate": 0.0001, "loss": 0.8975, "step": 5992 }, { "epoch": 1.1196266666666668, "grad_norm": 0.025257647657716282, "learning_rate": 0.0001, "loss": 0.9753, "step": 5993 }, { "epoch": 1.11968, "grad_norm": 0.023817106705764264, "learning_rate": 0.0001, "loss": 0.9682, "step": 5994 }, { "epoch": 1.1197333333333332, "grad_norm": 0.024183624494873702, "learning_rate": 0.0001, "loss": 0.9772, "step": 5995 }, { "epoch": 1.1197866666666667, "grad_norm": 0.02465108177104548, "learning_rate": 0.0001, "loss": 0.9785, "step": 5996 }, { "epoch": 1.11984, "grad_norm": 0.024753519553122032, "learning_rate": 0.0001, "loss": 0.9582, "step": 5997 }, { "epoch": 1.1198933333333334, "grad_norm": 0.024227045145595625, "learning_rate": 0.0001, "loss": 0.9513, "step": 5998 }, { "epoch": 1.1199466666666666, "grad_norm": 0.023363983402364598, "learning_rate": 0.0001, "loss": 0.9631, "step": 5999 }, { "epoch": 1.12, "grad_norm": 0.023009824213017976, "learning_rate": 0.0001, "loss": 0.997, "step": 6000 }, { "epoch": 1.12, "eval_accuracy": 0.6183114529312923, "eval_loss": 1.3644635677337646, "eval_runtime": 62.3296, "eval_samples_per_second": 16.044, "eval_steps_per_second": 0.513, "step": 6000 }, { "epoch": 1.1200533333333333, "grad_norm": 0.026111068847343433, "learning_rate": 0.0001, "loss": 0.9702, "step": 6001 }, { "epoch": 1.1201066666666666, "grad_norm": 0.02517448246061294, "learning_rate": 0.0001, "loss": 0.9807, "step": 6002 }, { "epoch": 1.12016, "grad_norm": 0.023470320923546496, "learning_rate": 0.0001, "loss": 0.9791, "step": 6003 }, { "epoch": 1.1202133333333333, "grad_norm": 0.024581931633538168, "learning_rate": 0.0001, "loss": 1.0243, "step": 6004 }, { "epoch": 1.1202666666666667, "grad_norm": 0.02542269847506126, "learning_rate": 0.0001, "loss": 0.9878, "step": 6005 }, { "epoch": 1.12032, "grad_norm": 0.02461495181342963, "learning_rate": 0.0001, "loss": 1.0321, "step": 6006 }, { "epoch": 1.1203733333333332, "grad_norm": 0.024936951525056445, "learning_rate": 0.0001, "loss": 0.9808, "step": 6007 }, { "epoch": 1.1204266666666667, "grad_norm": 0.023580510191206088, "learning_rate": 0.0001, "loss": 0.9782, "step": 6008 }, { "epoch": 1.12048, "grad_norm": 0.022823630251138885, "learning_rate": 0.0001, "loss": 0.9765, "step": 6009 }, { "epoch": 1.1205333333333334, "grad_norm": 0.02472076483055284, "learning_rate": 0.0001, "loss": 0.955, "step": 6010 }, { "epoch": 1.1205866666666666, "grad_norm": 0.022979227294491922, "learning_rate": 0.0001, "loss": 1.0225, "step": 6011 }, { "epoch": 1.12064, "grad_norm": 0.022164063989539535, "learning_rate": 0.0001, "loss": 0.8615, "step": 6012 }, { "epoch": 1.1206933333333333, "grad_norm": 0.02450836953485121, "learning_rate": 0.0001, "loss": 0.9479, "step": 6013 }, { "epoch": 1.1207466666666668, "grad_norm": 0.024371346851702884, "learning_rate": 0.0001, "loss": 1.0177, "step": 6014 }, { "epoch": 1.1208, "grad_norm": 0.024205255573361954, "learning_rate": 0.0001, "loss": 0.9904, "step": 6015 }, { "epoch": 1.1208533333333333, "grad_norm": 0.02307162842576779, "learning_rate": 0.0001, "loss": 0.9667, "step": 6016 }, { "epoch": 1.1209066666666667, "grad_norm": 0.024311077607782193, "learning_rate": 0.0001, "loss": 0.9653, "step": 6017 }, { "epoch": 1.12096, "grad_norm": 0.024355621290816816, "learning_rate": 0.0001, "loss": 0.9737, "step": 6018 }, { "epoch": 1.1210133333333334, "grad_norm": 0.02495479196164724, "learning_rate": 0.0001, "loss": 0.9, "step": 6019 }, { "epoch": 1.1210666666666667, "grad_norm": 0.023140081012443074, "learning_rate": 0.0001, "loss": 1.0295, "step": 6020 }, { "epoch": 1.12112, "grad_norm": 0.022668277615880573, "learning_rate": 0.0001, "loss": 0.979, "step": 6021 }, { "epoch": 1.1211733333333334, "grad_norm": 0.024912704633046772, "learning_rate": 0.0001, "loss": 1.0283, "step": 6022 }, { "epoch": 1.1212266666666666, "grad_norm": 0.023977191294880316, "learning_rate": 0.0001, "loss": 0.981, "step": 6023 }, { "epoch": 1.12128, "grad_norm": 0.027283254420610237, "learning_rate": 0.0001, "loss": 1.0092, "step": 6024 }, { "epoch": 1.1213333333333333, "grad_norm": 0.023760982389956924, "learning_rate": 0.0001, "loss": 1.0564, "step": 6025 }, { "epoch": 1.1213866666666668, "grad_norm": 0.025792416960791636, "learning_rate": 0.0001, "loss": 0.9715, "step": 6026 }, { "epoch": 1.12144, "grad_norm": 0.024871047667753773, "learning_rate": 0.0001, "loss": 1.0337, "step": 6027 }, { "epoch": 1.1214933333333332, "grad_norm": 0.024285787341284684, "learning_rate": 0.0001, "loss": 0.9552, "step": 6028 }, { "epoch": 1.1215466666666667, "grad_norm": 0.02495529407029699, "learning_rate": 0.0001, "loss": 0.9825, "step": 6029 }, { "epoch": 1.1216, "grad_norm": 0.02437606357048867, "learning_rate": 0.0001, "loss": 0.9333, "step": 6030 }, { "epoch": 1.1216533333333334, "grad_norm": 0.024084019071030274, "learning_rate": 0.0001, "loss": 0.9798, "step": 6031 }, { "epoch": 1.1217066666666666, "grad_norm": 0.024219278610886383, "learning_rate": 0.0001, "loss": 0.896, "step": 6032 }, { "epoch": 1.12176, "grad_norm": 0.023864409033548528, "learning_rate": 0.0001, "loss": 0.967, "step": 6033 }, { "epoch": 1.1218133333333333, "grad_norm": 0.025003297524975803, "learning_rate": 0.0001, "loss": 1.0331, "step": 6034 }, { "epoch": 1.1218666666666666, "grad_norm": 0.023938998509968383, "learning_rate": 0.0001, "loss": 0.9979, "step": 6035 }, { "epoch": 1.12192, "grad_norm": 0.02446376424360774, "learning_rate": 0.0001, "loss": 0.9814, "step": 6036 }, { "epoch": 1.1219733333333333, "grad_norm": 0.025277468112871144, "learning_rate": 0.0001, "loss": 1.0097, "step": 6037 }, { "epoch": 1.1220266666666667, "grad_norm": 0.02475370929813907, "learning_rate": 0.0001, "loss": 0.9674, "step": 6038 }, { "epoch": 1.12208, "grad_norm": 0.024925789113269287, "learning_rate": 0.0001, "loss": 1.0081, "step": 6039 }, { "epoch": 1.1221333333333334, "grad_norm": 0.0270460472303692, "learning_rate": 0.0001, "loss": 1.0041, "step": 6040 }, { "epoch": 1.1221866666666667, "grad_norm": 0.024585384711934822, "learning_rate": 0.0001, "loss": 0.9689, "step": 6041 }, { "epoch": 1.12224, "grad_norm": 0.025038682339951997, "learning_rate": 0.0001, "loss": 1.0125, "step": 6042 }, { "epoch": 1.1222933333333334, "grad_norm": 0.024926258415304412, "learning_rate": 0.0001, "loss": 1.033, "step": 6043 }, { "epoch": 1.1223466666666666, "grad_norm": 0.023981757306526713, "learning_rate": 0.0001, "loss": 1.0259, "step": 6044 }, { "epoch": 1.1224, "grad_norm": 0.02320983230804631, "learning_rate": 0.0001, "loss": 0.9385, "step": 6045 }, { "epoch": 1.1224533333333333, "grad_norm": 0.025164343176467548, "learning_rate": 0.0001, "loss": 0.9553, "step": 6046 }, { "epoch": 1.1225066666666668, "grad_norm": 0.025433111491025572, "learning_rate": 0.0001, "loss": 0.9407, "step": 6047 }, { "epoch": 1.12256, "grad_norm": 0.0223265644176758, "learning_rate": 0.0001, "loss": 0.988, "step": 6048 }, { "epoch": 1.1226133333333332, "grad_norm": 0.023186571991223485, "learning_rate": 0.0001, "loss": 0.9618, "step": 6049 }, { "epoch": 1.1226666666666667, "grad_norm": 0.02623039342849378, "learning_rate": 0.0001, "loss": 1.0217, "step": 6050 }, { "epoch": 1.12272, "grad_norm": 0.023117770322666178, "learning_rate": 0.0001, "loss": 1.0002, "step": 6051 }, { "epoch": 1.1227733333333334, "grad_norm": 0.023145080210056453, "learning_rate": 0.0001, "loss": 1.0425, "step": 6052 }, { "epoch": 1.1228266666666666, "grad_norm": 0.02325204173811156, "learning_rate": 0.0001, "loss": 1.0152, "step": 6053 }, { "epoch": 1.12288, "grad_norm": 0.02311550861223969, "learning_rate": 0.0001, "loss": 0.9097, "step": 6054 }, { "epoch": 1.1229333333333333, "grad_norm": 0.025021780513159418, "learning_rate": 0.0001, "loss": 0.9455, "step": 6055 }, { "epoch": 1.1229866666666666, "grad_norm": 0.02281200586742871, "learning_rate": 0.0001, "loss": 0.931, "step": 6056 }, { "epoch": 1.12304, "grad_norm": 0.023590917739044866, "learning_rate": 0.0001, "loss": 0.968, "step": 6057 }, { "epoch": 1.1230933333333333, "grad_norm": 0.02583454650406388, "learning_rate": 0.0001, "loss": 0.9744, "step": 6058 }, { "epoch": 1.1231466666666667, "grad_norm": 0.02423128074029217, "learning_rate": 0.0001, "loss": 1.0181, "step": 6059 }, { "epoch": 1.1232, "grad_norm": 0.024363236004598887, "learning_rate": 0.0001, "loss": 0.9557, "step": 6060 }, { "epoch": 1.1232533333333334, "grad_norm": 0.02548819200245024, "learning_rate": 0.0001, "loss": 0.9638, "step": 6061 }, { "epoch": 1.1233066666666667, "grad_norm": 0.02393100922192328, "learning_rate": 0.0001, "loss": 0.9709, "step": 6062 }, { "epoch": 1.12336, "grad_norm": 0.024216208035003916, "learning_rate": 0.0001, "loss": 0.9458, "step": 6063 }, { "epoch": 1.1234133333333334, "grad_norm": 0.024528310397937587, "learning_rate": 0.0001, "loss": 0.9652, "step": 6064 }, { "epoch": 1.1234666666666666, "grad_norm": 0.02349848673022574, "learning_rate": 0.0001, "loss": 0.9816, "step": 6065 }, { "epoch": 1.12352, "grad_norm": 0.02361441541077125, "learning_rate": 0.0001, "loss": 0.988, "step": 6066 }, { "epoch": 1.1235733333333333, "grad_norm": 0.023063036694412203, "learning_rate": 0.0001, "loss": 0.9773, "step": 6067 }, { "epoch": 1.1236266666666666, "grad_norm": 0.024923984022584524, "learning_rate": 0.0001, "loss": 0.9197, "step": 6068 }, { "epoch": 1.12368, "grad_norm": 0.02443193174671285, "learning_rate": 0.0001, "loss": 0.9438, "step": 6069 }, { "epoch": 1.1237333333333333, "grad_norm": 0.023668298431952457, "learning_rate": 0.0001, "loss": 0.9807, "step": 6070 }, { "epoch": 1.1237866666666667, "grad_norm": 0.02488470210925742, "learning_rate": 0.0001, "loss": 1.0034, "step": 6071 }, { "epoch": 1.12384, "grad_norm": 0.025805907715965328, "learning_rate": 0.0001, "loss": 0.9561, "step": 6072 }, { "epoch": 1.1238933333333334, "grad_norm": 0.025477100545841617, "learning_rate": 0.0001, "loss": 1.0067, "step": 6073 }, { "epoch": 1.1239466666666666, "grad_norm": 0.022758288674456333, "learning_rate": 0.0001, "loss": 0.996, "step": 6074 }, { "epoch": 1.124, "grad_norm": 0.024151864042117298, "learning_rate": 0.0001, "loss": 0.9582, "step": 6075 }, { "epoch": 1.1240533333333333, "grad_norm": 0.025176434871005935, "learning_rate": 0.0001, "loss": 1.0606, "step": 6076 }, { "epoch": 1.1241066666666666, "grad_norm": 0.023365188082869495, "learning_rate": 0.0001, "loss": 0.997, "step": 6077 }, { "epoch": 1.12416, "grad_norm": 0.026567659140990508, "learning_rate": 0.0001, "loss": 1.0358, "step": 6078 }, { "epoch": 1.1242133333333333, "grad_norm": 0.023966067201656213, "learning_rate": 0.0001, "loss": 1.001, "step": 6079 }, { "epoch": 1.1242666666666667, "grad_norm": 0.021682254431922232, "learning_rate": 0.0001, "loss": 0.9953, "step": 6080 }, { "epoch": 1.12432, "grad_norm": 0.024738410270778208, "learning_rate": 0.0001, "loss": 0.9411, "step": 6081 }, { "epoch": 1.1243733333333332, "grad_norm": 0.030232619647930673, "learning_rate": 0.0001, "loss": 1.0065, "step": 6082 }, { "epoch": 1.1244266666666667, "grad_norm": 0.02734749327859642, "learning_rate": 0.0001, "loss": 0.9734, "step": 6083 }, { "epoch": 1.12448, "grad_norm": 0.02535893332748055, "learning_rate": 0.0001, "loss": 0.9625, "step": 6084 }, { "epoch": 1.1245333333333334, "grad_norm": 0.024013698409011897, "learning_rate": 0.0001, "loss": 0.9592, "step": 6085 }, { "epoch": 1.1245866666666666, "grad_norm": 0.0257133005195854, "learning_rate": 0.0001, "loss": 0.9458, "step": 6086 }, { "epoch": 1.12464, "grad_norm": 0.026785549897715748, "learning_rate": 0.0001, "loss": 0.9343, "step": 6087 }, { "epoch": 1.1246933333333333, "grad_norm": 0.023242032914863008, "learning_rate": 0.0001, "loss": 1.0032, "step": 6088 }, { "epoch": 1.1247466666666668, "grad_norm": 0.025721373248724522, "learning_rate": 0.0001, "loss": 0.9721, "step": 6089 }, { "epoch": 1.1248, "grad_norm": 0.023357480424529856, "learning_rate": 0.0001, "loss": 0.9223, "step": 6090 }, { "epoch": 1.1248533333333333, "grad_norm": 0.024412467269085192, "learning_rate": 0.0001, "loss": 0.9038, "step": 6091 }, { "epoch": 1.1249066666666667, "grad_norm": 0.026155456730368867, "learning_rate": 0.0001, "loss": 0.9688, "step": 6092 }, { "epoch": 1.12496, "grad_norm": 0.025461036010799073, "learning_rate": 0.0001, "loss": 0.9719, "step": 6093 }, { "epoch": 1.1250133333333334, "grad_norm": 0.02433667320993162, "learning_rate": 0.0001, "loss": 0.9574, "step": 6094 }, { "epoch": 1.1250666666666667, "grad_norm": 0.02522884207010873, "learning_rate": 0.0001, "loss": 0.9661, "step": 6095 }, { "epoch": 1.12512, "grad_norm": 0.02488105842528394, "learning_rate": 0.0001, "loss": 0.9834, "step": 6096 }, { "epoch": 1.1251733333333334, "grad_norm": 0.02644441159545943, "learning_rate": 0.0001, "loss": 1.0155, "step": 6097 }, { "epoch": 1.1252266666666666, "grad_norm": 0.024119250928534435, "learning_rate": 0.0001, "loss": 0.9422, "step": 6098 }, { "epoch": 1.12528, "grad_norm": 0.022850039345002696, "learning_rate": 0.0001, "loss": 0.9618, "step": 6099 }, { "epoch": 1.1253333333333333, "grad_norm": 0.026131544872740244, "learning_rate": 0.0001, "loss": 0.9646, "step": 6100 }, { "epoch": 1.1253866666666668, "grad_norm": 0.025100785661605597, "learning_rate": 0.0001, "loss": 0.9357, "step": 6101 }, { "epoch": 1.12544, "grad_norm": 0.023191751949923522, "learning_rate": 0.0001, "loss": 0.9971, "step": 6102 }, { "epoch": 1.1254933333333335, "grad_norm": 0.02291901236123668, "learning_rate": 0.0001, "loss": 0.9554, "step": 6103 }, { "epoch": 1.1255466666666667, "grad_norm": 0.024224498057176424, "learning_rate": 0.0001, "loss": 1.0561, "step": 6104 }, { "epoch": 1.1256, "grad_norm": 0.022659981162381757, "learning_rate": 0.0001, "loss": 0.9865, "step": 6105 }, { "epoch": 1.1256533333333334, "grad_norm": 0.024905839223880535, "learning_rate": 0.0001, "loss": 0.9354, "step": 6106 }, { "epoch": 1.1257066666666666, "grad_norm": 0.024248503982309134, "learning_rate": 0.0001, "loss": 1.0462, "step": 6107 }, { "epoch": 1.12576, "grad_norm": 0.02256962982459394, "learning_rate": 0.0001, "loss": 1.0096, "step": 6108 }, { "epoch": 1.1258133333333333, "grad_norm": 0.025145871260896346, "learning_rate": 0.0001, "loss": 1.0177, "step": 6109 }, { "epoch": 1.1258666666666666, "grad_norm": 0.025487308597288184, "learning_rate": 0.0001, "loss": 1.0007, "step": 6110 }, { "epoch": 1.12592, "grad_norm": 0.023688098743784258, "learning_rate": 0.0001, "loss": 0.9872, "step": 6111 }, { "epoch": 1.1259733333333333, "grad_norm": 0.02720305142404734, "learning_rate": 0.0001, "loss": 1.0016, "step": 6112 }, { "epoch": 1.1260266666666667, "grad_norm": 0.02420060419211194, "learning_rate": 0.0001, "loss": 0.9486, "step": 6113 }, { "epoch": 1.12608, "grad_norm": 0.024040665120437166, "learning_rate": 0.0001, "loss": 0.9896, "step": 6114 }, { "epoch": 1.1261333333333332, "grad_norm": 0.022552286008086345, "learning_rate": 0.0001, "loss": 0.962, "step": 6115 }, { "epoch": 1.1261866666666667, "grad_norm": 0.026065602388786538, "learning_rate": 0.0001, "loss": 0.9888, "step": 6116 }, { "epoch": 1.12624, "grad_norm": 0.02471755097170445, "learning_rate": 0.0001, "loss": 0.9249, "step": 6117 }, { "epoch": 1.1262933333333334, "grad_norm": 0.022442759208468235, "learning_rate": 0.0001, "loss": 1.0226, "step": 6118 }, { "epoch": 1.1263466666666666, "grad_norm": 0.024650044882784928, "learning_rate": 0.0001, "loss": 1.0009, "step": 6119 }, { "epoch": 1.1264, "grad_norm": 0.022850336723151825, "learning_rate": 0.0001, "loss": 0.9385, "step": 6120 }, { "epoch": 1.1264533333333333, "grad_norm": 0.023495321867095898, "learning_rate": 0.0001, "loss": 0.8973, "step": 6121 }, { "epoch": 1.1265066666666668, "grad_norm": 0.026489702841565543, "learning_rate": 0.0001, "loss": 0.9762, "step": 6122 }, { "epoch": 1.12656, "grad_norm": 0.02592051906073953, "learning_rate": 0.0001, "loss": 0.9895, "step": 6123 }, { "epoch": 1.1266133333333332, "grad_norm": 0.024218815716228675, "learning_rate": 0.0001, "loss": 0.9663, "step": 6124 }, { "epoch": 1.1266666666666667, "grad_norm": 0.02395802865784599, "learning_rate": 0.0001, "loss": 0.9942, "step": 6125 }, { "epoch": 1.12672, "grad_norm": 0.023783164391936683, "learning_rate": 0.0001, "loss": 0.9475, "step": 6126 }, { "epoch": 1.1267733333333334, "grad_norm": 0.023718381523590227, "learning_rate": 0.0001, "loss": 1.0118, "step": 6127 }, { "epoch": 1.1268266666666666, "grad_norm": 0.023638032357006674, "learning_rate": 0.0001, "loss": 0.9277, "step": 6128 }, { "epoch": 1.1268799999999999, "grad_norm": 0.02503764812833439, "learning_rate": 0.0001, "loss": 1.0171, "step": 6129 }, { "epoch": 1.1269333333333333, "grad_norm": 0.022926698025235427, "learning_rate": 0.0001, "loss": 1.0715, "step": 6130 }, { "epoch": 1.1269866666666666, "grad_norm": 0.02260598122252205, "learning_rate": 0.0001, "loss": 0.9276, "step": 6131 }, { "epoch": 1.12704, "grad_norm": 0.024037076659709732, "learning_rate": 0.0001, "loss": 1.005, "step": 6132 }, { "epoch": 1.1270933333333333, "grad_norm": 0.023784090523349646, "learning_rate": 0.0001, "loss": 0.9732, "step": 6133 }, { "epoch": 1.1271466666666667, "grad_norm": 0.025269687379305752, "learning_rate": 0.0001, "loss": 0.9254, "step": 6134 }, { "epoch": 1.1272, "grad_norm": 0.02503274856190863, "learning_rate": 0.0001, "loss": 0.9481, "step": 6135 }, { "epoch": 1.1272533333333334, "grad_norm": 0.023037683084154305, "learning_rate": 0.0001, "loss": 0.9803, "step": 6136 }, { "epoch": 1.1273066666666667, "grad_norm": 0.02626065038757913, "learning_rate": 0.0001, "loss": 0.9962, "step": 6137 }, { "epoch": 1.12736, "grad_norm": 0.02540429770808406, "learning_rate": 0.0001, "loss": 1.0076, "step": 6138 }, { "epoch": 1.1274133333333334, "grad_norm": 0.024089892844791624, "learning_rate": 0.0001, "loss": 0.9749, "step": 6139 }, { "epoch": 1.1274666666666666, "grad_norm": 0.025525417951854958, "learning_rate": 0.0001, "loss": 1.0008, "step": 6140 }, { "epoch": 1.12752, "grad_norm": 0.024979096260586937, "learning_rate": 0.0001, "loss": 0.9956, "step": 6141 }, { "epoch": 1.1275733333333333, "grad_norm": 0.025244529004704287, "learning_rate": 0.0001, "loss": 0.982, "step": 6142 }, { "epoch": 1.1276266666666666, "grad_norm": 0.024509688119205956, "learning_rate": 0.0001, "loss": 0.993, "step": 6143 }, { "epoch": 1.12768, "grad_norm": 0.025028287120394472, "learning_rate": 0.0001, "loss": 0.972, "step": 6144 }, { "epoch": 1.1277333333333333, "grad_norm": 0.0264418534708115, "learning_rate": 0.0001, "loss": 0.9192, "step": 6145 }, { "epoch": 1.1277866666666667, "grad_norm": 0.024920841984167386, "learning_rate": 0.0001, "loss": 0.9649, "step": 6146 }, { "epoch": 1.12784, "grad_norm": 0.024811896460693792, "learning_rate": 0.0001, "loss": 0.9672, "step": 6147 }, { "epoch": 1.1278933333333334, "grad_norm": 0.023771161696275637, "learning_rate": 0.0001, "loss": 0.9159, "step": 6148 }, { "epoch": 1.1279466666666667, "grad_norm": 0.024243997816041873, "learning_rate": 0.0001, "loss": 0.9497, "step": 6149 }, { "epoch": 1.1280000000000001, "grad_norm": 0.025412880561679257, "learning_rate": 0.0001, "loss": 0.9506, "step": 6150 }, { "epoch": 1.1280533333333334, "grad_norm": 0.027928726497623783, "learning_rate": 0.0001, "loss": 0.9723, "step": 6151 }, { "epoch": 1.1281066666666666, "grad_norm": 0.022233090055961573, "learning_rate": 0.0001, "loss": 0.936, "step": 6152 }, { "epoch": 1.12816, "grad_norm": 0.026755599038276158, "learning_rate": 0.0001, "loss": 1.026, "step": 6153 }, { "epoch": 1.1282133333333333, "grad_norm": 0.023081559877491737, "learning_rate": 0.0001, "loss": 0.9637, "step": 6154 }, { "epoch": 1.1282666666666668, "grad_norm": 0.023814950844741833, "learning_rate": 0.0001, "loss": 0.9594, "step": 6155 }, { "epoch": 1.12832, "grad_norm": 0.023605180229906028, "learning_rate": 0.0001, "loss": 1.0182, "step": 6156 }, { "epoch": 1.1283733333333332, "grad_norm": 0.025111224493499885, "learning_rate": 0.0001, "loss": 0.9757, "step": 6157 }, { "epoch": 1.1284266666666667, "grad_norm": 0.02425242370254257, "learning_rate": 0.0001, "loss": 0.9997, "step": 6158 }, { "epoch": 1.12848, "grad_norm": 0.02601308310997367, "learning_rate": 0.0001, "loss": 0.941, "step": 6159 }, { "epoch": 1.1285333333333334, "grad_norm": 0.02415136379981654, "learning_rate": 0.0001, "loss": 0.9274, "step": 6160 }, { "epoch": 1.1285866666666666, "grad_norm": 0.024838454495899505, "learning_rate": 0.0001, "loss": 0.947, "step": 6161 }, { "epoch": 1.12864, "grad_norm": 0.024158128680993433, "learning_rate": 0.0001, "loss": 0.9743, "step": 6162 }, { "epoch": 1.1286933333333333, "grad_norm": 0.024699254355516526, "learning_rate": 0.0001, "loss": 0.963, "step": 6163 }, { "epoch": 1.1287466666666668, "grad_norm": 0.02554673124672243, "learning_rate": 0.0001, "loss": 0.9663, "step": 6164 }, { "epoch": 1.1288, "grad_norm": 0.024426187632880427, "learning_rate": 0.0001, "loss": 0.9894, "step": 6165 }, { "epoch": 1.1288533333333333, "grad_norm": 0.026321459829796064, "learning_rate": 0.0001, "loss": 1.0011, "step": 6166 }, { "epoch": 1.1289066666666667, "grad_norm": 0.023840216092616485, "learning_rate": 0.0001, "loss": 0.965, "step": 6167 }, { "epoch": 1.12896, "grad_norm": 0.02551228337121447, "learning_rate": 0.0001, "loss": 0.9735, "step": 6168 }, { "epoch": 1.1290133333333334, "grad_norm": 0.022461522049469163, "learning_rate": 0.0001, "loss": 0.9512, "step": 6169 }, { "epoch": 1.1290666666666667, "grad_norm": 0.02692177760310647, "learning_rate": 0.0001, "loss": 0.9625, "step": 6170 }, { "epoch": 1.12912, "grad_norm": 0.023942360882934305, "learning_rate": 0.0001, "loss": 0.9875, "step": 6171 }, { "epoch": 1.1291733333333334, "grad_norm": 0.02503899256004894, "learning_rate": 0.0001, "loss": 0.9435, "step": 6172 }, { "epoch": 1.1292266666666666, "grad_norm": 0.023654882548216554, "learning_rate": 0.0001, "loss": 0.9659, "step": 6173 }, { "epoch": 1.12928, "grad_norm": 0.02553762042443435, "learning_rate": 0.0001, "loss": 1.0404, "step": 6174 }, { "epoch": 1.1293333333333333, "grad_norm": 0.02385422998797272, "learning_rate": 0.0001, "loss": 0.9466, "step": 6175 }, { "epoch": 1.1293866666666668, "grad_norm": 0.025334634425684996, "learning_rate": 0.0001, "loss": 0.9753, "step": 6176 }, { "epoch": 1.12944, "grad_norm": 0.028155287725483813, "learning_rate": 0.0001, "loss": 0.9963, "step": 6177 }, { "epoch": 1.1294933333333332, "grad_norm": 0.024488475336720217, "learning_rate": 0.0001, "loss": 0.9704, "step": 6178 }, { "epoch": 1.1295466666666667, "grad_norm": 0.02641291845625174, "learning_rate": 0.0001, "loss": 0.9693, "step": 6179 }, { "epoch": 1.1296, "grad_norm": 0.027398434497250664, "learning_rate": 0.0001, "loss": 0.9218, "step": 6180 }, { "epoch": 1.1296533333333334, "grad_norm": 0.023067012676708545, "learning_rate": 0.0001, "loss": 0.9884, "step": 6181 }, { "epoch": 1.1297066666666666, "grad_norm": 0.024563008576837922, "learning_rate": 0.0001, "loss": 0.9948, "step": 6182 }, { "epoch": 1.12976, "grad_norm": 0.02437301095109284, "learning_rate": 0.0001, "loss": 0.9508, "step": 6183 }, { "epoch": 1.1298133333333333, "grad_norm": 0.030982068318175224, "learning_rate": 0.0001, "loss": 0.9905, "step": 6184 }, { "epoch": 1.1298666666666666, "grad_norm": 0.02437734939862814, "learning_rate": 0.0001, "loss": 0.9858, "step": 6185 }, { "epoch": 1.12992, "grad_norm": 0.02358691967933695, "learning_rate": 0.0001, "loss": 0.9331, "step": 6186 }, { "epoch": 1.1299733333333333, "grad_norm": 0.027353145036304614, "learning_rate": 0.0001, "loss": 0.9691, "step": 6187 }, { "epoch": 1.1300266666666667, "grad_norm": 0.023817086485990204, "learning_rate": 0.0001, "loss": 0.9377, "step": 6188 }, { "epoch": 1.13008, "grad_norm": 0.02369949507919073, "learning_rate": 0.0001, "loss": 0.9446, "step": 6189 }, { "epoch": 1.1301333333333332, "grad_norm": 0.024275952619615303, "learning_rate": 0.0001, "loss": 0.9466, "step": 6190 }, { "epoch": 1.1301866666666667, "grad_norm": 0.023039032526374438, "learning_rate": 0.0001, "loss": 0.9503, "step": 6191 }, { "epoch": 1.13024, "grad_norm": 0.02500086659048086, "learning_rate": 0.0001, "loss": 1.029, "step": 6192 }, { "epoch": 1.1302933333333334, "grad_norm": 0.02301590864901697, "learning_rate": 0.0001, "loss": 1.0525, "step": 6193 }, { "epoch": 1.1303466666666666, "grad_norm": 0.02567149615224196, "learning_rate": 0.0001, "loss": 0.9857, "step": 6194 }, { "epoch": 1.1304, "grad_norm": 0.025283142351649912, "learning_rate": 0.0001, "loss": 0.9552, "step": 6195 }, { "epoch": 1.1304533333333333, "grad_norm": 0.024873782018034293, "learning_rate": 0.0001, "loss": 0.979, "step": 6196 }, { "epoch": 1.1305066666666668, "grad_norm": 0.025395101405061054, "learning_rate": 0.0001, "loss": 0.9616, "step": 6197 }, { "epoch": 1.13056, "grad_norm": 0.024029624849588975, "learning_rate": 0.0001, "loss": 0.9326, "step": 6198 }, { "epoch": 1.1306133333333332, "grad_norm": 0.02431843064479585, "learning_rate": 0.0001, "loss": 1.0119, "step": 6199 }, { "epoch": 1.1306666666666667, "grad_norm": 0.0227029774440774, "learning_rate": 0.0001, "loss": 0.9585, "step": 6200 }, { "epoch": 1.1306666666666667, "eval_accuracy": 0.6184966489289307, "eval_loss": 1.3635296821594238, "eval_runtime": 63.3817, "eval_samples_per_second": 15.777, "eval_steps_per_second": 0.505, "step": 6200 }, { "epoch": 1.13072, "grad_norm": 0.023810241535526994, "learning_rate": 0.0001, "loss": 1.0046, "step": 6201 }, { "epoch": 1.1307733333333334, "grad_norm": 0.02381625555295138, "learning_rate": 0.0001, "loss": 0.9598, "step": 6202 }, { "epoch": 1.1308266666666666, "grad_norm": 0.024893055141667484, "learning_rate": 0.0001, "loss": 0.9721, "step": 6203 }, { "epoch": 1.1308799999999999, "grad_norm": 0.02380990459412209, "learning_rate": 0.0001, "loss": 0.9728, "step": 6204 }, { "epoch": 1.1309333333333333, "grad_norm": 0.023741686907397395, "learning_rate": 0.0001, "loss": 0.9848, "step": 6205 }, { "epoch": 1.1309866666666666, "grad_norm": 0.024816415182014447, "learning_rate": 0.0001, "loss": 0.9501, "step": 6206 }, { "epoch": 1.13104, "grad_norm": 0.023456065702652715, "learning_rate": 0.0001, "loss": 0.8911, "step": 6207 }, { "epoch": 1.1310933333333333, "grad_norm": 0.02314931131221301, "learning_rate": 0.0001, "loss": 1.0344, "step": 6208 }, { "epoch": 1.1311466666666667, "grad_norm": 0.026720757318299693, "learning_rate": 0.0001, "loss": 1.0103, "step": 6209 }, { "epoch": 1.1312, "grad_norm": 0.024739752724987008, "learning_rate": 0.0001, "loss": 1.0242, "step": 6210 }, { "epoch": 1.1312533333333334, "grad_norm": 0.024274034764124656, "learning_rate": 0.0001, "loss": 0.9494, "step": 6211 }, { "epoch": 1.1313066666666667, "grad_norm": 0.023097522245960744, "learning_rate": 0.0001, "loss": 0.9727, "step": 6212 }, { "epoch": 1.13136, "grad_norm": 0.025720197284344364, "learning_rate": 0.0001, "loss": 1.0181, "step": 6213 }, { "epoch": 1.1314133333333334, "grad_norm": 0.022501823846149457, "learning_rate": 0.0001, "loss": 0.9895, "step": 6214 }, { "epoch": 1.1314666666666666, "grad_norm": 0.02536686596682958, "learning_rate": 0.0001, "loss": 1.0163, "step": 6215 }, { "epoch": 1.13152, "grad_norm": 0.02551174468030929, "learning_rate": 0.0001, "loss": 0.9519, "step": 6216 }, { "epoch": 1.1315733333333333, "grad_norm": 0.023212498369046233, "learning_rate": 0.0001, "loss": 0.963, "step": 6217 }, { "epoch": 1.1316266666666666, "grad_norm": 0.026447963661568916, "learning_rate": 0.0001, "loss": 0.9861, "step": 6218 }, { "epoch": 1.13168, "grad_norm": 0.025262156202335368, "learning_rate": 0.0001, "loss": 0.9782, "step": 6219 }, { "epoch": 1.1317333333333333, "grad_norm": 0.023319604876406618, "learning_rate": 0.0001, "loss": 0.9563, "step": 6220 }, { "epoch": 1.1317866666666667, "grad_norm": 0.024574509305105855, "learning_rate": 0.0001, "loss": 0.9963, "step": 6221 }, { "epoch": 1.13184, "grad_norm": 0.023904010349038902, "learning_rate": 0.0001, "loss": 0.9924, "step": 6222 }, { "epoch": 1.1318933333333334, "grad_norm": 0.027067100055024728, "learning_rate": 0.0001, "loss": 0.9214, "step": 6223 }, { "epoch": 1.1319466666666667, "grad_norm": 0.023770460079688527, "learning_rate": 0.0001, "loss": 0.9667, "step": 6224 }, { "epoch": 1.1320000000000001, "grad_norm": 0.023705172816230368, "learning_rate": 0.0001, "loss": 0.918, "step": 6225 }, { "epoch": 1.1320533333333334, "grad_norm": 0.02613152282660081, "learning_rate": 0.0001, "loss": 0.9761, "step": 6226 }, { "epoch": 1.1321066666666666, "grad_norm": 0.025788615092379327, "learning_rate": 0.0001, "loss": 0.9703, "step": 6227 }, { "epoch": 1.13216, "grad_norm": 0.02334815934504521, "learning_rate": 0.0001, "loss": 1.0195, "step": 6228 }, { "epoch": 1.1322133333333333, "grad_norm": 0.023566546498926387, "learning_rate": 0.0001, "loss": 1.001, "step": 6229 }, { "epoch": 1.1322666666666668, "grad_norm": 0.027101348354894497, "learning_rate": 0.0001, "loss": 0.9397, "step": 6230 }, { "epoch": 1.13232, "grad_norm": 0.023721203902675302, "learning_rate": 0.0001, "loss": 0.8889, "step": 6231 }, { "epoch": 1.1323733333333332, "grad_norm": 0.023726450509201025, "learning_rate": 0.0001, "loss": 0.9915, "step": 6232 }, { "epoch": 1.1324266666666667, "grad_norm": 0.024917492630879095, "learning_rate": 0.0001, "loss": 1.0497, "step": 6233 }, { "epoch": 1.13248, "grad_norm": 0.023610686883277703, "learning_rate": 0.0001, "loss": 1.0029, "step": 6234 }, { "epoch": 1.1325333333333334, "grad_norm": 0.023200103092173067, "learning_rate": 0.0001, "loss": 0.9475, "step": 6235 }, { "epoch": 1.1325866666666666, "grad_norm": 0.028454044777031836, "learning_rate": 0.0001, "loss": 0.9743, "step": 6236 }, { "epoch": 1.13264, "grad_norm": 0.027446062884232937, "learning_rate": 0.0001, "loss": 0.9986, "step": 6237 }, { "epoch": 1.1326933333333333, "grad_norm": 0.025359955009642828, "learning_rate": 0.0001, "loss": 0.9516, "step": 6238 }, { "epoch": 1.1327466666666668, "grad_norm": 0.026416662128823393, "learning_rate": 0.0001, "loss": 0.9842, "step": 6239 }, { "epoch": 1.1328, "grad_norm": 0.024024258075885964, "learning_rate": 0.0001, "loss": 0.9802, "step": 6240 }, { "epoch": 1.1328533333333333, "grad_norm": 0.02455338558794006, "learning_rate": 0.0001, "loss": 0.9708, "step": 6241 }, { "epoch": 1.1329066666666667, "grad_norm": 0.025239839718249918, "learning_rate": 0.0001, "loss": 0.9418, "step": 6242 }, { "epoch": 1.13296, "grad_norm": 0.02248351355849562, "learning_rate": 0.0001, "loss": 0.9364, "step": 6243 }, { "epoch": 1.1330133333333334, "grad_norm": 0.025514866032073126, "learning_rate": 0.0001, "loss": 0.9351, "step": 6244 }, { "epoch": 1.1330666666666667, "grad_norm": 0.024949946459870583, "learning_rate": 0.0001, "loss": 0.9697, "step": 6245 }, { "epoch": 1.13312, "grad_norm": 0.022972560531962, "learning_rate": 0.0001, "loss": 0.9509, "step": 6246 }, { "epoch": 1.1331733333333334, "grad_norm": 0.02474476971494049, "learning_rate": 0.0001, "loss": 0.9827, "step": 6247 }, { "epoch": 1.1332266666666666, "grad_norm": 0.026383987751659916, "learning_rate": 0.0001, "loss": 0.9469, "step": 6248 }, { "epoch": 1.13328, "grad_norm": 0.02496342811955565, "learning_rate": 0.0001, "loss": 0.9397, "step": 6249 }, { "epoch": 1.1333333333333333, "grad_norm": 0.023566542501435896, "learning_rate": 0.0001, "loss": 1.0428, "step": 6250 }, { "epoch": 1.1333866666666665, "grad_norm": 0.02563228866347953, "learning_rate": 0.0001, "loss": 0.9494, "step": 6251 }, { "epoch": 1.13344, "grad_norm": 0.0232566425048362, "learning_rate": 0.0001, "loss": 0.9568, "step": 6252 }, { "epoch": 1.1334933333333332, "grad_norm": 0.02602743465646449, "learning_rate": 0.0001, "loss": 0.9676, "step": 6253 }, { "epoch": 1.1335466666666667, "grad_norm": 0.023474880851999766, "learning_rate": 0.0001, "loss": 0.9762, "step": 6254 }, { "epoch": 1.1336, "grad_norm": 0.02467508931738061, "learning_rate": 0.0001, "loss": 0.9643, "step": 6255 }, { "epoch": 1.1336533333333334, "grad_norm": 0.024554180095735564, "learning_rate": 0.0001, "loss": 0.9729, "step": 6256 }, { "epoch": 1.1337066666666666, "grad_norm": 0.025028045286178226, "learning_rate": 0.0001, "loss": 0.9641, "step": 6257 }, { "epoch": 1.13376, "grad_norm": 0.02435033852630937, "learning_rate": 0.0001, "loss": 0.9691, "step": 6258 }, { "epoch": 1.1338133333333333, "grad_norm": 0.02823130710231987, "learning_rate": 0.0001, "loss": 0.987, "step": 6259 }, { "epoch": 1.1338666666666666, "grad_norm": 0.025246701048993753, "learning_rate": 0.0001, "loss": 1.0149, "step": 6260 }, { "epoch": 1.13392, "grad_norm": 0.02608428515814389, "learning_rate": 0.0001, "loss": 1.0022, "step": 6261 }, { "epoch": 1.1339733333333333, "grad_norm": 0.024173936024423363, "learning_rate": 0.0001, "loss": 0.9693, "step": 6262 }, { "epoch": 1.1340266666666667, "grad_norm": 0.024870123371411326, "learning_rate": 0.0001, "loss": 0.9557, "step": 6263 }, { "epoch": 1.13408, "grad_norm": 0.024336711709777952, "learning_rate": 0.0001, "loss": 0.9827, "step": 6264 }, { "epoch": 1.1341333333333332, "grad_norm": 0.024114020861607226, "learning_rate": 0.0001, "loss": 0.9252, "step": 6265 }, { "epoch": 1.1341866666666667, "grad_norm": 0.02494917739101946, "learning_rate": 0.0001, "loss": 0.992, "step": 6266 }, { "epoch": 1.13424, "grad_norm": 0.02653453805781737, "learning_rate": 0.0001, "loss": 0.9493, "step": 6267 }, { "epoch": 1.1342933333333334, "grad_norm": 0.024309014515579392, "learning_rate": 0.0001, "loss": 0.9468, "step": 6268 }, { "epoch": 1.1343466666666666, "grad_norm": 0.024745950074251885, "learning_rate": 0.0001, "loss": 1.0253, "step": 6269 }, { "epoch": 1.1344, "grad_norm": 0.026624318477129524, "learning_rate": 0.0001, "loss": 1.0586, "step": 6270 }, { "epoch": 1.1344533333333333, "grad_norm": 0.028018918100180694, "learning_rate": 0.0001, "loss": 0.9052, "step": 6271 }, { "epoch": 1.1345066666666668, "grad_norm": 0.02424306459936888, "learning_rate": 0.0001, "loss": 0.9343, "step": 6272 }, { "epoch": 1.13456, "grad_norm": 0.02786765784891461, "learning_rate": 0.0001, "loss": 0.9355, "step": 6273 }, { "epoch": 1.1346133333333333, "grad_norm": 0.024557459398895913, "learning_rate": 0.0001, "loss": 0.9935, "step": 6274 }, { "epoch": 1.1346666666666667, "grad_norm": 0.026229883230482132, "learning_rate": 0.0001, "loss": 0.9177, "step": 6275 }, { "epoch": 1.13472, "grad_norm": 0.027690034203638483, "learning_rate": 0.0001, "loss": 1.0046, "step": 6276 }, { "epoch": 1.1347733333333334, "grad_norm": 0.025068438814169723, "learning_rate": 0.0001, "loss": 0.9087, "step": 6277 }, { "epoch": 1.1348266666666667, "grad_norm": 0.02745221416528204, "learning_rate": 0.0001, "loss": 0.8997, "step": 6278 }, { "epoch": 1.1348799999999999, "grad_norm": 0.02590812577855964, "learning_rate": 0.0001, "loss": 0.9933, "step": 6279 }, { "epoch": 1.1349333333333333, "grad_norm": 0.027912998856617084, "learning_rate": 0.0001, "loss": 1.0202, "step": 6280 }, { "epoch": 1.1349866666666666, "grad_norm": 0.024154070761963416, "learning_rate": 0.0001, "loss": 0.976, "step": 6281 }, { "epoch": 1.13504, "grad_norm": 0.02511778483090487, "learning_rate": 0.0001, "loss": 1.0012, "step": 6282 }, { "epoch": 1.1350933333333333, "grad_norm": 0.025119192115491278, "learning_rate": 0.0001, "loss": 1.0068, "step": 6283 }, { "epoch": 1.1351466666666667, "grad_norm": 0.026775306196735568, "learning_rate": 0.0001, "loss": 0.9431, "step": 6284 }, { "epoch": 1.1352, "grad_norm": 0.024915579578611048, "learning_rate": 0.0001, "loss": 0.9908, "step": 6285 }, { "epoch": 1.1352533333333334, "grad_norm": 0.023032899350952634, "learning_rate": 0.0001, "loss": 0.9553, "step": 6286 }, { "epoch": 1.1353066666666667, "grad_norm": 0.02394654252202087, "learning_rate": 0.0001, "loss": 0.9597, "step": 6287 }, { "epoch": 1.13536, "grad_norm": 0.02418217759788644, "learning_rate": 0.0001, "loss": 0.9892, "step": 6288 }, { "epoch": 1.1354133333333334, "grad_norm": 0.025836032682371023, "learning_rate": 0.0001, "loss": 0.986, "step": 6289 }, { "epoch": 1.1354666666666666, "grad_norm": 0.022899282435598346, "learning_rate": 0.0001, "loss": 0.9339, "step": 6290 }, { "epoch": 1.13552, "grad_norm": 0.022678063920103787, "learning_rate": 0.0001, "loss": 0.9443, "step": 6291 }, { "epoch": 1.1355733333333333, "grad_norm": 0.024033479384927853, "learning_rate": 0.0001, "loss": 0.9099, "step": 6292 }, { "epoch": 1.1356266666666666, "grad_norm": 0.02502333895408304, "learning_rate": 0.0001, "loss": 1.0379, "step": 6293 }, { "epoch": 1.13568, "grad_norm": 0.024286514932002904, "learning_rate": 0.0001, "loss": 0.9482, "step": 6294 }, { "epoch": 1.1357333333333333, "grad_norm": 0.022581725345157316, "learning_rate": 0.0001, "loss": 0.9812, "step": 6295 }, { "epoch": 1.1357866666666667, "grad_norm": 0.023804943302821215, "learning_rate": 0.0001, "loss": 0.958, "step": 6296 }, { "epoch": 1.13584, "grad_norm": 0.02288801716325332, "learning_rate": 0.0001, "loss": 0.921, "step": 6297 }, { "epoch": 1.1358933333333334, "grad_norm": 0.024173125880748013, "learning_rate": 0.0001, "loss": 0.9135, "step": 6298 }, { "epoch": 1.1359466666666667, "grad_norm": 0.024260484777648965, "learning_rate": 0.0001, "loss": 0.9989, "step": 6299 }, { "epoch": 1.1360000000000001, "grad_norm": 0.022313465080804736, "learning_rate": 0.0001, "loss": 1.0044, "step": 6300 }, { "epoch": 1.1360533333333334, "grad_norm": 0.024354417247663268, "learning_rate": 0.0001, "loss": 0.9414, "step": 6301 }, { "epoch": 1.1361066666666666, "grad_norm": 0.02433730231965083, "learning_rate": 0.0001, "loss": 1.0087, "step": 6302 }, { "epoch": 1.13616, "grad_norm": 0.02230347347243854, "learning_rate": 0.0001, "loss": 0.986, "step": 6303 }, { "epoch": 1.1362133333333333, "grad_norm": 0.02155087598813873, "learning_rate": 0.0001, "loss": 0.9748, "step": 6304 }, { "epoch": 1.1362666666666668, "grad_norm": 0.023086190966207534, "learning_rate": 0.0001, "loss": 0.9563, "step": 6305 }, { "epoch": 1.13632, "grad_norm": 0.023940433596383738, "learning_rate": 0.0001, "loss": 0.9665, "step": 6306 }, { "epoch": 1.1363733333333332, "grad_norm": 0.02440739090779018, "learning_rate": 0.0001, "loss": 0.9453, "step": 6307 }, { "epoch": 1.1364266666666667, "grad_norm": 0.024245239259599642, "learning_rate": 0.0001, "loss": 0.921, "step": 6308 }, { "epoch": 1.13648, "grad_norm": 0.02373605356488629, "learning_rate": 0.0001, "loss": 0.9726, "step": 6309 }, { "epoch": 1.1365333333333334, "grad_norm": 0.023514256369988766, "learning_rate": 0.0001, "loss": 1.0182, "step": 6310 }, { "epoch": 1.1365866666666666, "grad_norm": 0.024093931373637967, "learning_rate": 0.0001, "loss": 0.9783, "step": 6311 }, { "epoch": 1.13664, "grad_norm": 0.023716466128258062, "learning_rate": 0.0001, "loss": 0.9574, "step": 6312 }, { "epoch": 1.1366933333333333, "grad_norm": 0.02442705919304108, "learning_rate": 0.0001, "loss": 1.0256, "step": 6313 }, { "epoch": 1.1367466666666666, "grad_norm": 0.024614998443177202, "learning_rate": 0.0001, "loss": 0.9693, "step": 6314 }, { "epoch": 1.1368, "grad_norm": 0.02270315974378459, "learning_rate": 0.0001, "loss": 0.9151, "step": 6315 }, { "epoch": 1.1368533333333333, "grad_norm": 0.024853013504019864, "learning_rate": 0.0001, "loss": 0.9736, "step": 6316 }, { "epoch": 1.1369066666666667, "grad_norm": 0.023717825219213225, "learning_rate": 0.0001, "loss": 1.0076, "step": 6317 }, { "epoch": 1.13696, "grad_norm": 0.0262595493676375, "learning_rate": 0.0001, "loss": 0.9803, "step": 6318 }, { "epoch": 1.1370133333333334, "grad_norm": 0.024847488297286585, "learning_rate": 0.0001, "loss": 1.0077, "step": 6319 }, { "epoch": 1.1370666666666667, "grad_norm": 0.023852706617085325, "learning_rate": 0.0001, "loss": 1.0472, "step": 6320 }, { "epoch": 1.13712, "grad_norm": 0.024430395656273304, "learning_rate": 0.0001, "loss": 0.9357, "step": 6321 }, { "epoch": 1.1371733333333334, "grad_norm": 0.02296572827861205, "learning_rate": 0.0001, "loss": 0.959, "step": 6322 }, { "epoch": 1.1372266666666666, "grad_norm": 0.023208215186654734, "learning_rate": 0.0001, "loss": 0.9354, "step": 6323 }, { "epoch": 1.13728, "grad_norm": 0.02309556606839938, "learning_rate": 0.0001, "loss": 0.9827, "step": 6324 }, { "epoch": 1.1373333333333333, "grad_norm": 0.023822114255089198, "learning_rate": 0.0001, "loss": 0.9901, "step": 6325 }, { "epoch": 1.1373866666666665, "grad_norm": 0.023143037529911977, "learning_rate": 0.0001, "loss": 1.0431, "step": 6326 }, { "epoch": 1.13744, "grad_norm": 0.026511524979378764, "learning_rate": 0.0001, "loss": 0.9206, "step": 6327 }, { "epoch": 1.1374933333333332, "grad_norm": 0.02391648836119645, "learning_rate": 0.0001, "loss": 0.9855, "step": 6328 }, { "epoch": 1.1375466666666667, "grad_norm": 0.02292448068392983, "learning_rate": 0.0001, "loss": 0.94, "step": 6329 }, { "epoch": 1.1376, "grad_norm": 0.024627183630149242, "learning_rate": 0.0001, "loss": 0.9453, "step": 6330 }, { "epoch": 1.1376533333333334, "grad_norm": 0.023476917298193328, "learning_rate": 0.0001, "loss": 0.9794, "step": 6331 }, { "epoch": 1.1377066666666666, "grad_norm": 0.022731974827275073, "learning_rate": 0.0001, "loss": 0.9447, "step": 6332 }, { "epoch": 1.13776, "grad_norm": 0.025724531524506673, "learning_rate": 0.0001, "loss": 1.0315, "step": 6333 }, { "epoch": 1.1378133333333333, "grad_norm": 0.024448526062343275, "learning_rate": 0.0001, "loss": 0.9836, "step": 6334 }, { "epoch": 1.1378666666666666, "grad_norm": 0.0233477678805777, "learning_rate": 0.0001, "loss": 0.9438, "step": 6335 }, { "epoch": 1.13792, "grad_norm": 0.025874323867214544, "learning_rate": 0.0001, "loss": 0.9469, "step": 6336 }, { "epoch": 1.1379733333333333, "grad_norm": 0.023700988566114984, "learning_rate": 0.0001, "loss": 0.9669, "step": 6337 }, { "epoch": 1.1380266666666667, "grad_norm": 0.024226089840556308, "learning_rate": 0.0001, "loss": 0.9726, "step": 6338 }, { "epoch": 1.13808, "grad_norm": 0.023604265098804214, "learning_rate": 0.0001, "loss": 1.0294, "step": 6339 }, { "epoch": 1.1381333333333332, "grad_norm": 0.024705527585522673, "learning_rate": 0.0001, "loss": 0.9042, "step": 6340 }, { "epoch": 1.1381866666666667, "grad_norm": 0.024405342514253015, "learning_rate": 0.0001, "loss": 0.9215, "step": 6341 }, { "epoch": 1.13824, "grad_norm": 0.026655892109698365, "learning_rate": 0.0001, "loss": 0.9873, "step": 6342 }, { "epoch": 1.1382933333333334, "grad_norm": 0.024694596146734856, "learning_rate": 0.0001, "loss": 0.9454, "step": 6343 }, { "epoch": 1.1383466666666666, "grad_norm": 0.02547858603839723, "learning_rate": 0.0001, "loss": 1.011, "step": 6344 }, { "epoch": 1.1384, "grad_norm": 0.02614606970619272, "learning_rate": 0.0001, "loss": 0.9801, "step": 6345 }, { "epoch": 1.1384533333333333, "grad_norm": 0.025607997800384676, "learning_rate": 0.0001, "loss": 1.0328, "step": 6346 }, { "epoch": 1.1385066666666668, "grad_norm": 0.026090350234659953, "learning_rate": 0.0001, "loss": 1.0326, "step": 6347 }, { "epoch": 1.13856, "grad_norm": 0.0248663711631664, "learning_rate": 0.0001, "loss": 1.0089, "step": 6348 }, { "epoch": 1.1386133333333333, "grad_norm": 0.02580076622949218, "learning_rate": 0.0001, "loss": 0.9523, "step": 6349 }, { "epoch": 1.1386666666666667, "grad_norm": 0.024489516154717318, "learning_rate": 0.0001, "loss": 0.8883, "step": 6350 }, { "epoch": 1.13872, "grad_norm": 0.023984384835825642, "learning_rate": 0.0001, "loss": 0.9471, "step": 6351 }, { "epoch": 1.1387733333333334, "grad_norm": 0.025292642583557522, "learning_rate": 0.0001, "loss": 0.9229, "step": 6352 }, { "epoch": 1.1388266666666667, "grad_norm": 0.026052918636883506, "learning_rate": 0.0001, "loss": 0.9703, "step": 6353 }, { "epoch": 1.13888, "grad_norm": 0.02846263906180166, "learning_rate": 0.0001, "loss": 0.9427, "step": 6354 }, { "epoch": 1.1389333333333334, "grad_norm": 0.02580918168918304, "learning_rate": 0.0001, "loss": 0.9797, "step": 6355 }, { "epoch": 1.1389866666666666, "grad_norm": 0.025901967246875476, "learning_rate": 0.0001, "loss": 0.9871, "step": 6356 }, { "epoch": 1.13904, "grad_norm": 0.026689874802297783, "learning_rate": 0.0001, "loss": 1.029, "step": 6357 }, { "epoch": 1.1390933333333333, "grad_norm": 0.02793515074538281, "learning_rate": 0.0001, "loss": 0.9812, "step": 6358 }, { "epoch": 1.1391466666666668, "grad_norm": 0.02632963463789118, "learning_rate": 0.0001, "loss": 0.9803, "step": 6359 }, { "epoch": 1.1392, "grad_norm": 0.02417241403681167, "learning_rate": 0.0001, "loss": 0.9887, "step": 6360 }, { "epoch": 1.1392533333333335, "grad_norm": 0.02688378278427708, "learning_rate": 0.0001, "loss": 0.8994, "step": 6361 }, { "epoch": 1.1393066666666667, "grad_norm": 0.02437384942918246, "learning_rate": 0.0001, "loss": 0.989, "step": 6362 }, { "epoch": 1.13936, "grad_norm": 0.02487071772147045, "learning_rate": 0.0001, "loss": 1.0305, "step": 6363 }, { "epoch": 1.1394133333333334, "grad_norm": 0.024600973047999644, "learning_rate": 0.0001, "loss": 1.003, "step": 6364 }, { "epoch": 1.1394666666666666, "grad_norm": 0.02540785519746137, "learning_rate": 0.0001, "loss": 0.9129, "step": 6365 }, { "epoch": 1.13952, "grad_norm": 0.024160967745178168, "learning_rate": 0.0001, "loss": 0.9739, "step": 6366 }, { "epoch": 1.1395733333333333, "grad_norm": 0.024532691267725774, "learning_rate": 0.0001, "loss": 1.0028, "step": 6367 }, { "epoch": 1.1396266666666666, "grad_norm": 0.024761506652442963, "learning_rate": 0.0001, "loss": 0.9737, "step": 6368 }, { "epoch": 1.13968, "grad_norm": 0.024652705826265966, "learning_rate": 0.0001, "loss": 1.0034, "step": 6369 }, { "epoch": 1.1397333333333333, "grad_norm": 0.02545978098779614, "learning_rate": 0.0001, "loss": 0.9686, "step": 6370 }, { "epoch": 1.1397866666666667, "grad_norm": 0.02295422423669946, "learning_rate": 0.0001, "loss": 0.9628, "step": 6371 }, { "epoch": 1.13984, "grad_norm": 0.025564167893754087, "learning_rate": 0.0001, "loss": 1.0129, "step": 6372 }, { "epoch": 1.1398933333333334, "grad_norm": 0.022540697234308293, "learning_rate": 0.0001, "loss": 1.0119, "step": 6373 }, { "epoch": 1.1399466666666667, "grad_norm": 0.025386995073081075, "learning_rate": 0.0001, "loss": 0.911, "step": 6374 }, { "epoch": 1.1400000000000001, "grad_norm": 0.023320870140435265, "learning_rate": 0.0001, "loss": 0.9465, "step": 6375 }, { "epoch": 1.1400533333333334, "grad_norm": 0.02690990287075511, "learning_rate": 0.0001, "loss": 0.9314, "step": 6376 }, { "epoch": 1.1401066666666666, "grad_norm": 0.022438099335574866, "learning_rate": 0.0001, "loss": 0.9589, "step": 6377 }, { "epoch": 1.14016, "grad_norm": 0.024572559078319584, "learning_rate": 0.0001, "loss": 0.9031, "step": 6378 }, { "epoch": 1.1402133333333333, "grad_norm": 0.02488433997001856, "learning_rate": 0.0001, "loss": 0.979, "step": 6379 }, { "epoch": 1.1402666666666668, "grad_norm": 0.02402286828241841, "learning_rate": 0.0001, "loss": 0.9978, "step": 6380 }, { "epoch": 1.14032, "grad_norm": 0.025036529699760286, "learning_rate": 0.0001, "loss": 0.9058, "step": 6381 }, { "epoch": 1.1403733333333332, "grad_norm": 0.025880062427014978, "learning_rate": 0.0001, "loss": 1.0104, "step": 6382 }, { "epoch": 1.1404266666666667, "grad_norm": 0.025739387493262187, "learning_rate": 0.0001, "loss": 0.9652, "step": 6383 }, { "epoch": 1.14048, "grad_norm": 0.025746335267111956, "learning_rate": 0.0001, "loss": 0.9, "step": 6384 }, { "epoch": 1.1405333333333334, "grad_norm": 0.024421113826270487, "learning_rate": 0.0001, "loss": 0.9701, "step": 6385 }, { "epoch": 1.1405866666666666, "grad_norm": 0.024647791301940798, "learning_rate": 0.0001, "loss": 0.9895, "step": 6386 }, { "epoch": 1.1406399999999999, "grad_norm": 0.022101797752025264, "learning_rate": 0.0001, "loss": 0.9783, "step": 6387 }, { "epoch": 1.1406933333333333, "grad_norm": 0.025813447216464048, "learning_rate": 0.0001, "loss": 0.9687, "step": 6388 }, { "epoch": 1.1407466666666666, "grad_norm": 0.025671302801500477, "learning_rate": 0.0001, "loss": 0.9334, "step": 6389 }, { "epoch": 1.1408, "grad_norm": 0.024746648559867, "learning_rate": 0.0001, "loss": 0.954, "step": 6390 }, { "epoch": 1.1408533333333333, "grad_norm": 0.024273517074715614, "learning_rate": 0.0001, "loss": 0.9552, "step": 6391 }, { "epoch": 1.1409066666666667, "grad_norm": 0.024190977757733528, "learning_rate": 0.0001, "loss": 0.9949, "step": 6392 }, { "epoch": 1.14096, "grad_norm": 0.023869766035121063, "learning_rate": 0.0001, "loss": 1.0328, "step": 6393 }, { "epoch": 1.1410133333333334, "grad_norm": 0.025244302265803025, "learning_rate": 0.0001, "loss": 0.9424, "step": 6394 }, { "epoch": 1.1410666666666667, "grad_norm": 0.025175132795299503, "learning_rate": 0.0001, "loss": 0.921, "step": 6395 }, { "epoch": 1.14112, "grad_norm": 0.02487249438718337, "learning_rate": 0.0001, "loss": 0.9974, "step": 6396 }, { "epoch": 1.1411733333333334, "grad_norm": 0.023171446752744424, "learning_rate": 0.0001, "loss": 0.9445, "step": 6397 }, { "epoch": 1.1412266666666666, "grad_norm": 0.024840245645674833, "learning_rate": 0.0001, "loss": 0.9922, "step": 6398 }, { "epoch": 1.14128, "grad_norm": 0.024777010186551783, "learning_rate": 0.0001, "loss": 1.0342, "step": 6399 }, { "epoch": 1.1413333333333333, "grad_norm": 0.025090654374568915, "learning_rate": 0.0001, "loss": 0.9672, "step": 6400 }, { "epoch": 1.1413333333333333, "eval_accuracy": 0.6186734942706756, "eval_loss": 1.3626307249069214, "eval_runtime": 63.9635, "eval_samples_per_second": 15.634, "eval_steps_per_second": 0.5, "step": 6400 }, { "epoch": 1.1413866666666665, "grad_norm": 0.024818713669395216, "learning_rate": 0.0001, "loss": 1.0496, "step": 6401 }, { "epoch": 1.14144, "grad_norm": 0.0234534580988266, "learning_rate": 0.0001, "loss": 0.9783, "step": 6402 }, { "epoch": 1.1414933333333332, "grad_norm": 0.025010178583587363, "learning_rate": 0.0001, "loss": 1.0334, "step": 6403 }, { "epoch": 1.1415466666666667, "grad_norm": 0.0238655505198689, "learning_rate": 0.0001, "loss": 0.9421, "step": 6404 }, { "epoch": 1.1416, "grad_norm": 0.023977841924485543, "learning_rate": 0.0001, "loss": 0.9529, "step": 6405 }, { "epoch": 1.1416533333333334, "grad_norm": 0.023504881317361743, "learning_rate": 0.0001, "loss": 0.9839, "step": 6406 }, { "epoch": 1.1417066666666666, "grad_norm": 0.022904200601188196, "learning_rate": 0.0001, "loss": 0.9267, "step": 6407 }, { "epoch": 1.14176, "grad_norm": 0.02470595106112979, "learning_rate": 0.0001, "loss": 0.9506, "step": 6408 }, { "epoch": 1.1418133333333333, "grad_norm": 0.024095608670189655, "learning_rate": 0.0001, "loss": 0.9604, "step": 6409 }, { "epoch": 1.1418666666666666, "grad_norm": 0.023461273988548505, "learning_rate": 0.0001, "loss": 0.9778, "step": 6410 }, { "epoch": 1.14192, "grad_norm": 0.02423907826447616, "learning_rate": 0.0001, "loss": 0.9904, "step": 6411 }, { "epoch": 1.1419733333333333, "grad_norm": 0.02198566462105393, "learning_rate": 0.0001, "loss": 0.9248, "step": 6412 }, { "epoch": 1.1420266666666667, "grad_norm": 0.024883659560744984, "learning_rate": 0.0001, "loss": 0.9931, "step": 6413 }, { "epoch": 1.14208, "grad_norm": 0.025335132768636838, "learning_rate": 0.0001, "loss": 0.9392, "step": 6414 }, { "epoch": 1.1421333333333332, "grad_norm": 0.023621275402453477, "learning_rate": 0.0001, "loss": 1.05, "step": 6415 }, { "epoch": 1.1421866666666667, "grad_norm": 0.02367690106392082, "learning_rate": 0.0001, "loss": 0.9509, "step": 6416 }, { "epoch": 1.14224, "grad_norm": 0.02507920267655227, "learning_rate": 0.0001, "loss": 0.9794, "step": 6417 }, { "epoch": 1.1422933333333334, "grad_norm": 0.025400689300331725, "learning_rate": 0.0001, "loss": 0.9862, "step": 6418 }, { "epoch": 1.1423466666666666, "grad_norm": 0.02416456525007284, "learning_rate": 0.0001, "loss": 0.9273, "step": 6419 }, { "epoch": 1.1424, "grad_norm": 0.02806600143803757, "learning_rate": 0.0001, "loss": 0.9512, "step": 6420 }, { "epoch": 1.1424533333333333, "grad_norm": 0.02412716127454667, "learning_rate": 0.0001, "loss": 0.9548, "step": 6421 }, { "epoch": 1.1425066666666668, "grad_norm": 0.02387214231713992, "learning_rate": 0.0001, "loss": 0.9633, "step": 6422 }, { "epoch": 1.14256, "grad_norm": 0.02491880676648782, "learning_rate": 0.0001, "loss": 0.9532, "step": 6423 }, { "epoch": 1.1426133333333333, "grad_norm": 0.024147535404968015, "learning_rate": 0.0001, "loss": 0.9457, "step": 6424 }, { "epoch": 1.1426666666666667, "grad_norm": 0.02534938293533649, "learning_rate": 0.0001, "loss": 0.9527, "step": 6425 }, { "epoch": 1.14272, "grad_norm": 0.024028147056052468, "learning_rate": 0.0001, "loss": 0.9857, "step": 6426 }, { "epoch": 1.1427733333333334, "grad_norm": 0.02800835343618442, "learning_rate": 0.0001, "loss": 1.0299, "step": 6427 }, { "epoch": 1.1428266666666667, "grad_norm": 0.024478466695519233, "learning_rate": 0.0001, "loss": 0.9797, "step": 6428 }, { "epoch": 1.14288, "grad_norm": 0.022683992253479023, "learning_rate": 0.0001, "loss": 0.9372, "step": 6429 }, { "epoch": 1.1429333333333334, "grad_norm": 0.02372234361688697, "learning_rate": 0.0001, "loss": 0.9719, "step": 6430 }, { "epoch": 1.1429866666666666, "grad_norm": 0.023380216394320284, "learning_rate": 0.0001, "loss": 0.9887, "step": 6431 }, { "epoch": 1.14304, "grad_norm": 0.024199869321845275, "learning_rate": 0.0001, "loss": 0.9373, "step": 6432 }, { "epoch": 1.1430933333333333, "grad_norm": 0.0246825043519838, "learning_rate": 0.0001, "loss": 0.9415, "step": 6433 }, { "epoch": 1.1431466666666668, "grad_norm": 0.02387653488643862, "learning_rate": 0.0001, "loss": 0.9835, "step": 6434 }, { "epoch": 1.1432, "grad_norm": 0.023963974288889484, "learning_rate": 0.0001, "loss": 0.9347, "step": 6435 }, { "epoch": 1.1432533333333335, "grad_norm": 0.023301720122636732, "learning_rate": 0.0001, "loss": 0.9733, "step": 6436 }, { "epoch": 1.1433066666666667, "grad_norm": 0.0261301732931032, "learning_rate": 0.0001, "loss": 0.9885, "step": 6437 }, { "epoch": 1.14336, "grad_norm": 0.022711358965545166, "learning_rate": 0.0001, "loss": 1.0023, "step": 6438 }, { "epoch": 1.1434133333333334, "grad_norm": 0.025277523412585295, "learning_rate": 0.0001, "loss": 0.995, "step": 6439 }, { "epoch": 1.1434666666666666, "grad_norm": 0.025493578540902312, "learning_rate": 0.0001, "loss": 1.0153, "step": 6440 }, { "epoch": 1.14352, "grad_norm": 0.02440457394920936, "learning_rate": 0.0001, "loss": 1.0341, "step": 6441 }, { "epoch": 1.1435733333333333, "grad_norm": 0.025236699002938803, "learning_rate": 0.0001, "loss": 0.994, "step": 6442 }, { "epoch": 1.1436266666666666, "grad_norm": 0.023125419888296694, "learning_rate": 0.0001, "loss": 0.9238, "step": 6443 }, { "epoch": 1.14368, "grad_norm": 0.024372963150758313, "learning_rate": 0.0001, "loss": 0.9986, "step": 6444 }, { "epoch": 1.1437333333333333, "grad_norm": 0.02330596704260975, "learning_rate": 0.0001, "loss": 0.9733, "step": 6445 }, { "epoch": 1.1437866666666667, "grad_norm": 0.02411118917448528, "learning_rate": 0.0001, "loss": 0.9636, "step": 6446 }, { "epoch": 1.14384, "grad_norm": 0.02355055157930137, "learning_rate": 0.0001, "loss": 0.9541, "step": 6447 }, { "epoch": 1.1438933333333334, "grad_norm": 0.025948300503684567, "learning_rate": 0.0001, "loss": 1.0336, "step": 6448 }, { "epoch": 1.1439466666666667, "grad_norm": 0.023467264413868136, "learning_rate": 0.0001, "loss": 0.9992, "step": 6449 }, { "epoch": 1.144, "grad_norm": 0.0233684580097858, "learning_rate": 0.0001, "loss": 0.9075, "step": 6450 }, { "epoch": 1.1440533333333334, "grad_norm": 0.02357950014295757, "learning_rate": 0.0001, "loss": 1.0298, "step": 6451 }, { "epoch": 1.1441066666666666, "grad_norm": 0.02450858733218133, "learning_rate": 0.0001, "loss": 0.982, "step": 6452 }, { "epoch": 1.14416, "grad_norm": 0.02250780746464672, "learning_rate": 0.0001, "loss": 0.9433, "step": 6453 }, { "epoch": 1.1442133333333333, "grad_norm": 0.023688714372722946, "learning_rate": 0.0001, "loss": 1.0208, "step": 6454 }, { "epoch": 1.1442666666666668, "grad_norm": 0.02385060805375982, "learning_rate": 0.0001, "loss": 0.928, "step": 6455 }, { "epoch": 1.14432, "grad_norm": 0.024508671723858802, "learning_rate": 0.0001, "loss": 1.0415, "step": 6456 }, { "epoch": 1.1443733333333332, "grad_norm": 0.026553438015414703, "learning_rate": 0.0001, "loss": 0.9458, "step": 6457 }, { "epoch": 1.1444266666666667, "grad_norm": 0.02330767668186131, "learning_rate": 0.0001, "loss": 0.996, "step": 6458 }, { "epoch": 1.14448, "grad_norm": 0.023778345519342877, "learning_rate": 0.0001, "loss": 0.9424, "step": 6459 }, { "epoch": 1.1445333333333334, "grad_norm": 0.022864320012817945, "learning_rate": 0.0001, "loss": 0.954, "step": 6460 }, { "epoch": 1.1445866666666666, "grad_norm": 0.02298729684665054, "learning_rate": 0.0001, "loss": 1.0139, "step": 6461 }, { "epoch": 1.1446399999999999, "grad_norm": 0.023804306063323375, "learning_rate": 0.0001, "loss": 0.9694, "step": 6462 }, { "epoch": 1.1446933333333333, "grad_norm": 0.022954912026556886, "learning_rate": 0.0001, "loss": 1.0019, "step": 6463 }, { "epoch": 1.1447466666666666, "grad_norm": 0.024284744533694582, "learning_rate": 0.0001, "loss": 0.9423, "step": 6464 }, { "epoch": 1.1448, "grad_norm": 0.024806387379134244, "learning_rate": 0.0001, "loss": 0.9649, "step": 6465 }, { "epoch": 1.1448533333333333, "grad_norm": 0.023523364657512355, "learning_rate": 0.0001, "loss": 1.0456, "step": 6466 }, { "epoch": 1.1449066666666667, "grad_norm": 0.022676090375195256, "learning_rate": 0.0001, "loss": 0.9514, "step": 6467 }, { "epoch": 1.14496, "grad_norm": 0.023638678361237852, "learning_rate": 0.0001, "loss": 0.973, "step": 6468 }, { "epoch": 1.1450133333333334, "grad_norm": 0.024693479964480507, "learning_rate": 0.0001, "loss": 0.9328, "step": 6469 }, { "epoch": 1.1450666666666667, "grad_norm": 0.022480993744444774, "learning_rate": 0.0001, "loss": 0.9727, "step": 6470 }, { "epoch": 1.14512, "grad_norm": 0.024722106684933038, "learning_rate": 0.0001, "loss": 0.9988, "step": 6471 }, { "epoch": 1.1451733333333334, "grad_norm": 0.024259128511809464, "learning_rate": 0.0001, "loss": 0.9251, "step": 6472 }, { "epoch": 1.1452266666666666, "grad_norm": 0.02596744687643352, "learning_rate": 0.0001, "loss": 1.0248, "step": 6473 }, { "epoch": 1.14528, "grad_norm": 0.02474329221784223, "learning_rate": 0.0001, "loss": 0.9492, "step": 6474 }, { "epoch": 1.1453333333333333, "grad_norm": 0.024862234644773513, "learning_rate": 0.0001, "loss": 1.0148, "step": 6475 }, { "epoch": 1.1453866666666666, "grad_norm": 0.023520912930095676, "learning_rate": 0.0001, "loss": 0.9612, "step": 6476 }, { "epoch": 1.14544, "grad_norm": 0.025325311521632705, "learning_rate": 0.0001, "loss": 1.0605, "step": 6477 }, { "epoch": 1.1454933333333333, "grad_norm": 0.024447067223005953, "learning_rate": 0.0001, "loss": 0.9951, "step": 6478 }, { "epoch": 1.1455466666666667, "grad_norm": 0.024173224476072435, "learning_rate": 0.0001, "loss": 0.971, "step": 6479 }, { "epoch": 1.1456, "grad_norm": 0.025119698323436437, "learning_rate": 0.0001, "loss": 0.9642, "step": 6480 }, { "epoch": 1.1456533333333334, "grad_norm": 0.023325698159894832, "learning_rate": 0.0001, "loss": 0.9842, "step": 6481 }, { "epoch": 1.1457066666666667, "grad_norm": 0.024773929667488658, "learning_rate": 0.0001, "loss": 0.9858, "step": 6482 }, { "epoch": 1.1457600000000001, "grad_norm": 0.025290947050124312, "learning_rate": 0.0001, "loss": 0.9593, "step": 6483 }, { "epoch": 1.1458133333333334, "grad_norm": 0.0233744089228315, "learning_rate": 0.0001, "loss": 0.9013, "step": 6484 }, { "epoch": 1.1458666666666666, "grad_norm": 0.026197840635050925, "learning_rate": 0.0001, "loss": 0.9877, "step": 6485 }, { "epoch": 1.14592, "grad_norm": 0.026405327382454564, "learning_rate": 0.0001, "loss": 0.9986, "step": 6486 }, { "epoch": 1.1459733333333333, "grad_norm": 0.024867837212642876, "learning_rate": 0.0001, "loss": 0.9686, "step": 6487 }, { "epoch": 1.1460266666666667, "grad_norm": 0.025196586870557133, "learning_rate": 0.0001, "loss": 0.9974, "step": 6488 }, { "epoch": 1.14608, "grad_norm": 0.023916046433919706, "learning_rate": 0.0001, "loss": 0.9092, "step": 6489 }, { "epoch": 1.1461333333333332, "grad_norm": 0.023531485391825473, "learning_rate": 0.0001, "loss": 0.9289, "step": 6490 }, { "epoch": 1.1461866666666667, "grad_norm": 0.02462174841770514, "learning_rate": 0.0001, "loss": 0.9464, "step": 6491 }, { "epoch": 1.14624, "grad_norm": 0.023193527376160643, "learning_rate": 0.0001, "loss": 0.9181, "step": 6492 }, { "epoch": 1.1462933333333334, "grad_norm": 0.02321943199383894, "learning_rate": 0.0001, "loss": 0.9698, "step": 6493 }, { "epoch": 1.1463466666666666, "grad_norm": 0.023715694988968177, "learning_rate": 0.0001, "loss": 0.893, "step": 6494 }, { "epoch": 1.1464, "grad_norm": 0.024874294021249015, "learning_rate": 0.0001, "loss": 0.9664, "step": 6495 }, { "epoch": 1.1464533333333333, "grad_norm": 0.025047125827971174, "learning_rate": 0.0001, "loss": 1.0192, "step": 6496 }, { "epoch": 1.1465066666666668, "grad_norm": 0.024069710496265568, "learning_rate": 0.0001, "loss": 1.0111, "step": 6497 }, { "epoch": 1.14656, "grad_norm": 0.023633505766138995, "learning_rate": 0.0001, "loss": 0.9558, "step": 6498 }, { "epoch": 1.1466133333333333, "grad_norm": 0.02565263869015109, "learning_rate": 0.0001, "loss": 1.026, "step": 6499 }, { "epoch": 1.1466666666666667, "grad_norm": 0.025800020834001337, "learning_rate": 0.0001, "loss": 0.939, "step": 6500 }, { "epoch": 1.14672, "grad_norm": 0.02207656729293947, "learning_rate": 0.0001, "loss": 0.9809, "step": 6501 }, { "epoch": 1.1467733333333334, "grad_norm": 0.024995683104104074, "learning_rate": 0.0001, "loss": 0.9243, "step": 6502 }, { "epoch": 1.1468266666666667, "grad_norm": 0.023696419923178395, "learning_rate": 0.0001, "loss": 0.9791, "step": 6503 }, { "epoch": 1.14688, "grad_norm": 0.023806530950243994, "learning_rate": 0.0001, "loss": 0.9707, "step": 6504 }, { "epoch": 1.1469333333333334, "grad_norm": 0.02545448128363791, "learning_rate": 0.0001, "loss": 1.0232, "step": 6505 }, { "epoch": 1.1469866666666666, "grad_norm": 0.024666916274401512, "learning_rate": 0.0001, "loss": 0.9469, "step": 6506 }, { "epoch": 1.14704, "grad_norm": 0.022912065091635514, "learning_rate": 0.0001, "loss": 0.8944, "step": 6507 }, { "epoch": 1.1470933333333333, "grad_norm": 0.023550044758622185, "learning_rate": 0.0001, "loss": 1.0068, "step": 6508 }, { "epoch": 1.1471466666666668, "grad_norm": 0.02437685621960573, "learning_rate": 0.0001, "loss": 0.9635, "step": 6509 }, { "epoch": 1.1472, "grad_norm": 0.023020106408630357, "learning_rate": 0.0001, "loss": 0.9811, "step": 6510 }, { "epoch": 1.1472533333333335, "grad_norm": 0.023499942005013333, "learning_rate": 0.0001, "loss": 0.9364, "step": 6511 }, { "epoch": 1.1473066666666667, "grad_norm": 0.02433521907324269, "learning_rate": 0.0001, "loss": 0.9787, "step": 6512 }, { "epoch": 1.14736, "grad_norm": 0.023361039305131306, "learning_rate": 0.0001, "loss": 1.013, "step": 6513 }, { "epoch": 1.1474133333333334, "grad_norm": 0.02349550391626517, "learning_rate": 0.0001, "loss": 1.0361, "step": 6514 }, { "epoch": 1.1474666666666666, "grad_norm": 0.023188368545517035, "learning_rate": 0.0001, "loss": 0.9571, "step": 6515 }, { "epoch": 1.14752, "grad_norm": 0.023925489251371505, "learning_rate": 0.0001, "loss": 0.9621, "step": 6516 }, { "epoch": 1.1475733333333333, "grad_norm": 0.023530586042873496, "learning_rate": 0.0001, "loss": 1.001, "step": 6517 }, { "epoch": 1.1476266666666666, "grad_norm": 0.025680789849237613, "learning_rate": 0.0001, "loss": 0.932, "step": 6518 }, { "epoch": 1.14768, "grad_norm": 0.02206243035409006, "learning_rate": 0.0001, "loss": 0.9282, "step": 6519 }, { "epoch": 1.1477333333333333, "grad_norm": 0.024085432440633728, "learning_rate": 0.0001, "loss": 1.0068, "step": 6520 }, { "epoch": 1.1477866666666667, "grad_norm": 0.02601724951316796, "learning_rate": 0.0001, "loss": 0.9704, "step": 6521 }, { "epoch": 1.14784, "grad_norm": 0.023835719266824797, "learning_rate": 0.0001, "loss": 0.9702, "step": 6522 }, { "epoch": 1.1478933333333332, "grad_norm": 0.024466475909952202, "learning_rate": 0.0001, "loss": 0.9515, "step": 6523 }, { "epoch": 1.1479466666666667, "grad_norm": 0.02346614193503451, "learning_rate": 0.0001, "loss": 0.9558, "step": 6524 }, { "epoch": 1.148, "grad_norm": 0.0246519352945607, "learning_rate": 0.0001, "loss": 1.0059, "step": 6525 }, { "epoch": 1.1480533333333334, "grad_norm": 0.023957835448706596, "learning_rate": 0.0001, "loss": 0.9558, "step": 6526 }, { "epoch": 1.1481066666666666, "grad_norm": 0.025356871198898238, "learning_rate": 0.0001, "loss": 0.9759, "step": 6527 }, { "epoch": 1.14816, "grad_norm": 0.025196456303498573, "learning_rate": 0.0001, "loss": 1.0025, "step": 6528 }, { "epoch": 1.1482133333333333, "grad_norm": 0.022577758967935672, "learning_rate": 0.0001, "loss": 0.9842, "step": 6529 }, { "epoch": 1.1482666666666668, "grad_norm": 0.025320586773826537, "learning_rate": 0.0001, "loss": 0.9468, "step": 6530 }, { "epoch": 1.14832, "grad_norm": 0.025790845070898384, "learning_rate": 0.0001, "loss": 0.9916, "step": 6531 }, { "epoch": 1.1483733333333332, "grad_norm": 0.026214572636302565, "learning_rate": 0.0001, "loss": 0.9916, "step": 6532 }, { "epoch": 1.1484266666666667, "grad_norm": 0.02778101246498952, "learning_rate": 0.0001, "loss": 0.9813, "step": 6533 }, { "epoch": 1.14848, "grad_norm": 0.029227215777425954, "learning_rate": 0.0001, "loss": 0.9325, "step": 6534 }, { "epoch": 1.1485333333333334, "grad_norm": 0.026143989103516205, "learning_rate": 0.0001, "loss": 0.9432, "step": 6535 }, { "epoch": 1.1485866666666666, "grad_norm": 0.026800934632167667, "learning_rate": 0.0001, "loss": 0.9355, "step": 6536 }, { "epoch": 1.1486399999999999, "grad_norm": 0.02570530826545334, "learning_rate": 0.0001, "loss": 1.0399, "step": 6537 }, { "epoch": 1.1486933333333333, "grad_norm": 0.02607260547962967, "learning_rate": 0.0001, "loss": 0.9734, "step": 6538 }, { "epoch": 1.1487466666666666, "grad_norm": 0.02527239194893959, "learning_rate": 0.0001, "loss": 0.978, "step": 6539 }, { "epoch": 1.1488, "grad_norm": 0.024622948896999185, "learning_rate": 0.0001, "loss": 0.9534, "step": 6540 }, { "epoch": 1.1488533333333333, "grad_norm": 0.024031334157241475, "learning_rate": 0.0001, "loss": 0.9334, "step": 6541 }, { "epoch": 1.1489066666666667, "grad_norm": 0.025183808606017023, "learning_rate": 0.0001, "loss": 0.975, "step": 6542 }, { "epoch": 1.14896, "grad_norm": 0.022826426632463336, "learning_rate": 0.0001, "loss": 0.9324, "step": 6543 }, { "epoch": 1.1490133333333334, "grad_norm": 0.02601362134779363, "learning_rate": 0.0001, "loss": 0.9457, "step": 6544 }, { "epoch": 1.1490666666666667, "grad_norm": 0.022914594037116848, "learning_rate": 0.0001, "loss": 0.9824, "step": 6545 }, { "epoch": 1.14912, "grad_norm": 0.026569463866633426, "learning_rate": 0.0001, "loss": 0.9211, "step": 6546 }, { "epoch": 1.1491733333333334, "grad_norm": 0.024708495921582897, "learning_rate": 0.0001, "loss": 0.9865, "step": 6547 }, { "epoch": 1.1492266666666666, "grad_norm": 0.02289010096352404, "learning_rate": 0.0001, "loss": 0.9494, "step": 6548 }, { "epoch": 1.14928, "grad_norm": 0.02412196770094686, "learning_rate": 0.0001, "loss": 1.0216, "step": 6549 }, { "epoch": 1.1493333333333333, "grad_norm": 0.026461401742204092, "learning_rate": 0.0001, "loss": 0.982, "step": 6550 }, { "epoch": 1.1493866666666666, "grad_norm": 0.024682570180443824, "learning_rate": 0.0001, "loss": 0.9235, "step": 6551 }, { "epoch": 1.14944, "grad_norm": 0.025761971834890728, "learning_rate": 0.0001, "loss": 0.9646, "step": 6552 }, { "epoch": 1.1494933333333333, "grad_norm": 0.02491818537545462, "learning_rate": 0.0001, "loss": 0.976, "step": 6553 }, { "epoch": 1.1495466666666667, "grad_norm": 0.022474684921744138, "learning_rate": 0.0001, "loss": 0.9554, "step": 6554 }, { "epoch": 1.1496, "grad_norm": 0.025510344137265384, "learning_rate": 0.0001, "loss": 0.9513, "step": 6555 }, { "epoch": 1.1496533333333334, "grad_norm": 0.024089799558805965, "learning_rate": 0.0001, "loss": 1.0108, "step": 6556 }, { "epoch": 1.1497066666666667, "grad_norm": 0.023429502003994126, "learning_rate": 0.0001, "loss": 0.9773, "step": 6557 }, { "epoch": 1.1497600000000001, "grad_norm": 0.02605308549672868, "learning_rate": 0.0001, "loss": 1.0229, "step": 6558 }, { "epoch": 1.1498133333333334, "grad_norm": 0.02493382504306148, "learning_rate": 0.0001, "loss": 0.9566, "step": 6559 }, { "epoch": 1.1498666666666666, "grad_norm": 0.02494106633479154, "learning_rate": 0.0001, "loss": 0.9397, "step": 6560 }, { "epoch": 1.14992, "grad_norm": 0.0237230030892974, "learning_rate": 0.0001, "loss": 0.938, "step": 6561 }, { "epoch": 1.1499733333333333, "grad_norm": 0.027551523394725864, "learning_rate": 0.0001, "loss": 0.9665, "step": 6562 }, { "epoch": 1.1500266666666668, "grad_norm": 0.026287569951938292, "learning_rate": 0.0001, "loss": 0.9636, "step": 6563 }, { "epoch": 1.15008, "grad_norm": 0.02466922380435168, "learning_rate": 0.0001, "loss": 0.9065, "step": 6564 }, { "epoch": 1.1501333333333332, "grad_norm": 0.024792417928977024, "learning_rate": 0.0001, "loss": 0.9272, "step": 6565 }, { "epoch": 1.1501866666666667, "grad_norm": 0.023146882199210732, "learning_rate": 0.0001, "loss": 0.9351, "step": 6566 }, { "epoch": 1.15024, "grad_norm": 0.02391134126206135, "learning_rate": 0.0001, "loss": 0.9281, "step": 6567 }, { "epoch": 1.1502933333333334, "grad_norm": 0.02419470292797179, "learning_rate": 0.0001, "loss": 1.0248, "step": 6568 }, { "epoch": 1.1503466666666666, "grad_norm": 0.0259392224639489, "learning_rate": 0.0001, "loss": 0.9384, "step": 6569 }, { "epoch": 1.1504, "grad_norm": 0.02457985099412832, "learning_rate": 0.0001, "loss": 0.912, "step": 6570 }, { "epoch": 1.1504533333333333, "grad_norm": 0.024789087271685287, "learning_rate": 0.0001, "loss": 1.0519, "step": 6571 }, { "epoch": 1.1505066666666668, "grad_norm": 0.022801421251511522, "learning_rate": 0.0001, "loss": 0.9952, "step": 6572 }, { "epoch": 1.15056, "grad_norm": 0.027157772337033287, "learning_rate": 0.0001, "loss": 0.9841, "step": 6573 }, { "epoch": 1.1506133333333333, "grad_norm": 0.02578697495754335, "learning_rate": 0.0001, "loss": 0.957, "step": 6574 }, { "epoch": 1.1506666666666667, "grad_norm": 0.026058724488998573, "learning_rate": 0.0001, "loss": 0.9802, "step": 6575 }, { "epoch": 1.15072, "grad_norm": 0.02448413207365997, "learning_rate": 0.0001, "loss": 1.0111, "step": 6576 }, { "epoch": 1.1507733333333334, "grad_norm": 0.02531909791909078, "learning_rate": 0.0001, "loss": 0.9475, "step": 6577 }, { "epoch": 1.1508266666666667, "grad_norm": 0.025250348525291927, "learning_rate": 0.0001, "loss": 0.9266, "step": 6578 }, { "epoch": 1.15088, "grad_norm": 0.024367898817617775, "learning_rate": 0.0001, "loss": 0.9763, "step": 6579 }, { "epoch": 1.1509333333333334, "grad_norm": 0.022941274013515697, "learning_rate": 0.0001, "loss": 0.9067, "step": 6580 }, { "epoch": 1.1509866666666666, "grad_norm": 0.025401242515354912, "learning_rate": 0.0001, "loss": 0.9282, "step": 6581 }, { "epoch": 1.15104, "grad_norm": 0.025252217500779817, "learning_rate": 0.0001, "loss": 0.9567, "step": 6582 }, { "epoch": 1.1510933333333333, "grad_norm": 0.026100053640574113, "learning_rate": 0.0001, "loss": 0.9286, "step": 6583 }, { "epoch": 1.1511466666666668, "grad_norm": 0.023477332458554143, "learning_rate": 0.0001, "loss": 0.9582, "step": 6584 }, { "epoch": 1.1512, "grad_norm": 0.025207468179386665, "learning_rate": 0.0001, "loss": 0.9449, "step": 6585 }, { "epoch": 1.1512533333333332, "grad_norm": 0.023516184052322243, "learning_rate": 0.0001, "loss": 0.9704, "step": 6586 }, { "epoch": 1.1513066666666667, "grad_norm": 0.023397108691315196, "learning_rate": 0.0001, "loss": 1.0043, "step": 6587 }, { "epoch": 1.15136, "grad_norm": 0.022965549978050906, "learning_rate": 0.0001, "loss": 0.9922, "step": 6588 }, { "epoch": 1.1514133333333334, "grad_norm": 0.02455438351433295, "learning_rate": 0.0001, "loss": 1.0218, "step": 6589 }, { "epoch": 1.1514666666666666, "grad_norm": 0.023901640922966563, "learning_rate": 0.0001, "loss": 1.021, "step": 6590 }, { "epoch": 1.15152, "grad_norm": 0.0238877577869763, "learning_rate": 0.0001, "loss": 1.0018, "step": 6591 }, { "epoch": 1.1515733333333333, "grad_norm": 0.024498444089627806, "learning_rate": 0.0001, "loss": 0.9654, "step": 6592 }, { "epoch": 1.1516266666666666, "grad_norm": 0.023221026861027817, "learning_rate": 0.0001, "loss": 0.9603, "step": 6593 }, { "epoch": 1.15168, "grad_norm": 0.02545193559111799, "learning_rate": 0.0001, "loss": 0.9919, "step": 6594 }, { "epoch": 1.1517333333333333, "grad_norm": 0.023714847895212304, "learning_rate": 0.0001, "loss": 0.9931, "step": 6595 }, { "epoch": 1.1517866666666667, "grad_norm": 0.023824854502992807, "learning_rate": 0.0001, "loss": 0.9443, "step": 6596 }, { "epoch": 1.15184, "grad_norm": 0.024011579161169, "learning_rate": 0.0001, "loss": 1.0311, "step": 6597 }, { "epoch": 1.1518933333333332, "grad_norm": 0.026070580171742717, "learning_rate": 0.0001, "loss": 0.9745, "step": 6598 }, { "epoch": 1.1519466666666667, "grad_norm": 0.024221968036371968, "learning_rate": 0.0001, "loss": 0.9662, "step": 6599 }, { "epoch": 1.152, "grad_norm": 0.02490220472698781, "learning_rate": 0.0001, "loss": 0.9681, "step": 6600 }, { "epoch": 1.152, "eval_accuracy": 0.6187920197091642, "eval_loss": 1.3618242740631104, "eval_runtime": 63.0885, "eval_samples_per_second": 15.851, "eval_steps_per_second": 0.507, "step": 6600 }, { "epoch": 1.1520533333333334, "grad_norm": 0.02681574735612942, "learning_rate": 0.0001, "loss": 1.015, "step": 6601 }, { "epoch": 1.1521066666666666, "grad_norm": 0.02316386123720833, "learning_rate": 0.0001, "loss": 0.9487, "step": 6602 }, { "epoch": 1.15216, "grad_norm": 0.022079226409837536, "learning_rate": 0.0001, "loss": 0.9847, "step": 6603 }, { "epoch": 1.1522133333333333, "grad_norm": 0.024474126703930225, "learning_rate": 0.0001, "loss": 1.0127, "step": 6604 }, { "epoch": 1.1522666666666668, "grad_norm": 0.023059630237737966, "learning_rate": 0.0001, "loss": 0.956, "step": 6605 }, { "epoch": 1.15232, "grad_norm": 0.022753099800981533, "learning_rate": 0.0001, "loss": 1.0168, "step": 6606 }, { "epoch": 1.1523733333333332, "grad_norm": 0.023306622965100554, "learning_rate": 0.0001, "loss": 0.9778, "step": 6607 }, { "epoch": 1.1524266666666667, "grad_norm": 0.024389405841714465, "learning_rate": 0.0001, "loss": 0.9492, "step": 6608 }, { "epoch": 1.15248, "grad_norm": 0.022542361602212704, "learning_rate": 0.0001, "loss": 0.8738, "step": 6609 }, { "epoch": 1.1525333333333334, "grad_norm": 0.02523455688753056, "learning_rate": 0.0001, "loss": 0.9709, "step": 6610 }, { "epoch": 1.1525866666666666, "grad_norm": 0.023527734075283344, "learning_rate": 0.0001, "loss": 0.9204, "step": 6611 }, { "epoch": 1.1526399999999999, "grad_norm": 0.026293045044547953, "learning_rate": 0.0001, "loss": 0.973, "step": 6612 }, { "epoch": 1.1526933333333333, "grad_norm": 0.023450274173306924, "learning_rate": 0.0001, "loss": 0.975, "step": 6613 }, { "epoch": 1.1527466666666666, "grad_norm": 0.025296651318137423, "learning_rate": 0.0001, "loss": 1.0007, "step": 6614 }, { "epoch": 1.1528, "grad_norm": 0.024570294752925253, "learning_rate": 0.0001, "loss": 1.0134, "step": 6615 }, { "epoch": 1.1528533333333333, "grad_norm": 0.026160515623017612, "learning_rate": 0.0001, "loss": 0.9605, "step": 6616 }, { "epoch": 1.1529066666666667, "grad_norm": 0.026959672772016864, "learning_rate": 0.0001, "loss": 0.9995, "step": 6617 }, { "epoch": 1.15296, "grad_norm": 0.024764385568375496, "learning_rate": 0.0001, "loss": 0.9513, "step": 6618 }, { "epoch": 1.1530133333333334, "grad_norm": 0.025177220508616985, "learning_rate": 0.0001, "loss": 0.9392, "step": 6619 }, { "epoch": 1.1530666666666667, "grad_norm": 0.024626062041971035, "learning_rate": 0.0001, "loss": 0.9652, "step": 6620 }, { "epoch": 1.15312, "grad_norm": 0.02321121091019076, "learning_rate": 0.0001, "loss": 1.0186, "step": 6621 }, { "epoch": 1.1531733333333334, "grad_norm": 0.025418163371526904, "learning_rate": 0.0001, "loss": 0.9772, "step": 6622 }, { "epoch": 1.1532266666666666, "grad_norm": 0.02483514504858228, "learning_rate": 0.0001, "loss": 0.9835, "step": 6623 }, { "epoch": 1.15328, "grad_norm": 0.02533069025999774, "learning_rate": 0.0001, "loss": 0.9427, "step": 6624 }, { "epoch": 1.1533333333333333, "grad_norm": 0.025779558051919935, "learning_rate": 0.0001, "loss": 0.9635, "step": 6625 }, { "epoch": 1.1533866666666666, "grad_norm": 0.02478076883524867, "learning_rate": 0.0001, "loss": 0.9274, "step": 6626 }, { "epoch": 1.15344, "grad_norm": 0.02458587851409054, "learning_rate": 0.0001, "loss": 1.0882, "step": 6627 }, { "epoch": 1.1534933333333333, "grad_norm": 0.02552687062401559, "learning_rate": 0.0001, "loss": 0.9953, "step": 6628 }, { "epoch": 1.1535466666666667, "grad_norm": 0.025226401238378972, "learning_rate": 0.0001, "loss": 0.9787, "step": 6629 }, { "epoch": 1.1536, "grad_norm": 0.026583227932106088, "learning_rate": 0.0001, "loss": 0.9227, "step": 6630 }, { "epoch": 1.1536533333333334, "grad_norm": 0.025985941038839444, "learning_rate": 0.0001, "loss": 0.9794, "step": 6631 }, { "epoch": 1.1537066666666667, "grad_norm": 0.02576833780213717, "learning_rate": 0.0001, "loss": 0.953, "step": 6632 }, { "epoch": 1.1537600000000001, "grad_norm": 0.02326610259177104, "learning_rate": 0.0001, "loss": 1.016, "step": 6633 }, { "epoch": 1.1538133333333334, "grad_norm": 0.024512508513019143, "learning_rate": 0.0001, "loss": 0.9722, "step": 6634 }, { "epoch": 1.1538666666666666, "grad_norm": 0.024556098288469653, "learning_rate": 0.0001, "loss": 0.9837, "step": 6635 }, { "epoch": 1.15392, "grad_norm": 0.024907860117939294, "learning_rate": 0.0001, "loss": 0.9854, "step": 6636 }, { "epoch": 1.1539733333333333, "grad_norm": 0.023010305013432944, "learning_rate": 0.0001, "loss": 0.9984, "step": 6637 }, { "epoch": 1.1540266666666668, "grad_norm": 0.02529927266900219, "learning_rate": 0.0001, "loss": 0.9484, "step": 6638 }, { "epoch": 1.15408, "grad_norm": 0.025167824376891627, "learning_rate": 0.0001, "loss": 0.9023, "step": 6639 }, { "epoch": 1.1541333333333332, "grad_norm": 0.02498633707045491, "learning_rate": 0.0001, "loss": 1.0032, "step": 6640 }, { "epoch": 1.1541866666666667, "grad_norm": 0.02469310317487284, "learning_rate": 0.0001, "loss": 0.9958, "step": 6641 }, { "epoch": 1.15424, "grad_norm": 0.02405218733694939, "learning_rate": 0.0001, "loss": 0.9753, "step": 6642 }, { "epoch": 1.1542933333333334, "grad_norm": 0.024416761138041046, "learning_rate": 0.0001, "loss": 0.9497, "step": 6643 }, { "epoch": 1.1543466666666666, "grad_norm": 0.026183111837989388, "learning_rate": 0.0001, "loss": 0.995, "step": 6644 }, { "epoch": 1.1544, "grad_norm": 0.025734452222214824, "learning_rate": 0.0001, "loss": 0.9907, "step": 6645 }, { "epoch": 1.1544533333333333, "grad_norm": 0.023964814495660826, "learning_rate": 0.0001, "loss": 0.9435, "step": 6646 }, { "epoch": 1.1545066666666666, "grad_norm": 0.025161657107320788, "learning_rate": 0.0001, "loss": 1.0056, "step": 6647 }, { "epoch": 1.15456, "grad_norm": 0.025325893747624898, "learning_rate": 0.0001, "loss": 1.0019, "step": 6648 }, { "epoch": 1.1546133333333333, "grad_norm": 0.023037455932354095, "learning_rate": 0.0001, "loss": 0.9507, "step": 6649 }, { "epoch": 1.1546666666666667, "grad_norm": 0.022934014635574533, "learning_rate": 0.0001, "loss": 0.8957, "step": 6650 }, { "epoch": 1.15472, "grad_norm": 0.022841082480548055, "learning_rate": 0.0001, "loss": 0.9956, "step": 6651 }, { "epoch": 1.1547733333333334, "grad_norm": 0.025401130161224465, "learning_rate": 0.0001, "loss": 0.9466, "step": 6652 }, { "epoch": 1.1548266666666667, "grad_norm": 0.025910368205511593, "learning_rate": 0.0001, "loss": 0.9555, "step": 6653 }, { "epoch": 1.15488, "grad_norm": 0.022927783161798783, "learning_rate": 0.0001, "loss": 1.0365, "step": 6654 }, { "epoch": 1.1549333333333334, "grad_norm": 0.02421604138452636, "learning_rate": 0.0001, "loss": 0.9873, "step": 6655 }, { "epoch": 1.1549866666666666, "grad_norm": 0.02491107978717869, "learning_rate": 0.0001, "loss": 1.0226, "step": 6656 }, { "epoch": 1.15504, "grad_norm": 0.02381233490051453, "learning_rate": 0.0001, "loss": 1.0365, "step": 6657 }, { "epoch": 1.1550933333333333, "grad_norm": 0.02566985688871368, "learning_rate": 0.0001, "loss": 0.9828, "step": 6658 }, { "epoch": 1.1551466666666665, "grad_norm": 0.02453976627830089, "learning_rate": 0.0001, "loss": 0.9829, "step": 6659 }, { "epoch": 1.1552, "grad_norm": 0.023130529525161335, "learning_rate": 0.0001, "loss": 0.9652, "step": 6660 }, { "epoch": 1.1552533333333332, "grad_norm": 0.02438143602417584, "learning_rate": 0.0001, "loss": 1.0089, "step": 6661 }, { "epoch": 1.1553066666666667, "grad_norm": 0.023840711122616806, "learning_rate": 0.0001, "loss": 0.9549, "step": 6662 }, { "epoch": 1.15536, "grad_norm": 0.02426873837192867, "learning_rate": 0.0001, "loss": 1.0094, "step": 6663 }, { "epoch": 1.1554133333333334, "grad_norm": 0.023640207409555032, "learning_rate": 0.0001, "loss": 1.0187, "step": 6664 }, { "epoch": 1.1554666666666666, "grad_norm": 0.025151657205243483, "learning_rate": 0.0001, "loss": 0.9367, "step": 6665 }, { "epoch": 1.15552, "grad_norm": 0.0246709798450016, "learning_rate": 0.0001, "loss": 0.9523, "step": 6666 }, { "epoch": 1.1555733333333333, "grad_norm": 0.024386267801024486, "learning_rate": 0.0001, "loss": 0.9936, "step": 6667 }, { "epoch": 1.1556266666666666, "grad_norm": 0.028029161139705657, "learning_rate": 0.0001, "loss": 1.0325, "step": 6668 }, { "epoch": 1.15568, "grad_norm": 0.0251600175871147, "learning_rate": 0.0001, "loss": 0.9249, "step": 6669 }, { "epoch": 1.1557333333333333, "grad_norm": 0.025063810452516853, "learning_rate": 0.0001, "loss": 0.9535, "step": 6670 }, { "epoch": 1.1557866666666667, "grad_norm": 0.024347109069295315, "learning_rate": 0.0001, "loss": 1.0058, "step": 6671 }, { "epoch": 1.15584, "grad_norm": 0.023477718494469956, "learning_rate": 0.0001, "loss": 0.9756, "step": 6672 }, { "epoch": 1.1558933333333332, "grad_norm": 0.023613233829705572, "learning_rate": 0.0001, "loss": 0.9845, "step": 6673 }, { "epoch": 1.1559466666666667, "grad_norm": 0.026643071339694187, "learning_rate": 0.0001, "loss": 0.9793, "step": 6674 }, { "epoch": 1.156, "grad_norm": 0.023715502301693225, "learning_rate": 0.0001, "loss": 0.9632, "step": 6675 }, { "epoch": 1.1560533333333334, "grad_norm": 0.02579218870250928, "learning_rate": 0.0001, "loss": 0.9689, "step": 6676 }, { "epoch": 1.1561066666666666, "grad_norm": 0.02409052319374008, "learning_rate": 0.0001, "loss": 0.9779, "step": 6677 }, { "epoch": 1.15616, "grad_norm": 0.025348229735358763, "learning_rate": 0.0001, "loss": 0.9953, "step": 6678 }, { "epoch": 1.1562133333333333, "grad_norm": 0.022797765031446923, "learning_rate": 0.0001, "loss": 0.9701, "step": 6679 }, { "epoch": 1.1562666666666668, "grad_norm": 0.024560274801067615, "learning_rate": 0.0001, "loss": 0.925, "step": 6680 }, { "epoch": 1.15632, "grad_norm": 0.026740742300532045, "learning_rate": 0.0001, "loss": 0.9262, "step": 6681 }, { "epoch": 1.1563733333333333, "grad_norm": 0.02367491683210547, "learning_rate": 0.0001, "loss": 0.9405, "step": 6682 }, { "epoch": 1.1564266666666667, "grad_norm": 0.025256979261666264, "learning_rate": 0.0001, "loss": 0.9439, "step": 6683 }, { "epoch": 1.15648, "grad_norm": 0.026238227631546856, "learning_rate": 0.0001, "loss": 0.999, "step": 6684 }, { "epoch": 1.1565333333333334, "grad_norm": 0.023679122923234975, "learning_rate": 0.0001, "loss": 0.9595, "step": 6685 }, { "epoch": 1.1565866666666667, "grad_norm": 0.024783535989638884, "learning_rate": 0.0001, "loss": 1.0574, "step": 6686 }, { "epoch": 1.15664, "grad_norm": 0.023462152972487424, "learning_rate": 0.0001, "loss": 0.9817, "step": 6687 }, { "epoch": 1.1566933333333334, "grad_norm": 0.02317828703131758, "learning_rate": 0.0001, "loss": 0.9566, "step": 6688 }, { "epoch": 1.1567466666666666, "grad_norm": 0.02384659077239771, "learning_rate": 0.0001, "loss": 0.983, "step": 6689 }, { "epoch": 1.1568, "grad_norm": 0.024586162071671518, "learning_rate": 0.0001, "loss": 0.986, "step": 6690 }, { "epoch": 1.1568533333333333, "grad_norm": 0.02325862326335573, "learning_rate": 0.0001, "loss": 0.9182, "step": 6691 }, { "epoch": 1.1569066666666667, "grad_norm": 0.022816935764298003, "learning_rate": 0.0001, "loss": 0.9572, "step": 6692 }, { "epoch": 1.15696, "grad_norm": 0.02509453372144507, "learning_rate": 0.0001, "loss": 0.9611, "step": 6693 }, { "epoch": 1.1570133333333334, "grad_norm": 0.024894364388052276, "learning_rate": 0.0001, "loss": 0.9652, "step": 6694 }, { "epoch": 1.1570666666666667, "grad_norm": 0.02346428810787568, "learning_rate": 0.0001, "loss": 0.9657, "step": 6695 }, { "epoch": 1.15712, "grad_norm": 0.025702337788562842, "learning_rate": 0.0001, "loss": 0.9673, "step": 6696 }, { "epoch": 1.1571733333333334, "grad_norm": 0.02280313859506297, "learning_rate": 0.0001, "loss": 0.9876, "step": 6697 }, { "epoch": 1.1572266666666666, "grad_norm": 0.023950956036274132, "learning_rate": 0.0001, "loss": 0.9255, "step": 6698 }, { "epoch": 1.15728, "grad_norm": 0.022286680455545906, "learning_rate": 0.0001, "loss": 0.918, "step": 6699 }, { "epoch": 1.1573333333333333, "grad_norm": 0.024543632291675138, "learning_rate": 0.0001, "loss": 0.9607, "step": 6700 }, { "epoch": 1.1573866666666666, "grad_norm": 0.02284178046748654, "learning_rate": 0.0001, "loss": 0.9691, "step": 6701 }, { "epoch": 1.15744, "grad_norm": 0.02371067787630345, "learning_rate": 0.0001, "loss": 0.9801, "step": 6702 }, { "epoch": 1.1574933333333333, "grad_norm": 0.02238934045449395, "learning_rate": 0.0001, "loss": 1.069, "step": 6703 }, { "epoch": 1.1575466666666667, "grad_norm": 0.023930879059137874, "learning_rate": 0.0001, "loss": 0.9849, "step": 6704 }, { "epoch": 1.1576, "grad_norm": 0.02368050825613908, "learning_rate": 0.0001, "loss": 0.994, "step": 6705 }, { "epoch": 1.1576533333333334, "grad_norm": 0.02598800634448165, "learning_rate": 0.0001, "loss": 0.9605, "step": 6706 }, { "epoch": 1.1577066666666667, "grad_norm": 0.022896145288164537, "learning_rate": 0.0001, "loss": 0.9891, "step": 6707 }, { "epoch": 1.1577600000000001, "grad_norm": 0.02217140530004076, "learning_rate": 0.0001, "loss": 0.9889, "step": 6708 }, { "epoch": 1.1578133333333334, "grad_norm": 0.02324111028355882, "learning_rate": 0.0001, "loss": 1.0143, "step": 6709 }, { "epoch": 1.1578666666666666, "grad_norm": 0.023470606659583337, "learning_rate": 0.0001, "loss": 0.9664, "step": 6710 }, { "epoch": 1.15792, "grad_norm": 0.02354685528105356, "learning_rate": 0.0001, "loss": 0.9408, "step": 6711 }, { "epoch": 1.1579733333333333, "grad_norm": 0.023038108734933775, "learning_rate": 0.0001, "loss": 0.9384, "step": 6712 }, { "epoch": 1.1580266666666668, "grad_norm": 0.022799613526409853, "learning_rate": 0.0001, "loss": 0.9567, "step": 6713 }, { "epoch": 1.15808, "grad_norm": 0.02483319800406582, "learning_rate": 0.0001, "loss": 0.9788, "step": 6714 }, { "epoch": 1.1581333333333332, "grad_norm": 0.02458537984034475, "learning_rate": 0.0001, "loss": 0.9578, "step": 6715 }, { "epoch": 1.1581866666666667, "grad_norm": 0.0255967675340945, "learning_rate": 0.0001, "loss": 1.069, "step": 6716 }, { "epoch": 1.15824, "grad_norm": 0.02513012135986171, "learning_rate": 0.0001, "loss": 0.9712, "step": 6717 }, { "epoch": 1.1582933333333334, "grad_norm": 0.025185520533658915, "learning_rate": 0.0001, "loss": 0.9877, "step": 6718 }, { "epoch": 1.1583466666666666, "grad_norm": 0.024308462649660186, "learning_rate": 0.0001, "loss": 0.9566, "step": 6719 }, { "epoch": 1.1584, "grad_norm": 0.024099717681172052, "learning_rate": 0.0001, "loss": 0.9672, "step": 6720 }, { "epoch": 1.1584533333333333, "grad_norm": 0.024717733857271197, "learning_rate": 0.0001, "loss": 0.9466, "step": 6721 }, { "epoch": 1.1585066666666666, "grad_norm": 0.025837577766540904, "learning_rate": 0.0001, "loss": 0.9492, "step": 6722 }, { "epoch": 1.15856, "grad_norm": 0.02469704904498805, "learning_rate": 0.0001, "loss": 0.9653, "step": 6723 }, { "epoch": 1.1586133333333333, "grad_norm": 0.024979379101575754, "learning_rate": 0.0001, "loss": 0.9477, "step": 6724 }, { "epoch": 1.1586666666666667, "grad_norm": 0.02330719038819885, "learning_rate": 0.0001, "loss": 0.9487, "step": 6725 }, { "epoch": 1.15872, "grad_norm": 0.025963067809105865, "learning_rate": 0.0001, "loss": 0.9491, "step": 6726 }, { "epoch": 1.1587733333333334, "grad_norm": 0.024713506493982688, "learning_rate": 0.0001, "loss": 0.9786, "step": 6727 }, { "epoch": 1.1588266666666667, "grad_norm": 0.02557505412951673, "learning_rate": 0.0001, "loss": 0.923, "step": 6728 }, { "epoch": 1.15888, "grad_norm": 0.02554060899926736, "learning_rate": 0.0001, "loss": 0.9935, "step": 6729 }, { "epoch": 1.1589333333333334, "grad_norm": 0.024382217276963672, "learning_rate": 0.0001, "loss": 0.9702, "step": 6730 }, { "epoch": 1.1589866666666666, "grad_norm": 0.023434418912832444, "learning_rate": 0.0001, "loss": 0.9235, "step": 6731 }, { "epoch": 1.15904, "grad_norm": 0.023055971004936542, "learning_rate": 0.0001, "loss": 0.9827, "step": 6732 }, { "epoch": 1.1590933333333333, "grad_norm": 0.02444022689190192, "learning_rate": 0.0001, "loss": 0.9254, "step": 6733 }, { "epoch": 1.1591466666666665, "grad_norm": 0.024756066803880004, "learning_rate": 0.0001, "loss": 0.9987, "step": 6734 }, { "epoch": 1.1592, "grad_norm": 0.025505810218924313, "learning_rate": 0.0001, "loss": 0.9446, "step": 6735 }, { "epoch": 1.1592533333333332, "grad_norm": 0.0250278749121504, "learning_rate": 0.0001, "loss": 0.9349, "step": 6736 }, { "epoch": 1.1593066666666667, "grad_norm": 0.02369400943638701, "learning_rate": 0.0001, "loss": 0.9961, "step": 6737 }, { "epoch": 1.15936, "grad_norm": 0.027264245298889975, "learning_rate": 0.0001, "loss": 1.0096, "step": 6738 }, { "epoch": 1.1594133333333334, "grad_norm": 0.025862020906406925, "learning_rate": 0.0001, "loss": 0.9992, "step": 6739 }, { "epoch": 1.1594666666666666, "grad_norm": 0.025779465618282524, "learning_rate": 0.0001, "loss": 1.0029, "step": 6740 }, { "epoch": 1.15952, "grad_norm": 0.025760717974103148, "learning_rate": 0.0001, "loss": 0.904, "step": 6741 }, { "epoch": 1.1595733333333333, "grad_norm": 0.02671087012365056, "learning_rate": 0.0001, "loss": 0.9992, "step": 6742 }, { "epoch": 1.1596266666666666, "grad_norm": 0.02411154620435899, "learning_rate": 0.0001, "loss": 0.9874, "step": 6743 }, { "epoch": 1.15968, "grad_norm": 0.024832852138751676, "learning_rate": 0.0001, "loss": 0.9838, "step": 6744 }, { "epoch": 1.1597333333333333, "grad_norm": 0.02524391150546621, "learning_rate": 0.0001, "loss": 0.9693, "step": 6745 }, { "epoch": 1.1597866666666667, "grad_norm": 0.023225903559293277, "learning_rate": 0.0001, "loss": 1.0111, "step": 6746 }, { "epoch": 1.15984, "grad_norm": 0.023363006481142375, "learning_rate": 0.0001, "loss": 1.003, "step": 6747 }, { "epoch": 1.1598933333333332, "grad_norm": 0.026630361083169966, "learning_rate": 0.0001, "loss": 0.9601, "step": 6748 }, { "epoch": 1.1599466666666667, "grad_norm": 0.02588514356341218, "learning_rate": 0.0001, "loss": 1.0247, "step": 6749 }, { "epoch": 1.16, "grad_norm": 0.023510948315141448, "learning_rate": 0.0001, "loss": 0.9257, "step": 6750 }, { "epoch": 1.1600533333333334, "grad_norm": 0.023119031177599086, "learning_rate": 0.0001, "loss": 0.9475, "step": 6751 }, { "epoch": 1.1601066666666666, "grad_norm": 0.02416566706020812, "learning_rate": 0.0001, "loss": 0.9595, "step": 6752 }, { "epoch": 1.16016, "grad_norm": 0.024064125796787347, "learning_rate": 0.0001, "loss": 0.9965, "step": 6753 }, { "epoch": 1.1602133333333333, "grad_norm": 0.02316044555872088, "learning_rate": 0.0001, "loss": 0.9726, "step": 6754 }, { "epoch": 1.1602666666666668, "grad_norm": 0.023307302438562737, "learning_rate": 0.0001, "loss": 1.0042, "step": 6755 }, { "epoch": 1.16032, "grad_norm": 0.02412843703014275, "learning_rate": 0.0001, "loss": 0.9968, "step": 6756 }, { "epoch": 1.1603733333333333, "grad_norm": 0.02465822783408485, "learning_rate": 0.0001, "loss": 1.0325, "step": 6757 }, { "epoch": 1.1604266666666667, "grad_norm": 0.02426126103034757, "learning_rate": 0.0001, "loss": 1.0278, "step": 6758 }, { "epoch": 1.16048, "grad_norm": 0.02268615015155995, "learning_rate": 0.0001, "loss": 0.9176, "step": 6759 }, { "epoch": 1.1605333333333334, "grad_norm": 0.023806534321443154, "learning_rate": 0.0001, "loss": 0.9135, "step": 6760 }, { "epoch": 1.1605866666666667, "grad_norm": 0.02464580733945791, "learning_rate": 0.0001, "loss": 1.0033, "step": 6761 }, { "epoch": 1.16064, "grad_norm": 0.023134852126629916, "learning_rate": 0.0001, "loss": 0.9363, "step": 6762 }, { "epoch": 1.1606933333333334, "grad_norm": 0.025087351674112385, "learning_rate": 0.0001, "loss": 0.9472, "step": 6763 }, { "epoch": 1.1607466666666666, "grad_norm": 0.024185000293092073, "learning_rate": 0.0001, "loss": 0.9576, "step": 6764 }, { "epoch": 1.1608, "grad_norm": 0.027215027909494354, "learning_rate": 0.0001, "loss": 0.9932, "step": 6765 }, { "epoch": 1.1608533333333333, "grad_norm": 0.024311064497770044, "learning_rate": 0.0001, "loss": 0.9935, "step": 6766 }, { "epoch": 1.1609066666666668, "grad_norm": 0.024370406373202206, "learning_rate": 0.0001, "loss": 1.017, "step": 6767 }, { "epoch": 1.16096, "grad_norm": 0.024560597815670004, "learning_rate": 0.0001, "loss": 0.9541, "step": 6768 }, { "epoch": 1.1610133333333335, "grad_norm": 0.022564323148253275, "learning_rate": 0.0001, "loss": 0.9576, "step": 6769 }, { "epoch": 1.1610666666666667, "grad_norm": 0.02383699357386726, "learning_rate": 0.0001, "loss": 1.063, "step": 6770 }, { "epoch": 1.16112, "grad_norm": 0.022733237424625675, "learning_rate": 0.0001, "loss": 1.0301, "step": 6771 }, { "epoch": 1.1611733333333334, "grad_norm": 0.023993333043207107, "learning_rate": 0.0001, "loss": 0.9679, "step": 6772 }, { "epoch": 1.1612266666666666, "grad_norm": 0.0249792914778152, "learning_rate": 0.0001, "loss": 0.9383, "step": 6773 }, { "epoch": 1.16128, "grad_norm": 0.023512380596656515, "learning_rate": 0.0001, "loss": 0.9859, "step": 6774 }, { "epoch": 1.1613333333333333, "grad_norm": 0.023886438887930753, "learning_rate": 0.0001, "loss": 1.0324, "step": 6775 }, { "epoch": 1.1613866666666666, "grad_norm": 0.023332776464137086, "learning_rate": 0.0001, "loss": 0.975, "step": 6776 }, { "epoch": 1.16144, "grad_norm": 0.027051239093929924, "learning_rate": 0.0001, "loss": 0.9951, "step": 6777 }, { "epoch": 1.1614933333333333, "grad_norm": 0.02510530058436534, "learning_rate": 0.0001, "loss": 0.9661, "step": 6778 }, { "epoch": 1.1615466666666667, "grad_norm": 0.024795774949340644, "learning_rate": 0.0001, "loss": 1.0203, "step": 6779 }, { "epoch": 1.1616, "grad_norm": 0.025327692507891842, "learning_rate": 0.0001, "loss": 1.0499, "step": 6780 }, { "epoch": 1.1616533333333334, "grad_norm": 0.02333609234988742, "learning_rate": 0.0001, "loss": 1.0085, "step": 6781 }, { "epoch": 1.1617066666666667, "grad_norm": 0.025248014964175235, "learning_rate": 0.0001, "loss": 0.961, "step": 6782 }, { "epoch": 1.16176, "grad_norm": 0.022971478698517053, "learning_rate": 0.0001, "loss": 0.987, "step": 6783 }, { "epoch": 1.1618133333333334, "grad_norm": 0.025394638363275688, "learning_rate": 0.0001, "loss": 1.0367, "step": 6784 }, { "epoch": 1.1618666666666666, "grad_norm": 0.023907325657261252, "learning_rate": 0.0001, "loss": 0.9085, "step": 6785 }, { "epoch": 1.16192, "grad_norm": 0.02310338173572221, "learning_rate": 0.0001, "loss": 0.9689, "step": 6786 }, { "epoch": 1.1619733333333333, "grad_norm": 0.022854128729296475, "learning_rate": 0.0001, "loss": 0.9358, "step": 6787 }, { "epoch": 1.1620266666666668, "grad_norm": 0.025124368509005925, "learning_rate": 0.0001, "loss": 0.9157, "step": 6788 }, { "epoch": 1.16208, "grad_norm": 0.023521588399528788, "learning_rate": 0.0001, "loss": 1.0082, "step": 6789 }, { "epoch": 1.1621333333333332, "grad_norm": 0.023956631005886662, "learning_rate": 0.0001, "loss": 0.9368, "step": 6790 }, { "epoch": 1.1621866666666667, "grad_norm": 0.02430665131364572, "learning_rate": 0.0001, "loss": 0.9429, "step": 6791 }, { "epoch": 1.16224, "grad_norm": 0.023441320906224705, "learning_rate": 0.0001, "loss": 0.9404, "step": 6792 }, { "epoch": 1.1622933333333334, "grad_norm": 0.025384153358528342, "learning_rate": 0.0001, "loss": 1.0574, "step": 6793 }, { "epoch": 1.1623466666666666, "grad_norm": 0.023361502498296643, "learning_rate": 0.0001, "loss": 0.9582, "step": 6794 }, { "epoch": 1.1623999999999999, "grad_norm": 0.02334050237055876, "learning_rate": 0.0001, "loss": 1.0186, "step": 6795 }, { "epoch": 1.1624533333333333, "grad_norm": 0.024414647872995573, "learning_rate": 0.0001, "loss": 0.9598, "step": 6796 }, { "epoch": 1.1625066666666666, "grad_norm": 0.025803137214703908, "learning_rate": 0.0001, "loss": 0.9362, "step": 6797 }, { "epoch": 1.16256, "grad_norm": 0.02429271628218668, "learning_rate": 0.0001, "loss": 0.9734, "step": 6798 }, { "epoch": 1.1626133333333333, "grad_norm": 0.024798230675014306, "learning_rate": 0.0001, "loss": 0.9345, "step": 6799 }, { "epoch": 1.1626666666666667, "grad_norm": 0.02535884039837735, "learning_rate": 0.0001, "loss": 1.0043, "step": 6800 }, { "epoch": 1.1626666666666667, "eval_accuracy": 0.6190252319781903, "eval_loss": 1.360657811164856, "eval_runtime": 62.6493, "eval_samples_per_second": 15.962, "eval_steps_per_second": 0.511, "step": 6800 }, { "epoch": 1.16272, "grad_norm": 0.025767012831928508, "learning_rate": 0.0001, "loss": 1.0014, "step": 6801 }, { "epoch": 1.1627733333333334, "grad_norm": 0.024786011083867892, "learning_rate": 0.0001, "loss": 1.0004, "step": 6802 }, { "epoch": 1.1628266666666667, "grad_norm": 0.026476127410031775, "learning_rate": 0.0001, "loss": 0.9408, "step": 6803 }, { "epoch": 1.16288, "grad_norm": 0.026785218272879725, "learning_rate": 0.0001, "loss": 0.9432, "step": 6804 }, { "epoch": 1.1629333333333334, "grad_norm": 0.0281722573010948, "learning_rate": 0.0001, "loss": 0.991, "step": 6805 }, { "epoch": 1.1629866666666666, "grad_norm": 0.024402256961101706, "learning_rate": 0.0001, "loss": 0.9987, "step": 6806 }, { "epoch": 1.16304, "grad_norm": 0.024653656532676822, "learning_rate": 0.0001, "loss": 0.9646, "step": 6807 }, { "epoch": 1.1630933333333333, "grad_norm": 0.026506022531168457, "learning_rate": 0.0001, "loss": 0.9445, "step": 6808 }, { "epoch": 1.1631466666666666, "grad_norm": 0.025939581835983955, "learning_rate": 0.0001, "loss": 0.9138, "step": 6809 }, { "epoch": 1.1632, "grad_norm": 0.024270165928994118, "learning_rate": 0.0001, "loss": 0.9644, "step": 6810 }, { "epoch": 1.1632533333333333, "grad_norm": 0.023018818877469066, "learning_rate": 0.0001, "loss": 0.9813, "step": 6811 }, { "epoch": 1.1633066666666667, "grad_norm": 0.026099398230884356, "learning_rate": 0.0001, "loss": 0.9618, "step": 6812 }, { "epoch": 1.16336, "grad_norm": 0.024318255938620432, "learning_rate": 0.0001, "loss": 0.971, "step": 6813 }, { "epoch": 1.1634133333333334, "grad_norm": 0.024986989135682626, "learning_rate": 0.0001, "loss": 0.9804, "step": 6814 }, { "epoch": 1.1634666666666666, "grad_norm": 0.023953957468716244, "learning_rate": 0.0001, "loss": 0.9429, "step": 6815 }, { "epoch": 1.16352, "grad_norm": 0.022879990516929877, "learning_rate": 0.0001, "loss": 0.9972, "step": 6816 }, { "epoch": 1.1635733333333333, "grad_norm": 0.023444391230691156, "learning_rate": 0.0001, "loss": 0.9855, "step": 6817 }, { "epoch": 1.1636266666666666, "grad_norm": 0.024278689926189662, "learning_rate": 0.0001, "loss": 0.9429, "step": 6818 }, { "epoch": 1.16368, "grad_norm": 0.023543642052739126, "learning_rate": 0.0001, "loss": 1.0219, "step": 6819 }, { "epoch": 1.1637333333333333, "grad_norm": 0.0232226919284889, "learning_rate": 0.0001, "loss": 0.943, "step": 6820 }, { "epoch": 1.1637866666666667, "grad_norm": 0.022886077787845585, "learning_rate": 0.0001, "loss": 0.9332, "step": 6821 }, { "epoch": 1.16384, "grad_norm": 0.02386460361392815, "learning_rate": 0.0001, "loss": 0.9566, "step": 6822 }, { "epoch": 1.1638933333333332, "grad_norm": 0.023239669663333455, "learning_rate": 0.0001, "loss": 0.9652, "step": 6823 }, { "epoch": 1.1639466666666667, "grad_norm": 0.022462655648670973, "learning_rate": 0.0001, "loss": 0.9767, "step": 6824 }, { "epoch": 1.164, "grad_norm": 0.026366758252185294, "learning_rate": 0.0001, "loss": 0.9856, "step": 6825 }, { "epoch": 1.1640533333333334, "grad_norm": 0.02521332615050943, "learning_rate": 0.0001, "loss": 0.9316, "step": 6826 }, { "epoch": 1.1641066666666666, "grad_norm": 0.025312395352453665, "learning_rate": 0.0001, "loss": 0.9893, "step": 6827 }, { "epoch": 1.16416, "grad_norm": 0.023851067166556692, "learning_rate": 0.0001, "loss": 0.9538, "step": 6828 }, { "epoch": 1.1642133333333333, "grad_norm": 0.024193259312865326, "learning_rate": 0.0001, "loss": 0.9957, "step": 6829 }, { "epoch": 1.1642666666666668, "grad_norm": 0.024658956715891266, "learning_rate": 0.0001, "loss": 0.9542, "step": 6830 }, { "epoch": 1.16432, "grad_norm": 0.0264371097239152, "learning_rate": 0.0001, "loss": 1.0491, "step": 6831 }, { "epoch": 1.1643733333333333, "grad_norm": 0.024000655188537962, "learning_rate": 0.0001, "loss": 0.9952, "step": 6832 }, { "epoch": 1.1644266666666667, "grad_norm": 0.02307534259617658, "learning_rate": 0.0001, "loss": 0.9922, "step": 6833 }, { "epoch": 1.16448, "grad_norm": 0.023962059098157303, "learning_rate": 0.0001, "loss": 0.9431, "step": 6834 }, { "epoch": 1.1645333333333334, "grad_norm": 0.023376229231281468, "learning_rate": 0.0001, "loss": 0.969, "step": 6835 }, { "epoch": 1.1645866666666667, "grad_norm": 0.024672701884721603, "learning_rate": 0.0001, "loss": 1.0206, "step": 6836 }, { "epoch": 1.16464, "grad_norm": 0.0293165369432914, "learning_rate": 0.0001, "loss": 0.9688, "step": 6837 }, { "epoch": 1.1646933333333334, "grad_norm": 0.023692007911661005, "learning_rate": 0.0001, "loss": 0.9778, "step": 6838 }, { "epoch": 1.1647466666666666, "grad_norm": 0.02735951307340649, "learning_rate": 0.0001, "loss": 0.9653, "step": 6839 }, { "epoch": 1.1648, "grad_norm": 0.025573216318602, "learning_rate": 0.0001, "loss": 0.9561, "step": 6840 }, { "epoch": 1.1648533333333333, "grad_norm": 0.027099584383656457, "learning_rate": 0.0001, "loss": 0.9554, "step": 6841 }, { "epoch": 1.1649066666666668, "grad_norm": 0.024264853153447796, "learning_rate": 0.0001, "loss": 1.0235, "step": 6842 }, { "epoch": 1.16496, "grad_norm": 0.023767024579545704, "learning_rate": 0.0001, "loss": 1.0158, "step": 6843 }, { "epoch": 1.1650133333333335, "grad_norm": 0.025746031962355344, "learning_rate": 0.0001, "loss": 0.9704, "step": 6844 }, { "epoch": 1.1650666666666667, "grad_norm": 0.022993166096174862, "learning_rate": 0.0001, "loss": 0.9914, "step": 6845 }, { "epoch": 1.16512, "grad_norm": 0.023612992120162074, "learning_rate": 0.0001, "loss": 0.9434, "step": 6846 }, { "epoch": 1.1651733333333334, "grad_norm": 0.023403019348433248, "learning_rate": 0.0001, "loss": 0.9617, "step": 6847 }, { "epoch": 1.1652266666666666, "grad_norm": 0.02402149603016801, "learning_rate": 0.0001, "loss": 0.997, "step": 6848 }, { "epoch": 1.16528, "grad_norm": 0.022388273494573892, "learning_rate": 0.0001, "loss": 1.0426, "step": 6849 }, { "epoch": 1.1653333333333333, "grad_norm": 0.02373755529998794, "learning_rate": 0.0001, "loss": 1.009, "step": 6850 }, { "epoch": 1.1653866666666666, "grad_norm": 0.024511477763865742, "learning_rate": 0.0001, "loss": 0.947, "step": 6851 }, { "epoch": 1.16544, "grad_norm": 0.023860765578444975, "learning_rate": 0.0001, "loss": 0.9169, "step": 6852 }, { "epoch": 1.1654933333333333, "grad_norm": 0.026823213971789075, "learning_rate": 0.0001, "loss": 0.968, "step": 6853 }, { "epoch": 1.1655466666666667, "grad_norm": 0.023712216506731932, "learning_rate": 0.0001, "loss": 0.9904, "step": 6854 }, { "epoch": 1.1656, "grad_norm": 0.02349925342148422, "learning_rate": 0.0001, "loss": 0.9821, "step": 6855 }, { "epoch": 1.1656533333333334, "grad_norm": 0.02303234079602407, "learning_rate": 0.0001, "loss": 0.9654, "step": 6856 }, { "epoch": 1.1657066666666667, "grad_norm": 0.024523303832194338, "learning_rate": 0.0001, "loss": 0.9747, "step": 6857 }, { "epoch": 1.16576, "grad_norm": 0.023739778523392947, "learning_rate": 0.0001, "loss": 0.9698, "step": 6858 }, { "epoch": 1.1658133333333334, "grad_norm": 0.02358205922093757, "learning_rate": 0.0001, "loss": 0.9398, "step": 6859 }, { "epoch": 1.1658666666666666, "grad_norm": 0.02531806841258065, "learning_rate": 0.0001, "loss": 0.9866, "step": 6860 }, { "epoch": 1.16592, "grad_norm": 0.02488032250068803, "learning_rate": 0.0001, "loss": 0.9697, "step": 6861 }, { "epoch": 1.1659733333333333, "grad_norm": 0.023765009949508618, "learning_rate": 0.0001, "loss": 0.983, "step": 6862 }, { "epoch": 1.1660266666666668, "grad_norm": 0.025353478902466184, "learning_rate": 0.0001, "loss": 0.9944, "step": 6863 }, { "epoch": 1.16608, "grad_norm": 0.025440184082523822, "learning_rate": 0.0001, "loss": 0.9503, "step": 6864 }, { "epoch": 1.1661333333333332, "grad_norm": 0.022155695114398806, "learning_rate": 0.0001, "loss": 0.9816, "step": 6865 }, { "epoch": 1.1661866666666667, "grad_norm": 0.02569682743127436, "learning_rate": 0.0001, "loss": 0.9902, "step": 6866 }, { "epoch": 1.16624, "grad_norm": 0.0249169963327629, "learning_rate": 0.0001, "loss": 0.9411, "step": 6867 }, { "epoch": 1.1662933333333334, "grad_norm": 0.025620050650038063, "learning_rate": 0.0001, "loss": 0.9313, "step": 6868 }, { "epoch": 1.1663466666666666, "grad_norm": 0.021753543919706297, "learning_rate": 0.0001, "loss": 0.9747, "step": 6869 }, { "epoch": 1.1663999999999999, "grad_norm": 0.023849264811330307, "learning_rate": 0.0001, "loss": 0.946, "step": 6870 }, { "epoch": 1.1664533333333333, "grad_norm": 0.02513323909922531, "learning_rate": 0.0001, "loss": 0.9684, "step": 6871 }, { "epoch": 1.1665066666666666, "grad_norm": 0.025228518653022954, "learning_rate": 0.0001, "loss": 0.947, "step": 6872 }, { "epoch": 1.16656, "grad_norm": 0.022852846626365168, "learning_rate": 0.0001, "loss": 0.9805, "step": 6873 }, { "epoch": 1.1666133333333333, "grad_norm": 0.02764144751306388, "learning_rate": 0.0001, "loss": 1.0189, "step": 6874 }, { "epoch": 1.1666666666666667, "grad_norm": 0.025944589791632788, "learning_rate": 0.0001, "loss": 0.9701, "step": 6875 }, { "epoch": 1.16672, "grad_norm": 0.02243639122818393, "learning_rate": 0.0001, "loss": 0.9734, "step": 6876 }, { "epoch": 1.1667733333333334, "grad_norm": 0.02472594667737776, "learning_rate": 0.0001, "loss": 0.9885, "step": 6877 }, { "epoch": 1.1668266666666667, "grad_norm": 0.02351577925787239, "learning_rate": 0.0001, "loss": 0.9916, "step": 6878 }, { "epoch": 1.16688, "grad_norm": 0.023203252822140617, "learning_rate": 0.0001, "loss": 0.9498, "step": 6879 }, { "epoch": 1.1669333333333334, "grad_norm": 0.025569007552464804, "learning_rate": 0.0001, "loss": 0.9522, "step": 6880 }, { "epoch": 1.1669866666666666, "grad_norm": 0.025482773763975106, "learning_rate": 0.0001, "loss": 0.971, "step": 6881 }, { "epoch": 1.16704, "grad_norm": 0.0253364099844221, "learning_rate": 0.0001, "loss": 0.949, "step": 6882 }, { "epoch": 1.1670933333333333, "grad_norm": 0.025394455009063018, "learning_rate": 0.0001, "loss": 0.9573, "step": 6883 }, { "epoch": 1.1671466666666666, "grad_norm": 0.025587296158033842, "learning_rate": 0.0001, "loss": 0.994, "step": 6884 }, { "epoch": 1.1672, "grad_norm": 0.023188288433800282, "learning_rate": 0.0001, "loss": 0.9585, "step": 6885 }, { "epoch": 1.1672533333333333, "grad_norm": 0.023886749466556355, "learning_rate": 0.0001, "loss": 0.9598, "step": 6886 }, { "epoch": 1.1673066666666667, "grad_norm": 0.02480113601915838, "learning_rate": 0.0001, "loss": 0.9098, "step": 6887 }, { "epoch": 1.16736, "grad_norm": 0.024299195090000968, "learning_rate": 0.0001, "loss": 0.9939, "step": 6888 }, { "epoch": 1.1674133333333334, "grad_norm": 0.023721576389822703, "learning_rate": 0.0001, "loss": 0.9726, "step": 6889 }, { "epoch": 1.1674666666666667, "grad_norm": 0.024221525995264708, "learning_rate": 0.0001, "loss": 0.9638, "step": 6890 }, { "epoch": 1.1675200000000001, "grad_norm": 0.023374795381699974, "learning_rate": 0.0001, "loss": 0.9625, "step": 6891 }, { "epoch": 1.1675733333333334, "grad_norm": 0.02666830119615866, "learning_rate": 0.0001, "loss": 1.0188, "step": 6892 }, { "epoch": 1.1676266666666666, "grad_norm": 0.022344714666868215, "learning_rate": 0.0001, "loss": 0.9848, "step": 6893 }, { "epoch": 1.16768, "grad_norm": 0.024641696024362086, "learning_rate": 0.0001, "loss": 0.9673, "step": 6894 }, { "epoch": 1.1677333333333333, "grad_norm": 0.024642054270132326, "learning_rate": 0.0001, "loss": 1.0125, "step": 6895 }, { "epoch": 1.1677866666666668, "grad_norm": 0.02482884165944881, "learning_rate": 0.0001, "loss": 0.9376, "step": 6896 }, { "epoch": 1.16784, "grad_norm": 0.026595058921092613, "learning_rate": 0.0001, "loss": 1.0261, "step": 6897 }, { "epoch": 1.1678933333333332, "grad_norm": 0.02383707661997, "learning_rate": 0.0001, "loss": 1.0164, "step": 6898 }, { "epoch": 1.1679466666666667, "grad_norm": 0.022814980422183606, "learning_rate": 0.0001, "loss": 1.0072, "step": 6899 }, { "epoch": 1.168, "grad_norm": 0.02713464971935948, "learning_rate": 0.0001, "loss": 0.9394, "step": 6900 }, { "epoch": 1.1680533333333334, "grad_norm": 0.02340131799529868, "learning_rate": 0.0001, "loss": 0.9845, "step": 6901 }, { "epoch": 1.1681066666666666, "grad_norm": 0.023833999374026988, "learning_rate": 0.0001, "loss": 1.0019, "step": 6902 }, { "epoch": 1.16816, "grad_norm": 0.024716291343854925, "learning_rate": 0.0001, "loss": 0.9481, "step": 6903 }, { "epoch": 1.1682133333333333, "grad_norm": 0.023650708207617558, "learning_rate": 0.0001, "loss": 1.0097, "step": 6904 }, { "epoch": 1.1682666666666668, "grad_norm": 0.025623724754061064, "learning_rate": 0.0001, "loss": 0.9824, "step": 6905 }, { "epoch": 1.16832, "grad_norm": 0.02435984682274022, "learning_rate": 0.0001, "loss": 1.0147, "step": 6906 }, { "epoch": 1.1683733333333333, "grad_norm": 0.02359268182360222, "learning_rate": 0.0001, "loss": 0.9809, "step": 6907 }, { "epoch": 1.1684266666666667, "grad_norm": 0.025067136672875683, "learning_rate": 0.0001, "loss": 1.0037, "step": 6908 }, { "epoch": 1.16848, "grad_norm": 0.022856027030426267, "learning_rate": 0.0001, "loss": 1.0117, "step": 6909 }, { "epoch": 1.1685333333333334, "grad_norm": 0.0254821409498281, "learning_rate": 0.0001, "loss": 1.0047, "step": 6910 }, { "epoch": 1.1685866666666667, "grad_norm": 0.025326008952492707, "learning_rate": 0.0001, "loss": 0.9397, "step": 6911 }, { "epoch": 1.16864, "grad_norm": 0.02283766883582871, "learning_rate": 0.0001, "loss": 0.9292, "step": 6912 }, { "epoch": 1.1686933333333334, "grad_norm": 0.024645990757785827, "learning_rate": 0.0001, "loss": 0.9267, "step": 6913 }, { "epoch": 1.1687466666666666, "grad_norm": 0.025121553012212645, "learning_rate": 0.0001, "loss": 0.9479, "step": 6914 }, { "epoch": 1.1688, "grad_norm": 0.024088331371734866, "learning_rate": 0.0001, "loss": 0.9674, "step": 6915 }, { "epoch": 1.1688533333333333, "grad_norm": 0.024917784358379786, "learning_rate": 0.0001, "loss": 0.932, "step": 6916 }, { "epoch": 1.1689066666666668, "grad_norm": 0.0243687198020497, "learning_rate": 0.0001, "loss": 1.0208, "step": 6917 }, { "epoch": 1.16896, "grad_norm": 0.022541976344911566, "learning_rate": 0.0001, "loss": 0.9325, "step": 6918 }, { "epoch": 1.1690133333333332, "grad_norm": 0.024207851115426116, "learning_rate": 0.0001, "loss": 0.9983, "step": 6919 }, { "epoch": 1.1690666666666667, "grad_norm": 0.023090589416632744, "learning_rate": 0.0001, "loss": 0.9941, "step": 6920 }, { "epoch": 1.16912, "grad_norm": 0.0229721176709582, "learning_rate": 0.0001, "loss": 1.007, "step": 6921 }, { "epoch": 1.1691733333333334, "grad_norm": 0.02573731056045605, "learning_rate": 0.0001, "loss": 0.9666, "step": 6922 }, { "epoch": 1.1692266666666666, "grad_norm": 0.02417773391808054, "learning_rate": 0.0001, "loss": 1.0106, "step": 6923 }, { "epoch": 1.16928, "grad_norm": 0.025973942481454654, "learning_rate": 0.0001, "loss": 1.0, "step": 6924 }, { "epoch": 1.1693333333333333, "grad_norm": 0.0277372495396433, "learning_rate": 0.0001, "loss": 0.9573, "step": 6925 }, { "epoch": 1.1693866666666666, "grad_norm": 0.02479798287015874, "learning_rate": 0.0001, "loss": 0.9926, "step": 6926 }, { "epoch": 1.16944, "grad_norm": 0.023272842784758035, "learning_rate": 0.0001, "loss": 0.9686, "step": 6927 }, { "epoch": 1.1694933333333333, "grad_norm": 0.02505579019339498, "learning_rate": 0.0001, "loss": 0.9505, "step": 6928 }, { "epoch": 1.1695466666666667, "grad_norm": 0.025692110768697856, "learning_rate": 0.0001, "loss": 0.9393, "step": 6929 }, { "epoch": 1.1696, "grad_norm": 0.023730424873614406, "learning_rate": 0.0001, "loss": 0.9568, "step": 6930 }, { "epoch": 1.1696533333333332, "grad_norm": 0.02584344380202352, "learning_rate": 0.0001, "loss": 0.9687, "step": 6931 }, { "epoch": 1.1697066666666667, "grad_norm": 0.024088866894179967, "learning_rate": 0.0001, "loss": 0.9273, "step": 6932 }, { "epoch": 1.16976, "grad_norm": 0.024417460598519722, "learning_rate": 0.0001, "loss": 0.9636, "step": 6933 }, { "epoch": 1.1698133333333334, "grad_norm": 0.025563772140873797, "learning_rate": 0.0001, "loss": 1.0007, "step": 6934 }, { "epoch": 1.1698666666666666, "grad_norm": 0.023810609036160543, "learning_rate": 0.0001, "loss": 0.926, "step": 6935 }, { "epoch": 1.16992, "grad_norm": 0.02396748459555155, "learning_rate": 0.0001, "loss": 0.9694, "step": 6936 }, { "epoch": 1.1699733333333333, "grad_norm": 0.02295706209471395, "learning_rate": 0.0001, "loss": 0.9768, "step": 6937 }, { "epoch": 1.1700266666666668, "grad_norm": 0.025582791414694148, "learning_rate": 0.0001, "loss": 0.9995, "step": 6938 }, { "epoch": 1.17008, "grad_norm": 0.02385783117389385, "learning_rate": 0.0001, "loss": 0.9477, "step": 6939 }, { "epoch": 1.1701333333333332, "grad_norm": 0.02355358485610262, "learning_rate": 0.0001, "loss": 0.951, "step": 6940 }, { "epoch": 1.1701866666666667, "grad_norm": 0.02587938899772382, "learning_rate": 0.0001, "loss": 0.9664, "step": 6941 }, { "epoch": 1.17024, "grad_norm": 0.025370088197923895, "learning_rate": 0.0001, "loss": 1.0248, "step": 6942 }, { "epoch": 1.1702933333333334, "grad_norm": 0.0254445387547434, "learning_rate": 0.0001, "loss": 0.9768, "step": 6943 }, { "epoch": 1.1703466666666666, "grad_norm": 0.02356748430450548, "learning_rate": 0.0001, "loss": 0.9697, "step": 6944 }, { "epoch": 1.1703999999999999, "grad_norm": 0.023941273393878516, "learning_rate": 0.0001, "loss": 0.9468, "step": 6945 }, { "epoch": 1.1704533333333333, "grad_norm": 0.0236174013575141, "learning_rate": 0.0001, "loss": 0.9908, "step": 6946 }, { "epoch": 1.1705066666666666, "grad_norm": 0.024369899215844662, "learning_rate": 0.0001, "loss": 0.9211, "step": 6947 }, { "epoch": 1.17056, "grad_norm": 0.024264794568095827, "learning_rate": 0.0001, "loss": 0.9561, "step": 6948 }, { "epoch": 1.1706133333333333, "grad_norm": 0.02315334797489342, "learning_rate": 0.0001, "loss": 0.9689, "step": 6949 }, { "epoch": 1.1706666666666667, "grad_norm": 0.02360073081579082, "learning_rate": 0.0001, "loss": 0.9361, "step": 6950 }, { "epoch": 1.17072, "grad_norm": 0.024392234530456653, "learning_rate": 0.0001, "loss": 0.9608, "step": 6951 }, { "epoch": 1.1707733333333334, "grad_norm": 0.023306708324441643, "learning_rate": 0.0001, "loss": 0.9758, "step": 6952 }, { "epoch": 1.1708266666666667, "grad_norm": 0.02435775204577092, "learning_rate": 0.0001, "loss": 0.9466, "step": 6953 }, { "epoch": 1.17088, "grad_norm": 0.022263348362326574, "learning_rate": 0.0001, "loss": 0.9503, "step": 6954 }, { "epoch": 1.1709333333333334, "grad_norm": 0.024884897417990322, "learning_rate": 0.0001, "loss": 1.1169, "step": 6955 }, { "epoch": 1.1709866666666666, "grad_norm": 0.02367814467631621, "learning_rate": 0.0001, "loss": 0.9511, "step": 6956 }, { "epoch": 1.17104, "grad_norm": 0.024955545331722024, "learning_rate": 0.0001, "loss": 1.0096, "step": 6957 }, { "epoch": 1.1710933333333333, "grad_norm": 0.026413734507959113, "learning_rate": 0.0001, "loss": 1.0295, "step": 6958 }, { "epoch": 1.1711466666666666, "grad_norm": 0.026122007306020233, "learning_rate": 0.0001, "loss": 1.0046, "step": 6959 }, { "epoch": 1.1712, "grad_norm": 0.025614446674793147, "learning_rate": 0.0001, "loss": 0.9833, "step": 6960 }, { "epoch": 1.1712533333333333, "grad_norm": 0.02506133104795325, "learning_rate": 0.0001, "loss": 1.0127, "step": 6961 }, { "epoch": 1.1713066666666667, "grad_norm": 0.024762384171575426, "learning_rate": 0.0001, "loss": 0.9419, "step": 6962 }, { "epoch": 1.17136, "grad_norm": 0.024451171016053572, "learning_rate": 0.0001, "loss": 1.0267, "step": 6963 }, { "epoch": 1.1714133333333334, "grad_norm": 0.02350992511506928, "learning_rate": 0.0001, "loss": 0.9583, "step": 6964 }, { "epoch": 1.1714666666666667, "grad_norm": 0.025039091337781146, "learning_rate": 0.0001, "loss": 0.9917, "step": 6965 }, { "epoch": 1.1715200000000001, "grad_norm": 0.02333255919147213, "learning_rate": 0.0001, "loss": 0.9787, "step": 6966 }, { "epoch": 1.1715733333333334, "grad_norm": 0.024161030222332392, "learning_rate": 0.0001, "loss": 0.9401, "step": 6967 }, { "epoch": 1.1716266666666666, "grad_norm": 0.02523105485995585, "learning_rate": 0.0001, "loss": 1.0056, "step": 6968 }, { "epoch": 1.17168, "grad_norm": 0.023930307105385712, "learning_rate": 0.0001, "loss": 0.9543, "step": 6969 }, { "epoch": 1.1717333333333333, "grad_norm": 0.024288548384147592, "learning_rate": 0.0001, "loss": 1.0142, "step": 6970 }, { "epoch": 1.1717866666666668, "grad_norm": 0.02538583299123739, "learning_rate": 0.0001, "loss": 1.0169, "step": 6971 }, { "epoch": 1.17184, "grad_norm": 0.024730353603862328, "learning_rate": 0.0001, "loss": 1.0213, "step": 6972 }, { "epoch": 1.1718933333333332, "grad_norm": 0.02652453493797288, "learning_rate": 0.0001, "loss": 0.9556, "step": 6973 }, { "epoch": 1.1719466666666667, "grad_norm": 0.026706289322040517, "learning_rate": 0.0001, "loss": 0.9691, "step": 6974 }, { "epoch": 1.172, "grad_norm": 0.024870089465150364, "learning_rate": 0.0001, "loss": 0.967, "step": 6975 }, { "epoch": 1.1720533333333334, "grad_norm": 0.0235378277320955, "learning_rate": 0.0001, "loss": 0.9706, "step": 6976 }, { "epoch": 1.1721066666666666, "grad_norm": 0.024987070707046907, "learning_rate": 0.0001, "loss": 1.0294, "step": 6977 }, { "epoch": 1.17216, "grad_norm": 0.024049211517626956, "learning_rate": 0.0001, "loss": 0.9711, "step": 6978 }, { "epoch": 1.1722133333333333, "grad_norm": 0.024182675617960617, "learning_rate": 0.0001, "loss": 0.9236, "step": 6979 }, { "epoch": 1.1722666666666668, "grad_norm": 0.025761365941700205, "learning_rate": 0.0001, "loss": 0.9919, "step": 6980 }, { "epoch": 1.17232, "grad_norm": 0.022905623612322262, "learning_rate": 0.0001, "loss": 0.8928, "step": 6981 }, { "epoch": 1.1723733333333333, "grad_norm": 0.023216065179511452, "learning_rate": 0.0001, "loss": 0.9187, "step": 6982 }, { "epoch": 1.1724266666666667, "grad_norm": 0.024530209714282193, "learning_rate": 0.0001, "loss": 0.9695, "step": 6983 }, { "epoch": 1.17248, "grad_norm": 0.026156553312374146, "learning_rate": 0.0001, "loss": 0.9407, "step": 6984 }, { "epoch": 1.1725333333333334, "grad_norm": 0.024843308833507695, "learning_rate": 0.0001, "loss": 0.9808, "step": 6985 }, { "epoch": 1.1725866666666667, "grad_norm": 0.023989442552823592, "learning_rate": 0.0001, "loss": 0.9723, "step": 6986 }, { "epoch": 1.17264, "grad_norm": 0.025059561667842258, "learning_rate": 0.0001, "loss": 0.9529, "step": 6987 }, { "epoch": 1.1726933333333334, "grad_norm": 0.025810191638630166, "learning_rate": 0.0001, "loss": 0.953, "step": 6988 }, { "epoch": 1.1727466666666666, "grad_norm": 0.024121175548255304, "learning_rate": 0.0001, "loss": 0.8872, "step": 6989 }, { "epoch": 1.1728, "grad_norm": 0.025711370194559817, "learning_rate": 0.0001, "loss": 0.9508, "step": 6990 }, { "epoch": 1.1728533333333333, "grad_norm": 0.025422542773447836, "learning_rate": 0.0001, "loss": 0.9101, "step": 6991 }, { "epoch": 1.1729066666666665, "grad_norm": 0.025492050222549995, "learning_rate": 0.0001, "loss": 0.9629, "step": 6992 }, { "epoch": 1.17296, "grad_norm": 0.023515717169399247, "learning_rate": 0.0001, "loss": 0.9642, "step": 6993 }, { "epoch": 1.1730133333333332, "grad_norm": 0.02497357582126835, "learning_rate": 0.0001, "loss": 0.9544, "step": 6994 }, { "epoch": 1.1730666666666667, "grad_norm": 0.025338519520666746, "learning_rate": 0.0001, "loss": 0.9393, "step": 6995 }, { "epoch": 1.17312, "grad_norm": 0.02569439225513597, "learning_rate": 0.0001, "loss": 1.0029, "step": 6996 }, { "epoch": 1.1731733333333334, "grad_norm": 0.02297163626959044, "learning_rate": 0.0001, "loss": 0.9771, "step": 6997 }, { "epoch": 1.1732266666666666, "grad_norm": 0.023097914427197715, "learning_rate": 0.0001, "loss": 0.9201, "step": 6998 }, { "epoch": 1.17328, "grad_norm": 0.02363924479094071, "learning_rate": 0.0001, "loss": 1.0321, "step": 6999 }, { "epoch": 1.1733333333333333, "grad_norm": 0.02298821819737453, "learning_rate": 0.0001, "loss": 0.9835, "step": 7000 }, { "epoch": 1.1733333333333333, "eval_accuracy": 0.6191704929843379, "eval_loss": 1.3596595525741577, "eval_runtime": 63.6252, "eval_samples_per_second": 15.717, "eval_steps_per_second": 0.503, "step": 7000 }, { "epoch": 1.1733866666666666, "grad_norm": 0.02667502440624875, "learning_rate": 0.0001, "loss": 1.0281, "step": 7001 }, { "epoch": 1.17344, "grad_norm": 0.024418164012195695, "learning_rate": 0.0001, "loss": 0.9967, "step": 7002 }, { "epoch": 1.1734933333333333, "grad_norm": 0.023625736382502004, "learning_rate": 0.0001, "loss": 1.043, "step": 7003 }, { "epoch": 1.1735466666666667, "grad_norm": 0.02429074094690126, "learning_rate": 0.0001, "loss": 0.9403, "step": 7004 }, { "epoch": 1.1736, "grad_norm": 0.025065734735981372, "learning_rate": 0.0001, "loss": 0.8994, "step": 7005 }, { "epoch": 1.1736533333333332, "grad_norm": 0.02365005502432619, "learning_rate": 0.0001, "loss": 0.961, "step": 7006 }, { "epoch": 1.1737066666666667, "grad_norm": 0.025753522162193922, "learning_rate": 0.0001, "loss": 0.9573, "step": 7007 }, { "epoch": 1.17376, "grad_norm": 0.023503285946185944, "learning_rate": 0.0001, "loss": 0.9492, "step": 7008 }, { "epoch": 1.1738133333333334, "grad_norm": 0.025038874685428567, "learning_rate": 0.0001, "loss": 0.9953, "step": 7009 }, { "epoch": 1.1738666666666666, "grad_norm": 0.022983995335784962, "learning_rate": 0.0001, "loss": 0.9886, "step": 7010 }, { "epoch": 1.17392, "grad_norm": 0.022950361202798458, "learning_rate": 0.0001, "loss": 0.9101, "step": 7011 }, { "epoch": 1.1739733333333333, "grad_norm": 0.024514134640961114, "learning_rate": 0.0001, "loss": 0.9774, "step": 7012 }, { "epoch": 1.1740266666666668, "grad_norm": 0.022622454317474578, "learning_rate": 0.0001, "loss": 1.0085, "step": 7013 }, { "epoch": 1.17408, "grad_norm": 0.023307011633868207, "learning_rate": 0.0001, "loss": 0.9172, "step": 7014 }, { "epoch": 1.1741333333333333, "grad_norm": 0.023163832628241208, "learning_rate": 0.0001, "loss": 1.012, "step": 7015 }, { "epoch": 1.1741866666666667, "grad_norm": 0.025126484267711573, "learning_rate": 0.0001, "loss": 0.9588, "step": 7016 }, { "epoch": 1.17424, "grad_norm": 0.024230724446285632, "learning_rate": 0.0001, "loss": 1.0122, "step": 7017 }, { "epoch": 1.1742933333333334, "grad_norm": 0.023287546673252744, "learning_rate": 0.0001, "loss": 0.9527, "step": 7018 }, { "epoch": 1.1743466666666666, "grad_norm": 0.025241235371018876, "learning_rate": 0.0001, "loss": 0.9529, "step": 7019 }, { "epoch": 1.1743999999999999, "grad_norm": 0.026014971518258108, "learning_rate": 0.0001, "loss": 1.0066, "step": 7020 }, { "epoch": 1.1744533333333333, "grad_norm": 0.023417539232913308, "learning_rate": 0.0001, "loss": 0.9642, "step": 7021 }, { "epoch": 1.1745066666666666, "grad_norm": 0.025445005779137688, "learning_rate": 0.0001, "loss": 1.0397, "step": 7022 }, { "epoch": 1.17456, "grad_norm": 0.02351995989663083, "learning_rate": 0.0001, "loss": 0.9365, "step": 7023 }, { "epoch": 1.1746133333333333, "grad_norm": 0.023543330108385784, "learning_rate": 0.0001, "loss": 0.9844, "step": 7024 }, { "epoch": 1.1746666666666667, "grad_norm": 0.023771694626863245, "learning_rate": 0.0001, "loss": 0.9829, "step": 7025 }, { "epoch": 1.17472, "grad_norm": 0.02551981461676124, "learning_rate": 0.0001, "loss": 0.9756, "step": 7026 }, { "epoch": 1.1747733333333334, "grad_norm": 0.02336971266607128, "learning_rate": 0.0001, "loss": 0.9701, "step": 7027 }, { "epoch": 1.1748266666666667, "grad_norm": 0.023946469862739003, "learning_rate": 0.0001, "loss": 0.9659, "step": 7028 }, { "epoch": 1.17488, "grad_norm": 0.024101607353182265, "learning_rate": 0.0001, "loss": 0.954, "step": 7029 }, { "epoch": 1.1749333333333334, "grad_norm": 0.022652146440137157, "learning_rate": 0.0001, "loss": 1.0101, "step": 7030 }, { "epoch": 1.1749866666666666, "grad_norm": 0.024290023893507283, "learning_rate": 0.0001, "loss": 1.0166, "step": 7031 }, { "epoch": 1.17504, "grad_norm": 0.024218984962262883, "learning_rate": 0.0001, "loss": 1.039, "step": 7032 }, { "epoch": 1.1750933333333333, "grad_norm": 0.023520081879556284, "learning_rate": 0.0001, "loss": 1.0065, "step": 7033 }, { "epoch": 1.1751466666666666, "grad_norm": 0.022888075690015983, "learning_rate": 0.0001, "loss": 1.012, "step": 7034 }, { "epoch": 1.1752, "grad_norm": 0.025818591204743883, "learning_rate": 0.0001, "loss": 0.9923, "step": 7035 }, { "epoch": 1.1752533333333333, "grad_norm": 0.023995650349216774, "learning_rate": 0.0001, "loss": 0.9688, "step": 7036 }, { "epoch": 1.1753066666666667, "grad_norm": 0.024050776290608585, "learning_rate": 0.0001, "loss": 0.9757, "step": 7037 }, { "epoch": 1.17536, "grad_norm": 0.025089706146696384, "learning_rate": 0.0001, "loss": 1.0067, "step": 7038 }, { "epoch": 1.1754133333333334, "grad_norm": 0.02491243018034038, "learning_rate": 0.0001, "loss": 0.9629, "step": 7039 }, { "epoch": 1.1754666666666667, "grad_norm": 0.031248511919378077, "learning_rate": 0.0001, "loss": 0.958, "step": 7040 }, { "epoch": 1.1755200000000001, "grad_norm": 0.023759556748708804, "learning_rate": 0.0001, "loss": 0.9612, "step": 7041 }, { "epoch": 1.1755733333333334, "grad_norm": 0.02533332722720153, "learning_rate": 0.0001, "loss": 0.9881, "step": 7042 }, { "epoch": 1.1756266666666666, "grad_norm": 0.025543998908305898, "learning_rate": 0.0001, "loss": 0.9882, "step": 7043 }, { "epoch": 1.17568, "grad_norm": 0.027199031154858715, "learning_rate": 0.0001, "loss": 0.9224, "step": 7044 }, { "epoch": 1.1757333333333333, "grad_norm": 0.023662855413393618, "learning_rate": 0.0001, "loss": 1.0233, "step": 7045 }, { "epoch": 1.1757866666666668, "grad_norm": 0.025471629993117327, "learning_rate": 0.0001, "loss": 0.9575, "step": 7046 }, { "epoch": 1.17584, "grad_norm": 0.024160316547820096, "learning_rate": 0.0001, "loss": 0.9557, "step": 7047 }, { "epoch": 1.1758933333333332, "grad_norm": 0.02355660260906995, "learning_rate": 0.0001, "loss": 0.9691, "step": 7048 }, { "epoch": 1.1759466666666667, "grad_norm": 0.02444471080976791, "learning_rate": 0.0001, "loss": 0.9813, "step": 7049 }, { "epoch": 1.176, "grad_norm": 0.024487065948363685, "learning_rate": 0.0001, "loss": 0.9234, "step": 7050 }, { "epoch": 1.1760533333333334, "grad_norm": 0.02131299612838919, "learning_rate": 0.0001, "loss": 0.9621, "step": 7051 }, { "epoch": 1.1761066666666666, "grad_norm": 0.02471116972897347, "learning_rate": 0.0001, "loss": 0.9751, "step": 7052 }, { "epoch": 1.17616, "grad_norm": 0.02475530305942166, "learning_rate": 0.0001, "loss": 0.9147, "step": 7053 }, { "epoch": 1.1762133333333333, "grad_norm": 0.02474976481498379, "learning_rate": 0.0001, "loss": 0.9555, "step": 7054 }, { "epoch": 1.1762666666666666, "grad_norm": 0.02516139608752597, "learning_rate": 0.0001, "loss": 0.9522, "step": 7055 }, { "epoch": 1.17632, "grad_norm": 0.025195399665170922, "learning_rate": 0.0001, "loss": 0.9522, "step": 7056 }, { "epoch": 1.1763733333333333, "grad_norm": 0.027650953530258794, "learning_rate": 0.0001, "loss": 0.9825, "step": 7057 }, { "epoch": 1.1764266666666667, "grad_norm": 0.022951753981031938, "learning_rate": 0.0001, "loss": 0.9864, "step": 7058 }, { "epoch": 1.17648, "grad_norm": 0.022554928933921678, "learning_rate": 0.0001, "loss": 0.9535, "step": 7059 }, { "epoch": 1.1765333333333334, "grad_norm": 0.02418030666353971, "learning_rate": 0.0001, "loss": 0.9858, "step": 7060 }, { "epoch": 1.1765866666666667, "grad_norm": 0.022107478129663127, "learning_rate": 0.0001, "loss": 0.9682, "step": 7061 }, { "epoch": 1.17664, "grad_norm": 0.022858225190389516, "learning_rate": 0.0001, "loss": 0.9504, "step": 7062 }, { "epoch": 1.1766933333333334, "grad_norm": 0.022800395873512215, "learning_rate": 0.0001, "loss": 0.9656, "step": 7063 }, { "epoch": 1.1767466666666666, "grad_norm": 0.02469216409708643, "learning_rate": 0.0001, "loss": 1.0082, "step": 7064 }, { "epoch": 1.1768, "grad_norm": 0.023932585311814632, "learning_rate": 0.0001, "loss": 1.023, "step": 7065 }, { "epoch": 1.1768533333333333, "grad_norm": 0.024113585490265054, "learning_rate": 0.0001, "loss": 0.9682, "step": 7066 }, { "epoch": 1.1769066666666665, "grad_norm": 0.024336355395716804, "learning_rate": 0.0001, "loss": 0.9409, "step": 7067 }, { "epoch": 1.17696, "grad_norm": 0.024242534903949307, "learning_rate": 0.0001, "loss": 1.021, "step": 7068 }, { "epoch": 1.1770133333333332, "grad_norm": 0.025121429449966988, "learning_rate": 0.0001, "loss": 0.9932, "step": 7069 }, { "epoch": 1.1770666666666667, "grad_norm": 0.02509633027312255, "learning_rate": 0.0001, "loss": 1.0047, "step": 7070 }, { "epoch": 1.17712, "grad_norm": 0.029457371428656648, "learning_rate": 0.0001, "loss": 0.9708, "step": 7071 }, { "epoch": 1.1771733333333334, "grad_norm": 0.02480911683329764, "learning_rate": 0.0001, "loss": 1.0253, "step": 7072 }, { "epoch": 1.1772266666666666, "grad_norm": 0.025255828260090516, "learning_rate": 0.0001, "loss": 0.9821, "step": 7073 }, { "epoch": 1.17728, "grad_norm": 0.023873606801247203, "learning_rate": 0.0001, "loss": 0.9706, "step": 7074 }, { "epoch": 1.1773333333333333, "grad_norm": 0.026383015616662748, "learning_rate": 0.0001, "loss": 0.9492, "step": 7075 }, { "epoch": 1.1773866666666666, "grad_norm": 0.027267340740913908, "learning_rate": 0.0001, "loss": 0.9274, "step": 7076 }, { "epoch": 1.17744, "grad_norm": 0.025381599941619013, "learning_rate": 0.0001, "loss": 0.9219, "step": 7077 }, { "epoch": 1.1774933333333333, "grad_norm": 0.0237847451258361, "learning_rate": 0.0001, "loss": 0.9603, "step": 7078 }, { "epoch": 1.1775466666666667, "grad_norm": 0.02480677156609177, "learning_rate": 0.0001, "loss": 0.978, "step": 7079 }, { "epoch": 1.1776, "grad_norm": 0.024973570287600208, "learning_rate": 0.0001, "loss": 0.9723, "step": 7080 }, { "epoch": 1.1776533333333332, "grad_norm": 0.025364952485788666, "learning_rate": 0.0001, "loss": 1.0086, "step": 7081 }, { "epoch": 1.1777066666666667, "grad_norm": 0.025745289652924785, "learning_rate": 0.0001, "loss": 0.994, "step": 7082 }, { "epoch": 1.17776, "grad_norm": 0.023603711306276788, "learning_rate": 0.0001, "loss": 0.9479, "step": 7083 }, { "epoch": 1.1778133333333334, "grad_norm": 0.0271230754140236, "learning_rate": 0.0001, "loss": 1.0314, "step": 7084 }, { "epoch": 1.1778666666666666, "grad_norm": 0.02346104727763027, "learning_rate": 0.0001, "loss": 0.9425, "step": 7085 }, { "epoch": 1.17792, "grad_norm": 0.023847674074655777, "learning_rate": 0.0001, "loss": 0.9458, "step": 7086 }, { "epoch": 1.1779733333333333, "grad_norm": 0.025183848293668272, "learning_rate": 0.0001, "loss": 0.9646, "step": 7087 }, { "epoch": 1.1780266666666668, "grad_norm": 0.024792041639925863, "learning_rate": 0.0001, "loss": 0.9399, "step": 7088 }, { "epoch": 1.17808, "grad_norm": 0.026916552961202152, "learning_rate": 0.0001, "loss": 0.9342, "step": 7089 }, { "epoch": 1.1781333333333333, "grad_norm": 0.025462541304654612, "learning_rate": 0.0001, "loss": 0.9633, "step": 7090 }, { "epoch": 1.1781866666666667, "grad_norm": 0.024589468766284872, "learning_rate": 0.0001, "loss": 0.9485, "step": 7091 }, { "epoch": 1.17824, "grad_norm": 0.02548489324680942, "learning_rate": 0.0001, "loss": 0.9601, "step": 7092 }, { "epoch": 1.1782933333333334, "grad_norm": 0.025868970639121334, "learning_rate": 0.0001, "loss": 0.9971, "step": 7093 }, { "epoch": 1.1783466666666667, "grad_norm": 0.025776245392355596, "learning_rate": 0.0001, "loss": 0.9655, "step": 7094 }, { "epoch": 1.1784, "grad_norm": 0.023103584507833803, "learning_rate": 0.0001, "loss": 0.9195, "step": 7095 }, { "epoch": 1.1784533333333334, "grad_norm": 0.023955616972966838, "learning_rate": 0.0001, "loss": 0.9399, "step": 7096 }, { "epoch": 1.1785066666666666, "grad_norm": 0.02472422030536202, "learning_rate": 0.0001, "loss": 0.9189, "step": 7097 }, { "epoch": 1.17856, "grad_norm": 0.025048452824795175, "learning_rate": 0.0001, "loss": 0.9421, "step": 7098 }, { "epoch": 1.1786133333333333, "grad_norm": 0.02443122581651039, "learning_rate": 0.0001, "loss": 0.9691, "step": 7099 }, { "epoch": 1.1786666666666668, "grad_norm": 0.024912536861265308, "learning_rate": 0.0001, "loss": 1.0194, "step": 7100 }, { "epoch": 1.17872, "grad_norm": 0.026364933300361854, "learning_rate": 0.0001, "loss": 0.9634, "step": 7101 }, { "epoch": 1.1787733333333335, "grad_norm": 0.026752467754642906, "learning_rate": 0.0001, "loss": 0.971, "step": 7102 }, { "epoch": 1.1788266666666667, "grad_norm": 0.02364739615160194, "learning_rate": 0.0001, "loss": 0.9603, "step": 7103 }, { "epoch": 1.17888, "grad_norm": 0.023521955050454776, "learning_rate": 0.0001, "loss": 0.9668, "step": 7104 }, { "epoch": 1.1789333333333334, "grad_norm": 0.023786048014684008, "learning_rate": 0.0001, "loss": 0.9591, "step": 7105 }, { "epoch": 1.1789866666666666, "grad_norm": 0.023922610192238052, "learning_rate": 0.0001, "loss": 0.985, "step": 7106 }, { "epoch": 1.17904, "grad_norm": 0.02433493418607752, "learning_rate": 0.0001, "loss": 0.9798, "step": 7107 }, { "epoch": 1.1790933333333333, "grad_norm": 0.023814416542593118, "learning_rate": 0.0001, "loss": 0.9934, "step": 7108 }, { "epoch": 1.1791466666666666, "grad_norm": 0.02308312647819943, "learning_rate": 0.0001, "loss": 0.934, "step": 7109 }, { "epoch": 1.1792, "grad_norm": 0.024929679413760283, "learning_rate": 0.0001, "loss": 0.9986, "step": 7110 }, { "epoch": 1.1792533333333333, "grad_norm": 0.02429827154728894, "learning_rate": 0.0001, "loss": 0.9201, "step": 7111 }, { "epoch": 1.1793066666666667, "grad_norm": 0.024734115513789186, "learning_rate": 0.0001, "loss": 1.0144, "step": 7112 }, { "epoch": 1.17936, "grad_norm": 0.024277375248288095, "learning_rate": 0.0001, "loss": 0.9583, "step": 7113 }, { "epoch": 1.1794133333333334, "grad_norm": 0.023793283975614078, "learning_rate": 0.0001, "loss": 0.9658, "step": 7114 }, { "epoch": 1.1794666666666667, "grad_norm": 0.023754388994049594, "learning_rate": 0.0001, "loss": 0.9758, "step": 7115 }, { "epoch": 1.1795200000000001, "grad_norm": 0.024989474711045456, "learning_rate": 0.0001, "loss": 0.9986, "step": 7116 }, { "epoch": 1.1795733333333334, "grad_norm": 0.024131252297813273, "learning_rate": 0.0001, "loss": 1.0375, "step": 7117 }, { "epoch": 1.1796266666666666, "grad_norm": 0.026265013319867154, "learning_rate": 0.0001, "loss": 0.976, "step": 7118 }, { "epoch": 1.17968, "grad_norm": 0.024680324878551433, "learning_rate": 0.0001, "loss": 0.9119, "step": 7119 }, { "epoch": 1.1797333333333333, "grad_norm": 0.023539857265058774, "learning_rate": 0.0001, "loss": 0.9655, "step": 7120 }, { "epoch": 1.1797866666666668, "grad_norm": 0.024841862054223254, "learning_rate": 0.0001, "loss": 0.9837, "step": 7121 }, { "epoch": 1.17984, "grad_norm": 0.024497427111670106, "learning_rate": 0.0001, "loss": 0.9597, "step": 7122 }, { "epoch": 1.1798933333333332, "grad_norm": 0.02267933317222244, "learning_rate": 0.0001, "loss": 0.9345, "step": 7123 }, { "epoch": 1.1799466666666667, "grad_norm": 0.023448210891188346, "learning_rate": 0.0001, "loss": 0.9617, "step": 7124 }, { "epoch": 1.18, "grad_norm": 0.025523848846134664, "learning_rate": 0.0001, "loss": 1.0265, "step": 7125 }, { "epoch": 1.1800533333333334, "grad_norm": 0.02257814913109568, "learning_rate": 0.0001, "loss": 1.0145, "step": 7126 }, { "epoch": 1.1801066666666666, "grad_norm": 0.024374476857989522, "learning_rate": 0.0001, "loss": 0.9619, "step": 7127 }, { "epoch": 1.1801599999999999, "grad_norm": 0.024269729193991233, "learning_rate": 0.0001, "loss": 0.9184, "step": 7128 }, { "epoch": 1.1802133333333333, "grad_norm": 0.02235426548560408, "learning_rate": 0.0001, "loss": 0.9648, "step": 7129 }, { "epoch": 1.1802666666666666, "grad_norm": 0.023223789583720376, "learning_rate": 0.0001, "loss": 0.9257, "step": 7130 }, { "epoch": 1.18032, "grad_norm": 0.025443823403578, "learning_rate": 0.0001, "loss": 0.9561, "step": 7131 }, { "epoch": 1.1803733333333333, "grad_norm": 0.025045093235108278, "learning_rate": 0.0001, "loss": 0.9924, "step": 7132 }, { "epoch": 1.1804266666666667, "grad_norm": 0.023562556941936114, "learning_rate": 0.0001, "loss": 1.0006, "step": 7133 }, { "epoch": 1.18048, "grad_norm": 0.0235384675374789, "learning_rate": 0.0001, "loss": 0.9821, "step": 7134 }, { "epoch": 1.1805333333333334, "grad_norm": 0.025494153671183347, "learning_rate": 0.0001, "loss": 0.9757, "step": 7135 }, { "epoch": 1.1805866666666667, "grad_norm": 0.024189269245011216, "learning_rate": 0.0001, "loss": 0.9359, "step": 7136 }, { "epoch": 1.18064, "grad_norm": 0.02232239857894109, "learning_rate": 0.0001, "loss": 0.983, "step": 7137 }, { "epoch": 1.1806933333333334, "grad_norm": 0.02548961372562877, "learning_rate": 0.0001, "loss": 0.8809, "step": 7138 }, { "epoch": 1.1807466666666666, "grad_norm": 0.02315384088050249, "learning_rate": 0.0001, "loss": 0.9804, "step": 7139 }, { "epoch": 1.1808, "grad_norm": 0.024056976154347744, "learning_rate": 0.0001, "loss": 1.0025, "step": 7140 }, { "epoch": 1.1808533333333333, "grad_norm": 0.02264280967299478, "learning_rate": 0.0001, "loss": 0.9491, "step": 7141 }, { "epoch": 1.1809066666666665, "grad_norm": 0.02463976586916632, "learning_rate": 0.0001, "loss": 0.9956, "step": 7142 }, { "epoch": 1.18096, "grad_norm": 0.02182445858742789, "learning_rate": 0.0001, "loss": 1.0276, "step": 7143 }, { "epoch": 1.1810133333333332, "grad_norm": 0.024352927255960045, "learning_rate": 0.0001, "loss": 0.9849, "step": 7144 }, { "epoch": 1.1810666666666667, "grad_norm": 0.025228808267001076, "learning_rate": 0.0001, "loss": 0.9461, "step": 7145 }, { "epoch": 1.18112, "grad_norm": 0.023125582339206266, "learning_rate": 0.0001, "loss": 0.922, "step": 7146 }, { "epoch": 1.1811733333333334, "grad_norm": 0.023385489274879302, "learning_rate": 0.0001, "loss": 1.0178, "step": 7147 }, { "epoch": 1.1812266666666666, "grad_norm": 0.02497139634601958, "learning_rate": 0.0001, "loss": 0.9745, "step": 7148 }, { "epoch": 1.18128, "grad_norm": 0.024146412510879154, "learning_rate": 0.0001, "loss": 0.9937, "step": 7149 }, { "epoch": 1.1813333333333333, "grad_norm": 0.025438796559784347, "learning_rate": 0.0001, "loss": 0.9565, "step": 7150 }, { "epoch": 1.1813866666666666, "grad_norm": 0.022703589983844467, "learning_rate": 0.0001, "loss": 0.927, "step": 7151 }, { "epoch": 1.18144, "grad_norm": 0.023784404367671905, "learning_rate": 0.0001, "loss": 0.9569, "step": 7152 }, { "epoch": 1.1814933333333333, "grad_norm": 0.02552037520064926, "learning_rate": 0.0001, "loss": 1.0372, "step": 7153 }, { "epoch": 1.1815466666666667, "grad_norm": 0.023882394832724686, "learning_rate": 0.0001, "loss": 1.0225, "step": 7154 }, { "epoch": 1.1816, "grad_norm": 0.02436597341212055, "learning_rate": 0.0001, "loss": 0.9742, "step": 7155 }, { "epoch": 1.1816533333333332, "grad_norm": 0.023779024358138192, "learning_rate": 0.0001, "loss": 0.958, "step": 7156 }, { "epoch": 1.1817066666666667, "grad_norm": 0.023973163474463356, "learning_rate": 0.0001, "loss": 0.9871, "step": 7157 }, { "epoch": 1.18176, "grad_norm": 0.025121431599586113, "learning_rate": 0.0001, "loss": 0.9047, "step": 7158 }, { "epoch": 1.1818133333333334, "grad_norm": 0.024158372389672455, "learning_rate": 0.0001, "loss": 0.9801, "step": 7159 }, { "epoch": 1.1818666666666666, "grad_norm": 0.023932361606617644, "learning_rate": 0.0001, "loss": 1.0004, "step": 7160 }, { "epoch": 1.18192, "grad_norm": 0.023845386657451284, "learning_rate": 0.0001, "loss": 0.9046, "step": 7161 }, { "epoch": 1.1819733333333333, "grad_norm": 0.023153839626069185, "learning_rate": 0.0001, "loss": 0.9877, "step": 7162 }, { "epoch": 1.1820266666666668, "grad_norm": 0.02417154716062577, "learning_rate": 0.0001, "loss": 0.9801, "step": 7163 }, { "epoch": 1.18208, "grad_norm": 0.024628453068397494, "learning_rate": 0.0001, "loss": 0.9971, "step": 7164 }, { "epoch": 1.1821333333333333, "grad_norm": 0.0246900066288912, "learning_rate": 0.0001, "loss": 1.0331, "step": 7165 }, { "epoch": 1.1821866666666667, "grad_norm": 0.025998829695068087, "learning_rate": 0.0001, "loss": 1.0026, "step": 7166 }, { "epoch": 1.18224, "grad_norm": 0.026313139106830325, "learning_rate": 0.0001, "loss": 0.9448, "step": 7167 }, { "epoch": 1.1822933333333334, "grad_norm": 0.02509915482734428, "learning_rate": 0.0001, "loss": 0.9655, "step": 7168 }, { "epoch": 1.1823466666666667, "grad_norm": 0.025267311863319708, "learning_rate": 0.0001, "loss": 0.9984, "step": 7169 }, { "epoch": 1.1824, "grad_norm": 0.024267569129890372, "learning_rate": 0.0001, "loss": 0.9687, "step": 7170 }, { "epoch": 1.1824533333333334, "grad_norm": 0.024896342571798326, "learning_rate": 0.0001, "loss": 0.9791, "step": 7171 }, { "epoch": 1.1825066666666666, "grad_norm": 0.027135605296081156, "learning_rate": 0.0001, "loss": 0.9979, "step": 7172 }, { "epoch": 1.18256, "grad_norm": 0.02306156421541893, "learning_rate": 0.0001, "loss": 0.9622, "step": 7173 }, { "epoch": 1.1826133333333333, "grad_norm": 0.027464219429051098, "learning_rate": 0.0001, "loss": 0.9762, "step": 7174 }, { "epoch": 1.1826666666666668, "grad_norm": 0.02372664106663394, "learning_rate": 0.0001, "loss": 0.9798, "step": 7175 }, { "epoch": 1.18272, "grad_norm": 0.024673695617365682, "learning_rate": 0.0001, "loss": 0.8774, "step": 7176 }, { "epoch": 1.1827733333333335, "grad_norm": 0.023496721154339262, "learning_rate": 0.0001, "loss": 0.9711, "step": 7177 }, { "epoch": 1.1828266666666667, "grad_norm": 0.024187180291448507, "learning_rate": 0.0001, "loss": 0.9899, "step": 7178 }, { "epoch": 1.18288, "grad_norm": 0.02451912780717266, "learning_rate": 0.0001, "loss": 0.9827, "step": 7179 }, { "epoch": 1.1829333333333334, "grad_norm": 0.025438108870257548, "learning_rate": 0.0001, "loss": 0.9414, "step": 7180 }, { "epoch": 1.1829866666666666, "grad_norm": 0.023130904469363216, "learning_rate": 0.0001, "loss": 1.0187, "step": 7181 }, { "epoch": 1.18304, "grad_norm": 0.022538599934898516, "learning_rate": 0.0001, "loss": 0.9154, "step": 7182 }, { "epoch": 1.1830933333333333, "grad_norm": 0.024237269983873426, "learning_rate": 0.0001, "loss": 0.9581, "step": 7183 }, { "epoch": 1.1831466666666666, "grad_norm": 0.023147004455048126, "learning_rate": 0.0001, "loss": 0.9995, "step": 7184 }, { "epoch": 1.1832, "grad_norm": 0.021997541991087385, "learning_rate": 0.0001, "loss": 1.0048, "step": 7185 }, { "epoch": 1.1832533333333333, "grad_norm": 0.024547165177057285, "learning_rate": 0.0001, "loss": 1.0099, "step": 7186 }, { "epoch": 1.1833066666666667, "grad_norm": 0.02646023612022894, "learning_rate": 0.0001, "loss": 0.9249, "step": 7187 }, { "epoch": 1.18336, "grad_norm": 0.02451622875360858, "learning_rate": 0.0001, "loss": 0.9963, "step": 7188 }, { "epoch": 1.1834133333333334, "grad_norm": 0.024741032673860523, "learning_rate": 0.0001, "loss": 1.0219, "step": 7189 }, { "epoch": 1.1834666666666667, "grad_norm": 0.021821057634512305, "learning_rate": 0.0001, "loss": 0.9003, "step": 7190 }, { "epoch": 1.18352, "grad_norm": 0.023589788976381025, "learning_rate": 0.0001, "loss": 0.9633, "step": 7191 }, { "epoch": 1.1835733333333334, "grad_norm": 0.024767372149936174, "learning_rate": 0.0001, "loss": 0.96, "step": 7192 }, { "epoch": 1.1836266666666666, "grad_norm": 0.023481291874176222, "learning_rate": 0.0001, "loss": 0.9328, "step": 7193 }, { "epoch": 1.18368, "grad_norm": 0.022532654975791943, "learning_rate": 0.0001, "loss": 0.9939, "step": 7194 }, { "epoch": 1.1837333333333333, "grad_norm": 0.025316049027721953, "learning_rate": 0.0001, "loss": 0.9596, "step": 7195 }, { "epoch": 1.1837866666666668, "grad_norm": 0.0241564343789041, "learning_rate": 0.0001, "loss": 0.9448, "step": 7196 }, { "epoch": 1.18384, "grad_norm": 0.023526208170583863, "learning_rate": 0.0001, "loss": 0.9973, "step": 7197 }, { "epoch": 1.1838933333333332, "grad_norm": 0.026734495524658175, "learning_rate": 0.0001, "loss": 0.9859, "step": 7198 }, { "epoch": 1.1839466666666667, "grad_norm": 0.022016571864867565, "learning_rate": 0.0001, "loss": 0.9346, "step": 7199 }, { "epoch": 1.184, "grad_norm": 0.025431467434965604, "learning_rate": 0.0001, "loss": 0.9667, "step": 7200 }, { "epoch": 1.184, "eval_accuracy": 0.6193622886938921, "eval_loss": 1.3588013648986816, "eval_runtime": 62.4198, "eval_samples_per_second": 16.021, "eval_steps_per_second": 0.513, "step": 7200 }, { "epoch": 1.1840533333333334, "grad_norm": 0.022779441816370517, "learning_rate": 0.0001, "loss": 0.937, "step": 7201 }, { "epoch": 1.1841066666666666, "grad_norm": 0.02286634694342676, "learning_rate": 0.0001, "loss": 0.9219, "step": 7202 }, { "epoch": 1.1841599999999999, "grad_norm": 0.023171542544397895, "learning_rate": 0.0001, "loss": 0.9392, "step": 7203 }, { "epoch": 1.1842133333333333, "grad_norm": 0.022953654219945493, "learning_rate": 0.0001, "loss": 0.9796, "step": 7204 }, { "epoch": 1.1842666666666666, "grad_norm": 0.02319044409652968, "learning_rate": 0.0001, "loss": 0.8867, "step": 7205 }, { "epoch": 1.18432, "grad_norm": 0.02285415273915913, "learning_rate": 0.0001, "loss": 0.9366, "step": 7206 }, { "epoch": 1.1843733333333333, "grad_norm": 0.022998966704796626, "learning_rate": 0.0001, "loss": 0.974, "step": 7207 }, { "epoch": 1.1844266666666667, "grad_norm": 0.02431204168543591, "learning_rate": 0.0001, "loss": 1.0334, "step": 7208 }, { "epoch": 1.18448, "grad_norm": 0.023924885588803995, "learning_rate": 0.0001, "loss": 0.9952, "step": 7209 }, { "epoch": 1.1845333333333334, "grad_norm": 0.02413748839759489, "learning_rate": 0.0001, "loss": 0.9821, "step": 7210 }, { "epoch": 1.1845866666666667, "grad_norm": 0.024076611436306277, "learning_rate": 0.0001, "loss": 0.9456, "step": 7211 }, { "epoch": 1.18464, "grad_norm": 0.023060440111263524, "learning_rate": 0.0001, "loss": 0.9761, "step": 7212 }, { "epoch": 1.1846933333333334, "grad_norm": 0.024696545323385857, "learning_rate": 0.0001, "loss": 1.0078, "step": 7213 }, { "epoch": 1.1847466666666666, "grad_norm": 0.024707540141603482, "learning_rate": 0.0001, "loss": 1.0182, "step": 7214 }, { "epoch": 1.1848, "grad_norm": 0.02524721596807039, "learning_rate": 0.0001, "loss": 0.929, "step": 7215 }, { "epoch": 1.1848533333333333, "grad_norm": 0.02482819180508248, "learning_rate": 0.0001, "loss": 0.969, "step": 7216 }, { "epoch": 1.1849066666666666, "grad_norm": 0.023986840990697384, "learning_rate": 0.0001, "loss": 0.9636, "step": 7217 }, { "epoch": 1.18496, "grad_norm": 0.023653225501206528, "learning_rate": 0.0001, "loss": 0.9188, "step": 7218 }, { "epoch": 1.1850133333333333, "grad_norm": 0.02361485868346284, "learning_rate": 0.0001, "loss": 1.0014, "step": 7219 }, { "epoch": 1.1850666666666667, "grad_norm": 0.02405972772167845, "learning_rate": 0.0001, "loss": 1.0068, "step": 7220 }, { "epoch": 1.18512, "grad_norm": 0.025237533505105676, "learning_rate": 0.0001, "loss": 0.9899, "step": 7221 }, { "epoch": 1.1851733333333334, "grad_norm": 0.02331656396334161, "learning_rate": 0.0001, "loss": 0.9812, "step": 7222 }, { "epoch": 1.1852266666666667, "grad_norm": 0.02463496050524071, "learning_rate": 0.0001, "loss": 0.9201, "step": 7223 }, { "epoch": 1.1852800000000001, "grad_norm": 0.02346391816164802, "learning_rate": 0.0001, "loss": 1.0036, "step": 7224 }, { "epoch": 1.1853333333333333, "grad_norm": 0.024845987294712324, "learning_rate": 0.0001, "loss": 0.9075, "step": 7225 }, { "epoch": 1.1853866666666666, "grad_norm": 0.024368983417403393, "learning_rate": 0.0001, "loss": 1.0692, "step": 7226 }, { "epoch": 1.18544, "grad_norm": 0.023468143813645325, "learning_rate": 0.0001, "loss": 1.0062, "step": 7227 }, { "epoch": 1.1854933333333333, "grad_norm": 0.023996599103790508, "learning_rate": 0.0001, "loss": 0.957, "step": 7228 }, { "epoch": 1.1855466666666667, "grad_norm": 0.024518401313255948, "learning_rate": 0.0001, "loss": 1.0363, "step": 7229 }, { "epoch": 1.1856, "grad_norm": 0.025316807251904827, "learning_rate": 0.0001, "loss": 1.0237, "step": 7230 }, { "epoch": 1.1856533333333332, "grad_norm": 0.02527550400652234, "learning_rate": 0.0001, "loss": 0.9407, "step": 7231 }, { "epoch": 1.1857066666666667, "grad_norm": 0.023490707906456916, "learning_rate": 0.0001, "loss": 1.0294, "step": 7232 }, { "epoch": 1.18576, "grad_norm": 0.022828287697539994, "learning_rate": 0.0001, "loss": 0.9278, "step": 7233 }, { "epoch": 1.1858133333333334, "grad_norm": 0.02500555239420487, "learning_rate": 0.0001, "loss": 0.9855, "step": 7234 }, { "epoch": 1.1858666666666666, "grad_norm": 0.025038487844966872, "learning_rate": 0.0001, "loss": 0.9583, "step": 7235 }, { "epoch": 1.18592, "grad_norm": 0.024395239070496073, "learning_rate": 0.0001, "loss": 0.9565, "step": 7236 }, { "epoch": 1.1859733333333333, "grad_norm": 0.023228323797986793, "learning_rate": 0.0001, "loss": 0.9542, "step": 7237 }, { "epoch": 1.1860266666666668, "grad_norm": 0.025708563128523165, "learning_rate": 0.0001, "loss": 1.0057, "step": 7238 }, { "epoch": 1.18608, "grad_norm": 0.02384466537103548, "learning_rate": 0.0001, "loss": 0.9718, "step": 7239 }, { "epoch": 1.1861333333333333, "grad_norm": 0.02561311304041513, "learning_rate": 0.0001, "loss": 1.0059, "step": 7240 }, { "epoch": 1.1861866666666667, "grad_norm": 0.02540091639856959, "learning_rate": 0.0001, "loss": 0.9934, "step": 7241 }, { "epoch": 1.18624, "grad_norm": 0.02520104792816321, "learning_rate": 0.0001, "loss": 0.9106, "step": 7242 }, { "epoch": 1.1862933333333334, "grad_norm": 0.024427794478092985, "learning_rate": 0.0001, "loss": 0.9544, "step": 7243 }, { "epoch": 1.1863466666666667, "grad_norm": 0.025256035077992973, "learning_rate": 0.0001, "loss": 0.9916, "step": 7244 }, { "epoch": 1.1864, "grad_norm": 0.0255586352819274, "learning_rate": 0.0001, "loss": 0.9454, "step": 7245 }, { "epoch": 1.1864533333333334, "grad_norm": 0.02402851730230955, "learning_rate": 0.0001, "loss": 0.9922, "step": 7246 }, { "epoch": 1.1865066666666666, "grad_norm": 0.023265249288521223, "learning_rate": 0.0001, "loss": 0.9599, "step": 7247 }, { "epoch": 1.18656, "grad_norm": 0.023358282066726688, "learning_rate": 0.0001, "loss": 0.9746, "step": 7248 }, { "epoch": 1.1866133333333333, "grad_norm": 0.02347538440897358, "learning_rate": 0.0001, "loss": 0.943, "step": 7249 }, { "epoch": 1.1866666666666668, "grad_norm": 0.022890926176042613, "learning_rate": 0.0001, "loss": 0.9921, "step": 7250 }, { "epoch": 1.18672, "grad_norm": 0.023676769486721295, "learning_rate": 0.0001, "loss": 0.9173, "step": 7251 }, { "epoch": 1.1867733333333335, "grad_norm": 0.023764481047069838, "learning_rate": 0.0001, "loss": 0.9396, "step": 7252 }, { "epoch": 1.1868266666666667, "grad_norm": 0.023776013097480037, "learning_rate": 0.0001, "loss": 0.9432, "step": 7253 }, { "epoch": 1.18688, "grad_norm": 0.024953533909598462, "learning_rate": 0.0001, "loss": 0.9688, "step": 7254 }, { "epoch": 1.1869333333333334, "grad_norm": 0.022966099733034307, "learning_rate": 0.0001, "loss": 0.9719, "step": 7255 }, { "epoch": 1.1869866666666666, "grad_norm": 0.027917217566379212, "learning_rate": 0.0001, "loss": 0.9836, "step": 7256 }, { "epoch": 1.18704, "grad_norm": 0.023734157656395062, "learning_rate": 0.0001, "loss": 0.9642, "step": 7257 }, { "epoch": 1.1870933333333333, "grad_norm": 0.022911756483660242, "learning_rate": 0.0001, "loss": 0.96, "step": 7258 }, { "epoch": 1.1871466666666666, "grad_norm": 0.024241788504860962, "learning_rate": 0.0001, "loss": 0.9859, "step": 7259 }, { "epoch": 1.1872, "grad_norm": 0.024889732044349643, "learning_rate": 0.0001, "loss": 1.0366, "step": 7260 }, { "epoch": 1.1872533333333333, "grad_norm": 0.025451268772212567, "learning_rate": 0.0001, "loss": 1.0384, "step": 7261 }, { "epoch": 1.1873066666666667, "grad_norm": 0.025543984647431243, "learning_rate": 0.0001, "loss": 0.988, "step": 7262 }, { "epoch": 1.18736, "grad_norm": 0.0263804563523575, "learning_rate": 0.0001, "loss": 1.0012, "step": 7263 }, { "epoch": 1.1874133333333332, "grad_norm": 0.027621087085162286, "learning_rate": 0.0001, "loss": 0.9808, "step": 7264 }, { "epoch": 1.1874666666666667, "grad_norm": 0.0250611418413037, "learning_rate": 0.0001, "loss": 0.9349, "step": 7265 }, { "epoch": 1.18752, "grad_norm": 0.023626136273874703, "learning_rate": 0.0001, "loss": 0.9668, "step": 7266 }, { "epoch": 1.1875733333333334, "grad_norm": 0.024869804952768464, "learning_rate": 0.0001, "loss": 0.984, "step": 7267 }, { "epoch": 1.1876266666666666, "grad_norm": 0.023846868221968204, "learning_rate": 0.0001, "loss": 0.9829, "step": 7268 }, { "epoch": 1.18768, "grad_norm": 0.023954781706274977, "learning_rate": 0.0001, "loss": 1.0134, "step": 7269 }, { "epoch": 1.1877333333333333, "grad_norm": 0.024468458679635676, "learning_rate": 0.0001, "loss": 0.9614, "step": 7270 }, { "epoch": 1.1877866666666668, "grad_norm": 0.025027214649599575, "learning_rate": 0.0001, "loss": 1.0702, "step": 7271 }, { "epoch": 1.18784, "grad_norm": 0.024555256088353593, "learning_rate": 0.0001, "loss": 0.9658, "step": 7272 }, { "epoch": 1.1878933333333332, "grad_norm": 0.02337712007015724, "learning_rate": 0.0001, "loss": 0.9116, "step": 7273 }, { "epoch": 1.1879466666666667, "grad_norm": 0.024301293108066977, "learning_rate": 0.0001, "loss": 0.9479, "step": 7274 }, { "epoch": 1.188, "grad_norm": 0.02435944152251911, "learning_rate": 0.0001, "loss": 0.9907, "step": 7275 }, { "epoch": 1.1880533333333334, "grad_norm": 0.02556670314046084, "learning_rate": 0.0001, "loss": 0.9435, "step": 7276 }, { "epoch": 1.1881066666666666, "grad_norm": 0.02443190689432934, "learning_rate": 0.0001, "loss": 1.0474, "step": 7277 }, { "epoch": 1.1881599999999999, "grad_norm": 0.024176949607638457, "learning_rate": 0.0001, "loss": 0.9804, "step": 7278 }, { "epoch": 1.1882133333333333, "grad_norm": 0.024814424083827405, "learning_rate": 0.0001, "loss": 1.0138, "step": 7279 }, { "epoch": 1.1882666666666666, "grad_norm": 0.025660618202968586, "learning_rate": 0.0001, "loss": 0.9695, "step": 7280 }, { "epoch": 1.18832, "grad_norm": 0.023485954172040448, "learning_rate": 0.0001, "loss": 0.9497, "step": 7281 }, { "epoch": 1.1883733333333333, "grad_norm": 0.0235498734865542, "learning_rate": 0.0001, "loss": 1.0302, "step": 7282 }, { "epoch": 1.1884266666666667, "grad_norm": 0.02417684878125587, "learning_rate": 0.0001, "loss": 0.9823, "step": 7283 }, { "epoch": 1.18848, "grad_norm": 0.023712823558763887, "learning_rate": 0.0001, "loss": 0.9925, "step": 7284 }, { "epoch": 1.1885333333333334, "grad_norm": 0.026568959070020663, "learning_rate": 0.0001, "loss": 0.9929, "step": 7285 }, { "epoch": 1.1885866666666667, "grad_norm": 0.026136954189813533, "learning_rate": 0.0001, "loss": 0.9374, "step": 7286 }, { "epoch": 1.18864, "grad_norm": 0.02325104839331239, "learning_rate": 0.0001, "loss": 0.9445, "step": 7287 }, { "epoch": 1.1886933333333334, "grad_norm": 0.025773118064639215, "learning_rate": 0.0001, "loss": 0.9294, "step": 7288 }, { "epoch": 1.1887466666666666, "grad_norm": 0.02477854855594075, "learning_rate": 0.0001, "loss": 1.001, "step": 7289 }, { "epoch": 1.1888, "grad_norm": 0.023307576739534343, "learning_rate": 0.0001, "loss": 0.9687, "step": 7290 }, { "epoch": 1.1888533333333333, "grad_norm": 0.023809970064805747, "learning_rate": 0.0001, "loss": 0.9741, "step": 7291 }, { "epoch": 1.1889066666666666, "grad_norm": 0.024171925461060614, "learning_rate": 0.0001, "loss": 0.9797, "step": 7292 }, { "epoch": 1.18896, "grad_norm": 0.023300364304008715, "learning_rate": 0.0001, "loss": 0.9499, "step": 7293 }, { "epoch": 1.1890133333333333, "grad_norm": 0.026998156657543296, "learning_rate": 0.0001, "loss": 0.9721, "step": 7294 }, { "epoch": 1.1890666666666667, "grad_norm": 0.023797512720073844, "learning_rate": 0.0001, "loss": 0.9085, "step": 7295 }, { "epoch": 1.18912, "grad_norm": 0.024780136814303848, "learning_rate": 0.0001, "loss": 0.9392, "step": 7296 }, { "epoch": 1.1891733333333334, "grad_norm": 0.023243140647513604, "learning_rate": 0.0001, "loss": 0.9863, "step": 7297 }, { "epoch": 1.1892266666666667, "grad_norm": 0.02379946640188472, "learning_rate": 0.0001, "loss": 1.0158, "step": 7298 }, { "epoch": 1.1892800000000001, "grad_norm": 0.024613332345151704, "learning_rate": 0.0001, "loss": 1.0277, "step": 7299 }, { "epoch": 1.1893333333333334, "grad_norm": 0.02528042042201784, "learning_rate": 0.0001, "loss": 0.9167, "step": 7300 }, { "epoch": 1.1893866666666666, "grad_norm": 0.022519619927803543, "learning_rate": 0.0001, "loss": 0.9946, "step": 7301 }, { "epoch": 1.18944, "grad_norm": 0.023034132064479948, "learning_rate": 0.0001, "loss": 0.9754, "step": 7302 }, { "epoch": 1.1894933333333333, "grad_norm": 0.025020411583797978, "learning_rate": 0.0001, "loss": 0.9658, "step": 7303 }, { "epoch": 1.1895466666666668, "grad_norm": 0.023129329706279553, "learning_rate": 0.0001, "loss": 0.9085, "step": 7304 }, { "epoch": 1.1896, "grad_norm": 0.024191099596572944, "learning_rate": 0.0001, "loss": 0.9672, "step": 7305 }, { "epoch": 1.1896533333333332, "grad_norm": 0.02387902608830227, "learning_rate": 0.0001, "loss": 0.9095, "step": 7306 }, { "epoch": 1.1897066666666667, "grad_norm": 0.022987464858405846, "learning_rate": 0.0001, "loss": 0.953, "step": 7307 }, { "epoch": 1.18976, "grad_norm": 0.022754983675899877, "learning_rate": 0.0001, "loss": 0.8587, "step": 7308 }, { "epoch": 1.1898133333333334, "grad_norm": 0.02357706190700962, "learning_rate": 0.0001, "loss": 0.9375, "step": 7309 }, { "epoch": 1.1898666666666666, "grad_norm": 0.02438008959075366, "learning_rate": 0.0001, "loss": 1.0033, "step": 7310 }, { "epoch": 1.18992, "grad_norm": 0.025071235049286968, "learning_rate": 0.0001, "loss": 0.9913, "step": 7311 }, { "epoch": 1.1899733333333333, "grad_norm": 0.024423178236285956, "learning_rate": 0.0001, "loss": 0.9382, "step": 7312 }, { "epoch": 1.1900266666666668, "grad_norm": 0.025981373476802367, "learning_rate": 0.0001, "loss": 0.8907, "step": 7313 }, { "epoch": 1.19008, "grad_norm": 0.024232790010131743, "learning_rate": 0.0001, "loss": 1.0358, "step": 7314 }, { "epoch": 1.1901333333333333, "grad_norm": 0.025609270684906097, "learning_rate": 0.0001, "loss": 1.0064, "step": 7315 }, { "epoch": 1.1901866666666667, "grad_norm": 0.02623530578219802, "learning_rate": 0.0001, "loss": 0.947, "step": 7316 }, { "epoch": 1.19024, "grad_norm": 0.025801460531626113, "learning_rate": 0.0001, "loss": 0.9479, "step": 7317 }, { "epoch": 1.1902933333333334, "grad_norm": 0.022939578479734882, "learning_rate": 0.0001, "loss": 1.0038, "step": 7318 }, { "epoch": 1.1903466666666667, "grad_norm": 0.02545522570594253, "learning_rate": 0.0001, "loss": 0.9818, "step": 7319 }, { "epoch": 1.1904, "grad_norm": 0.026456374293731176, "learning_rate": 0.0001, "loss": 0.9405, "step": 7320 }, { "epoch": 1.1904533333333334, "grad_norm": 0.02765005641960458, "learning_rate": 0.0001, "loss": 0.9367, "step": 7321 }, { "epoch": 1.1905066666666666, "grad_norm": 0.023307099803310884, "learning_rate": 0.0001, "loss": 1.0359, "step": 7322 }, { "epoch": 1.19056, "grad_norm": 0.024172623739187927, "learning_rate": 0.0001, "loss": 0.9812, "step": 7323 }, { "epoch": 1.1906133333333333, "grad_norm": 0.023393981275318613, "learning_rate": 0.0001, "loss": 0.9723, "step": 7324 }, { "epoch": 1.1906666666666668, "grad_norm": 0.026128979376777273, "learning_rate": 0.0001, "loss": 0.9741, "step": 7325 }, { "epoch": 1.19072, "grad_norm": 0.025279072854275872, "learning_rate": 0.0001, "loss": 1.0719, "step": 7326 }, { "epoch": 1.1907733333333332, "grad_norm": 0.02487325746004121, "learning_rate": 0.0001, "loss": 0.9519, "step": 7327 }, { "epoch": 1.1908266666666667, "grad_norm": 0.023326716658095926, "learning_rate": 0.0001, "loss": 0.9386, "step": 7328 }, { "epoch": 1.19088, "grad_norm": 0.02483885132731976, "learning_rate": 0.0001, "loss": 1.051, "step": 7329 }, { "epoch": 1.1909333333333334, "grad_norm": 0.023965568336806183, "learning_rate": 0.0001, "loss": 1.0115, "step": 7330 }, { "epoch": 1.1909866666666666, "grad_norm": 0.02295365702978976, "learning_rate": 0.0001, "loss": 0.9593, "step": 7331 }, { "epoch": 1.19104, "grad_norm": 0.02440923273321154, "learning_rate": 0.0001, "loss": 0.9714, "step": 7332 }, { "epoch": 1.1910933333333333, "grad_norm": 0.023606189701284003, "learning_rate": 0.0001, "loss": 0.9859, "step": 7333 }, { "epoch": 1.1911466666666666, "grad_norm": 0.02532364593171206, "learning_rate": 0.0001, "loss": 0.9048, "step": 7334 }, { "epoch": 1.1912, "grad_norm": 0.024829928621763264, "learning_rate": 0.0001, "loss": 0.998, "step": 7335 }, { "epoch": 1.1912533333333333, "grad_norm": 0.023206890475607873, "learning_rate": 0.0001, "loss": 0.9854, "step": 7336 }, { "epoch": 1.1913066666666667, "grad_norm": 0.024364551956681312, "learning_rate": 0.0001, "loss": 1.0089, "step": 7337 }, { "epoch": 1.19136, "grad_norm": 0.023931846435625195, "learning_rate": 0.0001, "loss": 0.9213, "step": 7338 }, { "epoch": 1.1914133333333332, "grad_norm": 0.026460347165863023, "learning_rate": 0.0001, "loss": 1.0251, "step": 7339 }, { "epoch": 1.1914666666666667, "grad_norm": 0.023174057601070986, "learning_rate": 0.0001, "loss": 0.9901, "step": 7340 }, { "epoch": 1.19152, "grad_norm": 0.024472848338617507, "learning_rate": 0.0001, "loss": 0.9464, "step": 7341 }, { "epoch": 1.1915733333333334, "grad_norm": 0.02411531467343324, "learning_rate": 0.0001, "loss": 0.9193, "step": 7342 }, { "epoch": 1.1916266666666666, "grad_norm": 0.022465804941203704, "learning_rate": 0.0001, "loss": 0.9095, "step": 7343 }, { "epoch": 1.19168, "grad_norm": 0.023707874120103938, "learning_rate": 0.0001, "loss": 1.0058, "step": 7344 }, { "epoch": 1.1917333333333333, "grad_norm": 0.02310725475307972, "learning_rate": 0.0001, "loss": 0.9275, "step": 7345 }, { "epoch": 1.1917866666666668, "grad_norm": 0.024386887514083175, "learning_rate": 0.0001, "loss": 0.993, "step": 7346 }, { "epoch": 1.19184, "grad_norm": 0.022193427358321815, "learning_rate": 0.0001, "loss": 0.9901, "step": 7347 }, { "epoch": 1.1918933333333332, "grad_norm": 0.02292456566002935, "learning_rate": 0.0001, "loss": 0.9759, "step": 7348 }, { "epoch": 1.1919466666666667, "grad_norm": 0.024284459032174154, "learning_rate": 0.0001, "loss": 0.9761, "step": 7349 }, { "epoch": 1.192, "grad_norm": 0.023345296337456974, "learning_rate": 0.0001, "loss": 0.9418, "step": 7350 }, { "epoch": 1.1920533333333334, "grad_norm": 0.023463576530002632, "learning_rate": 0.0001, "loss": 0.9977, "step": 7351 }, { "epoch": 1.1921066666666666, "grad_norm": 0.024983702473934728, "learning_rate": 0.0001, "loss": 1.0027, "step": 7352 }, { "epoch": 1.1921599999999999, "grad_norm": 0.024021554170503688, "learning_rate": 0.0001, "loss": 1.0009, "step": 7353 }, { "epoch": 1.1922133333333333, "grad_norm": 0.023721624757563686, "learning_rate": 0.0001, "loss": 0.9272, "step": 7354 }, { "epoch": 1.1922666666666666, "grad_norm": 0.02259658250586971, "learning_rate": 0.0001, "loss": 0.9504, "step": 7355 }, { "epoch": 1.19232, "grad_norm": 0.02394703985615632, "learning_rate": 0.0001, "loss": 1.0049, "step": 7356 }, { "epoch": 1.1923733333333333, "grad_norm": 0.025198530650331778, "learning_rate": 0.0001, "loss": 0.9637, "step": 7357 }, { "epoch": 1.1924266666666667, "grad_norm": 0.02304924223789944, "learning_rate": 0.0001, "loss": 0.9324, "step": 7358 }, { "epoch": 1.19248, "grad_norm": 0.023766306636896876, "learning_rate": 0.0001, "loss": 0.9228, "step": 7359 }, { "epoch": 1.1925333333333334, "grad_norm": 0.024922361453554, "learning_rate": 0.0001, "loss": 0.9775, "step": 7360 }, { "epoch": 1.1925866666666667, "grad_norm": 0.023130411151795843, "learning_rate": 0.0001, "loss": 1.0109, "step": 7361 }, { "epoch": 1.19264, "grad_norm": 0.02324704036423622, "learning_rate": 0.0001, "loss": 0.9455, "step": 7362 }, { "epoch": 1.1926933333333334, "grad_norm": 0.023141999858707383, "learning_rate": 0.0001, "loss": 1.0008, "step": 7363 }, { "epoch": 1.1927466666666666, "grad_norm": 0.022549064511613474, "learning_rate": 0.0001, "loss": 0.9968, "step": 7364 }, { "epoch": 1.1928, "grad_norm": 0.023068696445146922, "learning_rate": 0.0001, "loss": 0.9421, "step": 7365 }, { "epoch": 1.1928533333333333, "grad_norm": 0.023230322419577093, "learning_rate": 0.0001, "loss": 0.9777, "step": 7366 }, { "epoch": 1.1929066666666666, "grad_norm": 0.023955375652586885, "learning_rate": 0.0001, "loss": 0.9495, "step": 7367 }, { "epoch": 1.19296, "grad_norm": 0.022687509150943048, "learning_rate": 0.0001, "loss": 0.9266, "step": 7368 }, { "epoch": 1.1930133333333333, "grad_norm": 0.023144071417011313, "learning_rate": 0.0001, "loss": 0.9887, "step": 7369 }, { "epoch": 1.1930666666666667, "grad_norm": 0.023447335174748788, "learning_rate": 0.0001, "loss": 1.0195, "step": 7370 }, { "epoch": 1.19312, "grad_norm": 0.02262756496524868, "learning_rate": 0.0001, "loss": 0.9485, "step": 7371 }, { "epoch": 1.1931733333333334, "grad_norm": 0.024516931750017117, "learning_rate": 0.0001, "loss": 1.0099, "step": 7372 }, { "epoch": 1.1932266666666667, "grad_norm": 0.02400520075804333, "learning_rate": 0.0001, "loss": 1.0042, "step": 7373 }, { "epoch": 1.1932800000000001, "grad_norm": 0.025746881230434976, "learning_rate": 0.0001, "loss": 1.013, "step": 7374 }, { "epoch": 1.1933333333333334, "grad_norm": 0.02450941935429656, "learning_rate": 0.0001, "loss": 0.9968, "step": 7375 }, { "epoch": 1.1933866666666666, "grad_norm": 0.02213884385958393, "learning_rate": 0.0001, "loss": 0.9123, "step": 7376 }, { "epoch": 1.19344, "grad_norm": 0.023065572756390634, "learning_rate": 0.0001, "loss": 0.9297, "step": 7377 }, { "epoch": 1.1934933333333333, "grad_norm": 0.026408915930016114, "learning_rate": 0.0001, "loss": 0.9265, "step": 7378 }, { "epoch": 1.1935466666666668, "grad_norm": 0.025998941425251356, "learning_rate": 0.0001, "loss": 0.9896, "step": 7379 }, { "epoch": 1.1936, "grad_norm": 0.024154567642150696, "learning_rate": 0.0001, "loss": 1.0362, "step": 7380 }, { "epoch": 1.1936533333333332, "grad_norm": 0.024992682344015076, "learning_rate": 0.0001, "loss": 1.0511, "step": 7381 }, { "epoch": 1.1937066666666667, "grad_norm": 0.026059407610579368, "learning_rate": 0.0001, "loss": 0.9644, "step": 7382 }, { "epoch": 1.19376, "grad_norm": 0.02557795321788315, "learning_rate": 0.0001, "loss": 0.9643, "step": 7383 }, { "epoch": 1.1938133333333334, "grad_norm": 0.023656603815181563, "learning_rate": 0.0001, "loss": 0.9662, "step": 7384 }, { "epoch": 1.1938666666666666, "grad_norm": 0.02289724713067941, "learning_rate": 0.0001, "loss": 0.9604, "step": 7385 }, { "epoch": 1.19392, "grad_norm": 0.024935132274748008, "learning_rate": 0.0001, "loss": 0.9426, "step": 7386 }, { "epoch": 1.1939733333333333, "grad_norm": 0.023073016187004657, "learning_rate": 0.0001, "loss": 0.9325, "step": 7387 }, { "epoch": 1.1940266666666666, "grad_norm": 0.024891392487800864, "learning_rate": 0.0001, "loss": 1.0063, "step": 7388 }, { "epoch": 1.19408, "grad_norm": 0.0229337197026798, "learning_rate": 0.0001, "loss": 0.9456, "step": 7389 }, { "epoch": 1.1941333333333333, "grad_norm": 0.02492513112798984, "learning_rate": 0.0001, "loss": 0.9574, "step": 7390 }, { "epoch": 1.1941866666666667, "grad_norm": 0.023463647706361793, "learning_rate": 0.0001, "loss": 0.9678, "step": 7391 }, { "epoch": 1.19424, "grad_norm": 0.023155950822287795, "learning_rate": 0.0001, "loss": 0.9417, "step": 7392 }, { "epoch": 1.1942933333333334, "grad_norm": 0.024088051354453643, "learning_rate": 0.0001, "loss": 0.998, "step": 7393 }, { "epoch": 1.1943466666666667, "grad_norm": 0.03395375894014035, "learning_rate": 0.0001, "loss": 0.9508, "step": 7394 }, { "epoch": 1.1944, "grad_norm": 0.023091814175704155, "learning_rate": 0.0001, "loss": 0.9933, "step": 7395 }, { "epoch": 1.1944533333333334, "grad_norm": 0.025614154051242562, "learning_rate": 0.0001, "loss": 0.963, "step": 7396 }, { "epoch": 1.1945066666666666, "grad_norm": 0.02315968517241408, "learning_rate": 0.0001, "loss": 0.917, "step": 7397 }, { "epoch": 1.19456, "grad_norm": 0.024065336298590048, "learning_rate": 0.0001, "loss": 0.8847, "step": 7398 }, { "epoch": 1.1946133333333333, "grad_norm": 0.022915831062199285, "learning_rate": 0.0001, "loss": 0.9413, "step": 7399 }, { "epoch": 1.1946666666666665, "grad_norm": 0.022730668606442666, "learning_rate": 0.0001, "loss": 0.9679, "step": 7400 }, { "epoch": 1.1946666666666665, "eval_accuracy": 0.6194253226770883, "eval_loss": 1.358161449432373, "eval_runtime": 62.7961, "eval_samples_per_second": 15.925, "eval_steps_per_second": 0.51, "step": 7400 } ], "logging_steps": 1.0, "max_steps": 18750, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 200, "stateful_callbacks": { "EarlyStoppingCallback": { "args": { "early_stopping_patience": 5, "early_stopping_threshold": 0.0 }, "attributes": { "early_stopping_patience_counter": 0 } }, "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 7184365470285824.0, "train_batch_size": 1, "trial_name": null, "trial_params": null }