{ "best_metric": 1.3440815210342407, "best_model_checkpoint": "/leonardo_work/AIFAC_5C0_174/ahochleh/lora-transferability/output/models/Qwen2.5-7B_openthoughts_lrc/checkpoint-11800", "epoch": 3.029333333333333, "eval_steps": 200, "global_step": 11800, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 5.333333333333333e-05, "grad_norm": 0.017663535983957833, "learning_rate": 0.0001, "loss": 1.2851, "step": 1 }, { "epoch": 0.00010666666666666667, "grad_norm": 0.019045901437460214, "learning_rate": 0.0001, "loss": 1.3386, "step": 2 }, { "epoch": 0.00016, "grad_norm": 0.040626311097590344, "learning_rate": 0.0001, "loss": 1.3481, "step": 3 }, { "epoch": 0.00021333333333333333, "grad_norm": 0.02036167462487858, "learning_rate": 0.0001, "loss": 1.3394, "step": 4 }, { "epoch": 0.0002666666666666667, "grad_norm": 0.021079644337874338, "learning_rate": 0.0001, "loss": 1.2781, "step": 5 }, { "epoch": 0.00032, "grad_norm": 0.02456331072308504, "learning_rate": 0.0001, "loss": 1.2759, "step": 6 }, { "epoch": 0.0003733333333333333, "grad_norm": 0.02574756282403388, "learning_rate": 0.0001, "loss": 1.2822, "step": 7 }, { "epoch": 0.00042666666666666667, "grad_norm": 0.020452790742183886, "learning_rate": 0.0001, "loss": 1.2741, "step": 8 }, { "epoch": 0.00048, "grad_norm": 0.022974487064571184, "learning_rate": 0.0001, "loss": 1.2232, "step": 9 }, { "epoch": 0.0005333333333333334, "grad_norm": 0.03322565045040931, "learning_rate": 0.0001, "loss": 1.2736, "step": 10 }, { "epoch": 0.0005866666666666667, "grad_norm": 0.02956456488679643, "learning_rate": 0.0001, "loss": 1.247, "step": 11 }, { "epoch": 0.00064, "grad_norm": 0.02168306912081603, "learning_rate": 0.0001, "loss": 1.2169, "step": 12 }, { "epoch": 0.0006933333333333333, "grad_norm": 0.022361870048187463, "learning_rate": 0.0001, "loss": 1.2363, "step": 13 }, { "epoch": 0.0007466666666666666, "grad_norm": 0.02376362612896722, "learning_rate": 0.0001, "loss": 1.2536, "step": 14 }, { "epoch": 0.0008, "grad_norm": 0.029034593258185748, "learning_rate": 0.0001, "loss": 1.2462, "step": 15 }, { "epoch": 0.0008533333333333333, "grad_norm": 0.023657592719445227, "learning_rate": 0.0001, "loss": 1.2161, "step": 16 }, { "epoch": 0.0009066666666666666, "grad_norm": 0.022641704453159297, "learning_rate": 0.0001, "loss": 1.2128, "step": 17 }, { "epoch": 0.00096, "grad_norm": 0.020311526742182503, "learning_rate": 0.0001, "loss": 1.1668, "step": 18 }, { "epoch": 0.0010133333333333333, "grad_norm": 0.023774882884098115, "learning_rate": 0.0001, "loss": 1.1876, "step": 19 }, { "epoch": 0.0010666666666666667, "grad_norm": 0.023435346843676392, "learning_rate": 0.0001, "loss": 1.196, "step": 20 }, { "epoch": 0.00112, "grad_norm": 0.0202262806047923, "learning_rate": 0.0001, "loss": 1.1923, "step": 21 }, { "epoch": 0.0011733333333333333, "grad_norm": 0.02144623757822789, "learning_rate": 0.0001, "loss": 1.2012, "step": 22 }, { "epoch": 0.0012266666666666667, "grad_norm": 0.0201617567358022, "learning_rate": 0.0001, "loss": 1.19, "step": 23 }, { "epoch": 0.00128, "grad_norm": 0.018419463152263324, "learning_rate": 0.0001, "loss": 1.1822, "step": 24 }, { "epoch": 0.0013333333333333333, "grad_norm": 0.01846724961733521, "learning_rate": 0.0001, "loss": 1.1678, "step": 25 }, { "epoch": 0.0013866666666666667, "grad_norm": 0.019184613840958157, "learning_rate": 0.0001, "loss": 1.2129, "step": 26 }, { "epoch": 0.00144, "grad_norm": 0.018819324313548307, "learning_rate": 0.0001, "loss": 1.1961, "step": 27 }, { "epoch": 0.0014933333333333333, "grad_norm": 0.01832186624369802, "learning_rate": 0.0001, "loss": 1.1963, "step": 28 }, { "epoch": 0.0015466666666666667, "grad_norm": 0.01651266186352045, "learning_rate": 0.0001, "loss": 1.1771, "step": 29 }, { "epoch": 0.0016, "grad_norm": 0.01592594563048431, "learning_rate": 0.0001, "loss": 1.1797, "step": 30 }, { "epoch": 0.0016533333333333333, "grad_norm": 0.019461088377968366, "learning_rate": 0.0001, "loss": 1.1208, "step": 31 }, { "epoch": 0.0017066666666666667, "grad_norm": 0.0168301023097901, "learning_rate": 0.0001, "loss": 1.1587, "step": 32 }, { "epoch": 0.00176, "grad_norm": 0.01747679214570985, "learning_rate": 0.0001, "loss": 1.1658, "step": 33 }, { "epoch": 0.0018133333333333332, "grad_norm": 0.0185202216354917, "learning_rate": 0.0001, "loss": 1.1433, "step": 34 }, { "epoch": 0.0018666666666666666, "grad_norm": 0.017636562910814738, "learning_rate": 0.0001, "loss": 1.1773, "step": 35 }, { "epoch": 0.00192, "grad_norm": 0.01898649683732413, "learning_rate": 0.0001, "loss": 1.1744, "step": 36 }, { "epoch": 0.0019733333333333334, "grad_norm": 0.0168480946606765, "learning_rate": 0.0001, "loss": 1.1458, "step": 37 }, { "epoch": 0.0020266666666666666, "grad_norm": 0.019529780302859606, "learning_rate": 0.0001, "loss": 1.1769, "step": 38 }, { "epoch": 0.00208, "grad_norm": 0.018378736692672405, "learning_rate": 0.0001, "loss": 1.1145, "step": 39 }, { "epoch": 0.0021333333333333334, "grad_norm": 0.018561990641567855, "learning_rate": 0.0001, "loss": 1.1505, "step": 40 }, { "epoch": 0.0021866666666666666, "grad_norm": 0.019595710048582, "learning_rate": 0.0001, "loss": 1.1706, "step": 41 }, { "epoch": 0.00224, "grad_norm": 0.01723885512620191, "learning_rate": 0.0001, "loss": 1.0743, "step": 42 }, { "epoch": 0.0022933333333333334, "grad_norm": 0.020970230781914477, "learning_rate": 0.0001, "loss": 1.1477, "step": 43 }, { "epoch": 0.0023466666666666666, "grad_norm": 0.01747766223448201, "learning_rate": 0.0001, "loss": 1.1369, "step": 44 }, { "epoch": 0.0024, "grad_norm": 0.022322939149236103, "learning_rate": 0.0001, "loss": 1.1643, "step": 45 }, { "epoch": 0.0024533333333333334, "grad_norm": 0.01933666405055695, "learning_rate": 0.0001, "loss": 1.132, "step": 46 }, { "epoch": 0.0025066666666666666, "grad_norm": 0.01820440810809091, "learning_rate": 0.0001, "loss": 1.1702, "step": 47 }, { "epoch": 0.00256, "grad_norm": 0.020901926256680293, "learning_rate": 0.0001, "loss": 1.0989, "step": 48 }, { "epoch": 0.0026133333333333334, "grad_norm": 0.02266426968178372, "learning_rate": 0.0001, "loss": 1.1868, "step": 49 }, { "epoch": 0.0026666666666666666, "grad_norm": 0.02045471979926694, "learning_rate": 0.0001, "loss": 1.124, "step": 50 }, { "epoch": 0.00272, "grad_norm": 0.020428646490662984, "learning_rate": 0.0001, "loss": 1.1586, "step": 51 }, { "epoch": 0.0027733333333333334, "grad_norm": 0.02283069620954967, "learning_rate": 0.0001, "loss": 1.1124, "step": 52 }, { "epoch": 0.0028266666666666666, "grad_norm": 0.020431781519662916, "learning_rate": 0.0001, "loss": 1.1339, "step": 53 }, { "epoch": 0.00288, "grad_norm": 0.018296043477837764, "learning_rate": 0.0001, "loss": 1.08, "step": 54 }, { "epoch": 0.0029333333333333334, "grad_norm": 0.019769980849317578, "learning_rate": 0.0001, "loss": 1.2115, "step": 55 }, { "epoch": 0.0029866666666666665, "grad_norm": 0.018349336281229915, "learning_rate": 0.0001, "loss": 1.0953, "step": 56 }, { "epoch": 0.00304, "grad_norm": 0.021340822597750022, "learning_rate": 0.0001, "loss": 1.112, "step": 57 }, { "epoch": 0.0030933333333333334, "grad_norm": 0.021205791237932158, "learning_rate": 0.0001, "loss": 1.1319, "step": 58 }, { "epoch": 0.0031466666666666665, "grad_norm": 0.018840643855392632, "learning_rate": 0.0001, "loss": 1.1057, "step": 59 }, { "epoch": 0.0032, "grad_norm": 0.01996167612298934, "learning_rate": 0.0001, "loss": 1.1454, "step": 60 }, { "epoch": 0.0032533333333333333, "grad_norm": 0.0206921266276397, "learning_rate": 0.0001, "loss": 1.0957, "step": 61 }, { "epoch": 0.0033066666666666665, "grad_norm": 0.022366877812907533, "learning_rate": 0.0001, "loss": 1.1182, "step": 62 }, { "epoch": 0.00336, "grad_norm": 0.019894907897840822, "learning_rate": 0.0001, "loss": 1.142, "step": 63 }, { "epoch": 0.0034133333333333333, "grad_norm": 0.02230021168006463, "learning_rate": 0.0001, "loss": 1.0673, "step": 64 }, { "epoch": 0.0034666666666666665, "grad_norm": 0.02274359400474783, "learning_rate": 0.0001, "loss": 1.0662, "step": 65 }, { "epoch": 0.00352, "grad_norm": 0.01911665109076629, "learning_rate": 0.0001, "loss": 1.0955, "step": 66 }, { "epoch": 0.0035733333333333333, "grad_norm": 0.021169614524847495, "learning_rate": 0.0001, "loss": 1.0595, "step": 67 }, { "epoch": 0.0036266666666666665, "grad_norm": 0.022306947829863855, "learning_rate": 0.0001, "loss": 1.0901, "step": 68 }, { "epoch": 0.00368, "grad_norm": 0.02399697508573963, "learning_rate": 0.0001, "loss": 1.1329, "step": 69 }, { "epoch": 0.0037333333333333333, "grad_norm": 0.022557666480114306, "learning_rate": 0.0001, "loss": 1.1235, "step": 70 }, { "epoch": 0.0037866666666666665, "grad_norm": 0.024881109806363145, "learning_rate": 0.0001, "loss": 1.1017, "step": 71 }, { "epoch": 0.00384, "grad_norm": 0.0213415342371312, "learning_rate": 0.0001, "loss": 1.1515, "step": 72 }, { "epoch": 0.0038933333333333333, "grad_norm": 0.026076390092072337, "learning_rate": 0.0001, "loss": 1.1292, "step": 73 }, { "epoch": 0.003946666666666667, "grad_norm": 0.02291805139654699, "learning_rate": 0.0001, "loss": 1.1258, "step": 74 }, { "epoch": 0.004, "grad_norm": 0.022509948988868995, "learning_rate": 0.0001, "loss": 1.1106, "step": 75 }, { "epoch": 0.004053333333333333, "grad_norm": 0.026440628872700073, "learning_rate": 0.0001, "loss": 1.0949, "step": 76 }, { "epoch": 0.0041066666666666665, "grad_norm": 0.0230542777991158, "learning_rate": 0.0001, "loss": 1.0854, "step": 77 }, { "epoch": 0.00416, "grad_norm": 0.02528260148409545, "learning_rate": 0.0001, "loss": 1.0459, "step": 78 }, { "epoch": 0.004213333333333334, "grad_norm": 0.02159758025703304, "learning_rate": 0.0001, "loss": 1.1371, "step": 79 }, { "epoch": 0.004266666666666667, "grad_norm": 0.024619883227926107, "learning_rate": 0.0001, "loss": 1.1259, "step": 80 }, { "epoch": 0.00432, "grad_norm": 0.028027358033021, "learning_rate": 0.0001, "loss": 1.1394, "step": 81 }, { "epoch": 0.004373333333333333, "grad_norm": 0.0240314163084437, "learning_rate": 0.0001, "loss": 1.0882, "step": 82 }, { "epoch": 0.004426666666666666, "grad_norm": 0.02760626929155725, "learning_rate": 0.0001, "loss": 1.0783, "step": 83 }, { "epoch": 0.00448, "grad_norm": 0.02612768589454587, "learning_rate": 0.0001, "loss": 1.0524, "step": 84 }, { "epoch": 0.004533333333333334, "grad_norm": 0.02344713260341745, "learning_rate": 0.0001, "loss": 1.1095, "step": 85 }, { "epoch": 0.004586666666666667, "grad_norm": 0.024144060481023133, "learning_rate": 0.0001, "loss": 1.1412, "step": 86 }, { "epoch": 0.00464, "grad_norm": 0.02621237204120152, "learning_rate": 0.0001, "loss": 1.1281, "step": 87 }, { "epoch": 0.004693333333333333, "grad_norm": 0.026984655607370928, "learning_rate": 0.0001, "loss": 1.118, "step": 88 }, { "epoch": 0.004746666666666666, "grad_norm": 0.02394842786614117, "learning_rate": 0.0001, "loss": 1.1157, "step": 89 }, { "epoch": 0.0048, "grad_norm": 0.02308805596503825, "learning_rate": 0.0001, "loss": 1.0954, "step": 90 }, { "epoch": 0.004853333333333334, "grad_norm": 0.02641446783650999, "learning_rate": 0.0001, "loss": 1.1977, "step": 91 }, { "epoch": 0.004906666666666667, "grad_norm": 0.02628224000749557, "learning_rate": 0.0001, "loss": 1.0381, "step": 92 }, { "epoch": 0.00496, "grad_norm": 0.0262711888727942, "learning_rate": 0.0001, "loss": 1.0804, "step": 93 }, { "epoch": 0.005013333333333333, "grad_norm": 0.028852404195580973, "learning_rate": 0.0001, "loss": 1.0847, "step": 94 }, { "epoch": 0.005066666666666666, "grad_norm": 0.022820012487008153, "learning_rate": 0.0001, "loss": 1.0983, "step": 95 }, { "epoch": 0.00512, "grad_norm": 0.027684130043247292, "learning_rate": 0.0001, "loss": 1.1937, "step": 96 }, { "epoch": 0.005173333333333334, "grad_norm": 0.024770212365944143, "learning_rate": 0.0001, "loss": 1.1115, "step": 97 }, { "epoch": 0.005226666666666667, "grad_norm": 0.027494101888264684, "learning_rate": 0.0001, "loss": 1.0862, "step": 98 }, { "epoch": 0.00528, "grad_norm": 0.028068591916916897, "learning_rate": 0.0001, "loss": 1.1198, "step": 99 }, { "epoch": 0.005333333333333333, "grad_norm": 0.025215653660767015, "learning_rate": 0.0001, "loss": 1.0789, "step": 100 }, { "epoch": 0.005386666666666666, "grad_norm": 0.02617302078474964, "learning_rate": 0.0001, "loss": 1.1003, "step": 101 }, { "epoch": 0.00544, "grad_norm": 0.023807385684215778, "learning_rate": 0.0001, "loss": 1.1229, "step": 102 }, { "epoch": 0.005493333333333334, "grad_norm": 0.029317144217495813, "learning_rate": 0.0001, "loss": 1.077, "step": 103 }, { "epoch": 0.005546666666666667, "grad_norm": 0.02774344185697802, "learning_rate": 0.0001, "loss": 1.1502, "step": 104 }, { "epoch": 0.0056, "grad_norm": 0.03121423939416175, "learning_rate": 0.0001, "loss": 1.1989, "step": 105 }, { "epoch": 0.005653333333333333, "grad_norm": 0.028168171591932172, "learning_rate": 0.0001, "loss": 1.0944, "step": 106 }, { "epoch": 0.005706666666666666, "grad_norm": 0.02433804240030303, "learning_rate": 0.0001, "loss": 1.0472, "step": 107 }, { "epoch": 0.00576, "grad_norm": 0.027260996841302933, "learning_rate": 0.0001, "loss": 1.0762, "step": 108 }, { "epoch": 0.0058133333333333335, "grad_norm": 0.025572432554085187, "learning_rate": 0.0001, "loss": 1.0738, "step": 109 }, { "epoch": 0.005866666666666667, "grad_norm": 0.030597638921935663, "learning_rate": 0.0001, "loss": 1.1201, "step": 110 }, { "epoch": 0.00592, "grad_norm": 0.025224536725061118, "learning_rate": 0.0001, "loss": 1.0667, "step": 111 }, { "epoch": 0.005973333333333333, "grad_norm": 0.0321935508085268, "learning_rate": 0.0001, "loss": 1.071, "step": 112 }, { "epoch": 0.006026666666666666, "grad_norm": 0.027980799700585705, "learning_rate": 0.0001, "loss": 1.1006, "step": 113 }, { "epoch": 0.00608, "grad_norm": 0.03037305660606416, "learning_rate": 0.0001, "loss": 1.091, "step": 114 }, { "epoch": 0.0061333333333333335, "grad_norm": 0.023866879394773586, "learning_rate": 0.0001, "loss": 1.105, "step": 115 }, { "epoch": 0.006186666666666667, "grad_norm": 0.03248916000693501, "learning_rate": 0.0001, "loss": 1.0927, "step": 116 }, { "epoch": 0.00624, "grad_norm": 0.030583352782920434, "learning_rate": 0.0001, "loss": 1.0742, "step": 117 }, { "epoch": 0.006293333333333333, "grad_norm": 0.02600505865067891, "learning_rate": 0.0001, "loss": 1.0409, "step": 118 }, { "epoch": 0.006346666666666666, "grad_norm": 0.03210617414476007, "learning_rate": 0.0001, "loss": 1.022, "step": 119 }, { "epoch": 0.0064, "grad_norm": 0.026414605867270017, "learning_rate": 0.0001, "loss": 1.1234, "step": 120 }, { "epoch": 0.0064533333333333335, "grad_norm": 0.029831579361245805, "learning_rate": 0.0001, "loss": 1.1231, "step": 121 }, { "epoch": 0.006506666666666667, "grad_norm": 0.03903353067292734, "learning_rate": 0.0001, "loss": 1.1309, "step": 122 }, { "epoch": 0.00656, "grad_norm": 0.025073552110052105, "learning_rate": 0.0001, "loss": 1.1192, "step": 123 }, { "epoch": 0.006613333333333333, "grad_norm": 0.03884135633408205, "learning_rate": 0.0001, "loss": 1.1032, "step": 124 }, { "epoch": 0.006666666666666667, "grad_norm": 0.025911124270801084, "learning_rate": 0.0001, "loss": 1.1439, "step": 125 }, { "epoch": 0.00672, "grad_norm": 0.0411337863161015, "learning_rate": 0.0001, "loss": 1.0446, "step": 126 }, { "epoch": 0.0067733333333333335, "grad_norm": 0.028822101803103718, "learning_rate": 0.0001, "loss": 1.0794, "step": 127 }, { "epoch": 0.006826666666666667, "grad_norm": 0.030315384805135674, "learning_rate": 0.0001, "loss": 1.0087, "step": 128 }, { "epoch": 0.00688, "grad_norm": 0.02898101474669884, "learning_rate": 0.0001, "loss": 1.0669, "step": 129 }, { "epoch": 0.006933333333333333, "grad_norm": 0.030957894227308772, "learning_rate": 0.0001, "loss": 1.0257, "step": 130 }, { "epoch": 0.006986666666666667, "grad_norm": 0.028211613583629815, "learning_rate": 0.0001, "loss": 1.0686, "step": 131 }, { "epoch": 0.00704, "grad_norm": 0.03119816452688914, "learning_rate": 0.0001, "loss": 1.0768, "step": 132 }, { "epoch": 0.0070933333333333334, "grad_norm": 0.027015001492647513, "learning_rate": 0.0001, "loss": 1.0498, "step": 133 }, { "epoch": 0.007146666666666667, "grad_norm": 0.027416668668713742, "learning_rate": 0.0001, "loss": 1.0268, "step": 134 }, { "epoch": 0.0072, "grad_norm": 0.033612080287052704, "learning_rate": 0.0001, "loss": 1.0266, "step": 135 }, { "epoch": 0.007253333333333333, "grad_norm": 0.02847556645412267, "learning_rate": 0.0001, "loss": 1.0434, "step": 136 }, { "epoch": 0.007306666666666667, "grad_norm": 0.030942116760774373, "learning_rate": 0.0001, "loss": 1.1008, "step": 137 }, { "epoch": 0.00736, "grad_norm": 0.03937632453183713, "learning_rate": 0.0001, "loss": 1.0481, "step": 138 }, { "epoch": 0.007413333333333333, "grad_norm": 0.034978623142463375, "learning_rate": 0.0001, "loss": 1.1072, "step": 139 }, { "epoch": 0.007466666666666667, "grad_norm": 0.03295011953113239, "learning_rate": 0.0001, "loss": 1.1178, "step": 140 }, { "epoch": 0.00752, "grad_norm": 0.036305639130275257, "learning_rate": 0.0001, "loss": 1.0754, "step": 141 }, { "epoch": 0.007573333333333333, "grad_norm": 0.029533299062835094, "learning_rate": 0.0001, "loss": 1.1093, "step": 142 }, { "epoch": 0.007626666666666667, "grad_norm": 0.028700473652073708, "learning_rate": 0.0001, "loss": 1.0834, "step": 143 }, { "epoch": 0.00768, "grad_norm": 0.03449586335694953, "learning_rate": 0.0001, "loss": 1.0461, "step": 144 }, { "epoch": 0.007733333333333333, "grad_norm": 0.030621392049860134, "learning_rate": 0.0001, "loss": 1.0546, "step": 145 }, { "epoch": 0.0077866666666666666, "grad_norm": 0.030669253137562656, "learning_rate": 0.0001, "loss": 1.138, "step": 146 }, { "epoch": 0.00784, "grad_norm": 0.0326978961412198, "learning_rate": 0.0001, "loss": 1.0628, "step": 147 }, { "epoch": 0.007893333333333334, "grad_norm": 0.02595212462751761, "learning_rate": 0.0001, "loss": 1.0908, "step": 148 }, { "epoch": 0.007946666666666666, "grad_norm": 0.03054212089490085, "learning_rate": 0.0001, "loss": 1.0862, "step": 149 }, { "epoch": 0.008, "grad_norm": 0.02989665153550542, "learning_rate": 0.0001, "loss": 1.0437, "step": 150 }, { "epoch": 0.008053333333333332, "grad_norm": 0.03284186158764758, "learning_rate": 0.0001, "loss": 1.0438, "step": 151 }, { "epoch": 0.008106666666666667, "grad_norm": 0.026431410101557674, "learning_rate": 0.0001, "loss": 1.0513, "step": 152 }, { "epoch": 0.00816, "grad_norm": 0.03556175947247141, "learning_rate": 0.0001, "loss": 1.0672, "step": 153 }, { "epoch": 0.008213333333333333, "grad_norm": 0.03312777514368852, "learning_rate": 0.0001, "loss": 1.0631, "step": 154 }, { "epoch": 0.008266666666666667, "grad_norm": 0.034095158189905925, "learning_rate": 0.0001, "loss": 1.0788, "step": 155 }, { "epoch": 0.00832, "grad_norm": 0.029675226922119612, "learning_rate": 0.0001, "loss": 1.0646, "step": 156 }, { "epoch": 0.008373333333333333, "grad_norm": 0.029642245637533884, "learning_rate": 0.0001, "loss": 1.1023, "step": 157 }, { "epoch": 0.008426666666666667, "grad_norm": 0.0316882903580528, "learning_rate": 0.0001, "loss": 1.1032, "step": 158 }, { "epoch": 0.00848, "grad_norm": 0.030398811807450663, "learning_rate": 0.0001, "loss": 1.0158, "step": 159 }, { "epoch": 0.008533333333333334, "grad_norm": 0.028622241938623755, "learning_rate": 0.0001, "loss": 1.1911, "step": 160 }, { "epoch": 0.008586666666666666, "grad_norm": 0.030878425197920233, "learning_rate": 0.0001, "loss": 1.0674, "step": 161 }, { "epoch": 0.00864, "grad_norm": 0.030551687902506713, "learning_rate": 0.0001, "loss": 1.0529, "step": 162 }, { "epoch": 0.008693333333333334, "grad_norm": 0.02616507706190728, "learning_rate": 0.0001, "loss": 1.0764, "step": 163 }, { "epoch": 0.008746666666666666, "grad_norm": 0.03306618170823384, "learning_rate": 0.0001, "loss": 1.0315, "step": 164 }, { "epoch": 0.0088, "grad_norm": 0.030468090986927567, "learning_rate": 0.0001, "loss": 1.0901, "step": 165 }, { "epoch": 0.008853333333333333, "grad_norm": 0.030484937784253374, "learning_rate": 0.0001, "loss": 1.0994, "step": 166 }, { "epoch": 0.008906666666666667, "grad_norm": 0.02436297674078621, "learning_rate": 0.0001, "loss": 0.9992, "step": 167 }, { "epoch": 0.00896, "grad_norm": 0.029546291148058058, "learning_rate": 0.0001, "loss": 1.0618, "step": 168 }, { "epoch": 0.009013333333333333, "grad_norm": 0.027771428992338913, "learning_rate": 0.0001, "loss": 1.0679, "step": 169 }, { "epoch": 0.009066666666666667, "grad_norm": 0.02446932578340339, "learning_rate": 0.0001, "loss": 1.0693, "step": 170 }, { "epoch": 0.00912, "grad_norm": 0.025946328395637305, "learning_rate": 0.0001, "loss": 1.0664, "step": 171 }, { "epoch": 0.009173333333333334, "grad_norm": 0.025711044698923182, "learning_rate": 0.0001, "loss": 1.1023, "step": 172 }, { "epoch": 0.009226666666666666, "grad_norm": 0.02843683469636292, "learning_rate": 0.0001, "loss": 1.0664, "step": 173 }, { "epoch": 0.00928, "grad_norm": 0.028625066904893793, "learning_rate": 0.0001, "loss": 1.1065, "step": 174 }, { "epoch": 0.009333333333333334, "grad_norm": 0.026222597089346756, "learning_rate": 0.0001, "loss": 1.0928, "step": 175 }, { "epoch": 0.009386666666666666, "grad_norm": 0.030016093375412906, "learning_rate": 0.0001, "loss": 1.0091, "step": 176 }, { "epoch": 0.00944, "grad_norm": 0.026762861619253595, "learning_rate": 0.0001, "loss": 1.0982, "step": 177 }, { "epoch": 0.009493333333333333, "grad_norm": 0.02924314921734599, "learning_rate": 0.0001, "loss": 1.0529, "step": 178 }, { "epoch": 0.009546666666666667, "grad_norm": 0.03190498414770447, "learning_rate": 0.0001, "loss": 1.076, "step": 179 }, { "epoch": 0.0096, "grad_norm": 0.026313375645259457, "learning_rate": 0.0001, "loss": 1.0145, "step": 180 }, { "epoch": 0.009653333333333333, "grad_norm": 0.028387707678660303, "learning_rate": 0.0001, "loss": 1.1284, "step": 181 }, { "epoch": 0.009706666666666667, "grad_norm": 0.023473497175759403, "learning_rate": 0.0001, "loss": 1.1003, "step": 182 }, { "epoch": 0.00976, "grad_norm": 0.03027101342433051, "learning_rate": 0.0001, "loss": 1.0589, "step": 183 }, { "epoch": 0.009813333333333334, "grad_norm": 0.024727172011912026, "learning_rate": 0.0001, "loss": 1.0894, "step": 184 }, { "epoch": 0.009866666666666666, "grad_norm": 0.029937693082934983, "learning_rate": 0.0001, "loss": 1.0868, "step": 185 }, { "epoch": 0.00992, "grad_norm": 0.023075693331877877, "learning_rate": 0.0001, "loss": 1.0153, "step": 186 }, { "epoch": 0.009973333333333334, "grad_norm": 0.030530753457832613, "learning_rate": 0.0001, "loss": 1.0281, "step": 187 }, { "epoch": 0.010026666666666666, "grad_norm": 0.023823152503381035, "learning_rate": 0.0001, "loss": 1.0742, "step": 188 }, { "epoch": 0.01008, "grad_norm": 0.02865813717051232, "learning_rate": 0.0001, "loss": 1.0586, "step": 189 }, { "epoch": 0.010133333333333333, "grad_norm": 0.02409752713778315, "learning_rate": 0.0001, "loss": 1.1176, "step": 190 }, { "epoch": 0.010186666666666667, "grad_norm": 0.03136103252142913, "learning_rate": 0.0001, "loss": 1.0161, "step": 191 }, { "epoch": 0.01024, "grad_norm": 0.024976015498924982, "learning_rate": 0.0001, "loss": 1.0986, "step": 192 }, { "epoch": 0.010293333333333333, "grad_norm": 0.030268189210588402, "learning_rate": 0.0001, "loss": 1.0279, "step": 193 }, { "epoch": 0.010346666666666667, "grad_norm": 0.026081446558559367, "learning_rate": 0.0001, "loss": 1.0987, "step": 194 }, { "epoch": 0.0104, "grad_norm": 0.029272574892080832, "learning_rate": 0.0001, "loss": 1.1228, "step": 195 }, { "epoch": 0.010453333333333334, "grad_norm": 0.028444370366998047, "learning_rate": 0.0001, "loss": 1.0627, "step": 196 }, { "epoch": 0.010506666666666666, "grad_norm": 0.02871989966492329, "learning_rate": 0.0001, "loss": 1.0425, "step": 197 }, { "epoch": 0.01056, "grad_norm": 0.026683222419199053, "learning_rate": 0.0001, "loss": 1.0645, "step": 198 }, { "epoch": 0.010613333333333334, "grad_norm": 0.03102078373330611, "learning_rate": 0.0001, "loss": 1.0982, "step": 199 }, { "epoch": 0.010666666666666666, "grad_norm": 0.024925348589159332, "learning_rate": 0.0001, "loss": 1.0631, "step": 200 }, { "epoch": 0.010666666666666666, "eval_accuracy": 0.5994892765793127, "eval_loss": 1.4720326662063599, "eval_runtime": 64.0332, "eval_samples_per_second": 15.617, "eval_steps_per_second": 0.5, "step": 200 }, { "epoch": 0.01072, "grad_norm": 0.0316568442785842, "learning_rate": 0.0001, "loss": 1.0106, "step": 201 }, { "epoch": 0.010773333333333333, "grad_norm": 0.029488540862034826, "learning_rate": 0.0001, "loss": 1.0694, "step": 202 }, { "epoch": 0.010826666666666667, "grad_norm": 0.03270372948892288, "learning_rate": 0.0001, "loss": 1.1027, "step": 203 }, { "epoch": 0.01088, "grad_norm": 0.026249914459016466, "learning_rate": 0.0001, "loss": 1.006, "step": 204 }, { "epoch": 0.010933333333333333, "grad_norm": 0.036076515998888274, "learning_rate": 0.0001, "loss": 1.025, "step": 205 }, { "epoch": 0.010986666666666667, "grad_norm": 0.028660418517231483, "learning_rate": 0.0001, "loss": 1.0922, "step": 206 }, { "epoch": 0.01104, "grad_norm": 0.03464428925277351, "learning_rate": 0.0001, "loss": 1.0825, "step": 207 }, { "epoch": 0.011093333333333334, "grad_norm": 0.03499278386784176, "learning_rate": 0.0001, "loss": 1.0653, "step": 208 }, { "epoch": 0.011146666666666666, "grad_norm": 0.03455491380319108, "learning_rate": 0.0001, "loss": 1.1851, "step": 209 }, { "epoch": 0.0112, "grad_norm": 0.03556355607620968, "learning_rate": 0.0001, "loss": 1.1095, "step": 210 }, { "epoch": 0.011253333333333334, "grad_norm": 0.027996921018236753, "learning_rate": 0.0001, "loss": 1.0589, "step": 211 }, { "epoch": 0.011306666666666666, "grad_norm": 0.033919884475156446, "learning_rate": 0.0001, "loss": 1.151, "step": 212 }, { "epoch": 0.01136, "grad_norm": 0.03179790669262934, "learning_rate": 0.0001, "loss": 1.0438, "step": 213 }, { "epoch": 0.011413333333333333, "grad_norm": 0.034354530415734434, "learning_rate": 0.0001, "loss": 1.1146, "step": 214 }, { "epoch": 0.011466666666666667, "grad_norm": 0.03363381354597863, "learning_rate": 0.0001, "loss": 1.0434, "step": 215 }, { "epoch": 0.01152, "grad_norm": 0.027585856330821976, "learning_rate": 0.0001, "loss": 1.037, "step": 216 }, { "epoch": 0.011573333333333333, "grad_norm": 0.03687603187735977, "learning_rate": 0.0001, "loss": 1.1113, "step": 217 }, { "epoch": 0.011626666666666667, "grad_norm": 0.031044148398233003, "learning_rate": 0.0001, "loss": 1.0642, "step": 218 }, { "epoch": 0.01168, "grad_norm": 0.03764672380440334, "learning_rate": 0.0001, "loss": 1.0963, "step": 219 }, { "epoch": 0.011733333333333333, "grad_norm": 0.027914178328522027, "learning_rate": 0.0001, "loss": 1.0609, "step": 220 }, { "epoch": 0.011786666666666668, "grad_norm": 0.03951760149032919, "learning_rate": 0.0001, "loss": 1.1319, "step": 221 }, { "epoch": 0.01184, "grad_norm": 0.034632178742719816, "learning_rate": 0.0001, "loss": 1.0665, "step": 222 }, { "epoch": 0.011893333333333334, "grad_norm": 0.03145482034798728, "learning_rate": 0.0001, "loss": 1.1083, "step": 223 }, { "epoch": 0.011946666666666666, "grad_norm": 0.028622820086677346, "learning_rate": 0.0001, "loss": 1.106, "step": 224 }, { "epoch": 0.012, "grad_norm": 0.03713441908996785, "learning_rate": 0.0001, "loss": 1.1149, "step": 225 }, { "epoch": 0.012053333333333333, "grad_norm": 0.029442226710517116, "learning_rate": 0.0001, "loss": 1.1165, "step": 226 }, { "epoch": 0.012106666666666667, "grad_norm": 0.03983023301502642, "learning_rate": 0.0001, "loss": 1.0819, "step": 227 }, { "epoch": 0.01216, "grad_norm": 0.02871890963411655, "learning_rate": 0.0001, "loss": 1.0739, "step": 228 }, { "epoch": 0.012213333333333333, "grad_norm": 0.0339422135806941, "learning_rate": 0.0001, "loss": 1.0558, "step": 229 }, { "epoch": 0.012266666666666667, "grad_norm": 0.029295544671822406, "learning_rate": 0.0001, "loss": 1.1026, "step": 230 }, { "epoch": 0.01232, "grad_norm": 0.03117100028630677, "learning_rate": 0.0001, "loss": 1.0616, "step": 231 }, { "epoch": 0.012373333333333333, "grad_norm": 0.03272720116909769, "learning_rate": 0.0001, "loss": 1.0742, "step": 232 }, { "epoch": 0.012426666666666667, "grad_norm": 0.032903369710183934, "learning_rate": 0.0001, "loss": 1.0711, "step": 233 }, { "epoch": 0.01248, "grad_norm": 0.026522446346979263, "learning_rate": 0.0001, "loss": 1.0556, "step": 234 }, { "epoch": 0.012533333333333334, "grad_norm": 0.0313667578669662, "learning_rate": 0.0001, "loss": 1.0297, "step": 235 }, { "epoch": 0.012586666666666666, "grad_norm": 0.024441583614101686, "learning_rate": 0.0001, "loss": 1.0817, "step": 236 }, { "epoch": 0.01264, "grad_norm": 0.030687588030212466, "learning_rate": 0.0001, "loss": 1.0936, "step": 237 }, { "epoch": 0.012693333333333333, "grad_norm": 0.026725161148006413, "learning_rate": 0.0001, "loss": 1.0639, "step": 238 }, { "epoch": 0.012746666666666667, "grad_norm": 0.0341335664388797, "learning_rate": 0.0001, "loss": 1.0895, "step": 239 }, { "epoch": 0.0128, "grad_norm": 0.02556524501453891, "learning_rate": 0.0001, "loss": 1.0569, "step": 240 }, { "epoch": 0.012853333333333333, "grad_norm": 0.03266580181401952, "learning_rate": 0.0001, "loss": 1.0989, "step": 241 }, { "epoch": 0.012906666666666667, "grad_norm": 0.02420254561644533, "learning_rate": 0.0001, "loss": 1.0974, "step": 242 }, { "epoch": 0.01296, "grad_norm": 0.032663609242733156, "learning_rate": 0.0001, "loss": 1.1148, "step": 243 }, { "epoch": 0.013013333333333333, "grad_norm": 0.029372208748646, "learning_rate": 0.0001, "loss": 1.0483, "step": 244 }, { "epoch": 0.013066666666666667, "grad_norm": 0.032611033861686727, "learning_rate": 0.0001, "loss": 1.0317, "step": 245 }, { "epoch": 0.01312, "grad_norm": 0.028764390691977424, "learning_rate": 0.0001, "loss": 1.0649, "step": 246 }, { "epoch": 0.013173333333333334, "grad_norm": 0.02853643403071029, "learning_rate": 0.0001, "loss": 1.0095, "step": 247 }, { "epoch": 0.013226666666666666, "grad_norm": 0.026393256047266497, "learning_rate": 0.0001, "loss": 1.0928, "step": 248 }, { "epoch": 0.01328, "grad_norm": 0.030058717821202726, "learning_rate": 0.0001, "loss": 1.0409, "step": 249 }, { "epoch": 0.013333333333333334, "grad_norm": 0.025503126626144908, "learning_rate": 0.0001, "loss": 1.1051, "step": 250 }, { "epoch": 0.013386666666666667, "grad_norm": 0.03192773525242038, "learning_rate": 0.0001, "loss": 1.0981, "step": 251 }, { "epoch": 0.01344, "grad_norm": 0.03087365928002955, "learning_rate": 0.0001, "loss": 1.0939, "step": 252 }, { "epoch": 0.013493333333333333, "grad_norm": 0.027264835049182718, "learning_rate": 0.0001, "loss": 1.0273, "step": 253 }, { "epoch": 0.013546666666666667, "grad_norm": 0.03203806040322685, "learning_rate": 0.0001, "loss": 1.0834, "step": 254 }, { "epoch": 0.0136, "grad_norm": 0.028435121546608523, "learning_rate": 0.0001, "loss": 1.0842, "step": 255 }, { "epoch": 0.013653333333333333, "grad_norm": 0.02789540168079048, "learning_rate": 0.0001, "loss": 1.1021, "step": 256 }, { "epoch": 0.013706666666666667, "grad_norm": 0.03230653992990404, "learning_rate": 0.0001, "loss": 1.0357, "step": 257 }, { "epoch": 0.01376, "grad_norm": 0.02842524369187931, "learning_rate": 0.0001, "loss": 1.1362, "step": 258 }, { "epoch": 0.013813333333333334, "grad_norm": 0.03192343054835773, "learning_rate": 0.0001, "loss": 1.0945, "step": 259 }, { "epoch": 0.013866666666666666, "grad_norm": 0.028430943047898668, "learning_rate": 0.0001, "loss": 1.0657, "step": 260 }, { "epoch": 0.01392, "grad_norm": 0.027727809893507527, "learning_rate": 0.0001, "loss": 1.0347, "step": 261 }, { "epoch": 0.013973333333333334, "grad_norm": 0.028186279813022404, "learning_rate": 0.0001, "loss": 1.0301, "step": 262 }, { "epoch": 0.014026666666666666, "grad_norm": 0.03124689523487801, "learning_rate": 0.0001, "loss": 1.0251, "step": 263 }, { "epoch": 0.01408, "grad_norm": 0.027622431240190815, "learning_rate": 0.0001, "loss": 1.0704, "step": 264 }, { "epoch": 0.014133333333333333, "grad_norm": 0.02709341351532001, "learning_rate": 0.0001, "loss": 1.0939, "step": 265 }, { "epoch": 0.014186666666666667, "grad_norm": 0.027655100539760544, "learning_rate": 0.0001, "loss": 1.0873, "step": 266 }, { "epoch": 0.01424, "grad_norm": 0.026073125536718738, "learning_rate": 0.0001, "loss": 1.036, "step": 267 }, { "epoch": 0.014293333333333333, "grad_norm": 0.02758550868453682, "learning_rate": 0.0001, "loss": 1.0577, "step": 268 }, { "epoch": 0.014346666666666667, "grad_norm": 0.028454174421323895, "learning_rate": 0.0001, "loss": 1.0475, "step": 269 }, { "epoch": 0.0144, "grad_norm": 0.029867413981346007, "learning_rate": 0.0001, "loss": 1.1298, "step": 270 }, { "epoch": 0.014453333333333334, "grad_norm": 0.029986167180212155, "learning_rate": 0.0001, "loss": 1.1042, "step": 271 }, { "epoch": 0.014506666666666666, "grad_norm": 0.029757465367408323, "learning_rate": 0.0001, "loss": 1.0657, "step": 272 }, { "epoch": 0.01456, "grad_norm": 0.031816140547927925, "learning_rate": 0.0001, "loss": 1.1605, "step": 273 }, { "epoch": 0.014613333333333334, "grad_norm": 0.028829857830680077, "learning_rate": 0.0001, "loss": 1.0576, "step": 274 }, { "epoch": 0.014666666666666666, "grad_norm": 0.032753645427159854, "learning_rate": 0.0001, "loss": 1.0527, "step": 275 }, { "epoch": 0.01472, "grad_norm": 0.026395045026196336, "learning_rate": 0.0001, "loss": 1.1568, "step": 276 }, { "epoch": 0.014773333333333333, "grad_norm": 0.032515847673883186, "learning_rate": 0.0001, "loss": 0.9883, "step": 277 }, { "epoch": 0.014826666666666667, "grad_norm": 0.031092394270422992, "learning_rate": 0.0001, "loss": 1.0262, "step": 278 }, { "epoch": 0.01488, "grad_norm": 0.03200153316376056, "learning_rate": 0.0001, "loss": 1.017, "step": 279 }, { "epoch": 0.014933333333333333, "grad_norm": 0.03156614483660119, "learning_rate": 0.0001, "loss": 1.062, "step": 280 }, { "epoch": 0.014986666666666667, "grad_norm": 0.03422292317044305, "learning_rate": 0.0001, "loss": 1.1088, "step": 281 }, { "epoch": 0.01504, "grad_norm": 0.030615084871283046, "learning_rate": 0.0001, "loss": 1.0022, "step": 282 }, { "epoch": 0.015093333333333334, "grad_norm": 0.041856508510729126, "learning_rate": 0.0001, "loss": 1.028, "step": 283 }, { "epoch": 0.015146666666666666, "grad_norm": 0.030255434345494908, "learning_rate": 0.0001, "loss": 1.0536, "step": 284 }, { "epoch": 0.0152, "grad_norm": 0.047847076194265425, "learning_rate": 0.0001, "loss": 1.0148, "step": 285 }, { "epoch": 0.015253333333333334, "grad_norm": 0.029642002087216762, "learning_rate": 0.0001, "loss": 1.032, "step": 286 }, { "epoch": 0.015306666666666666, "grad_norm": 0.03884378012758909, "learning_rate": 0.0001, "loss": 1.068, "step": 287 }, { "epoch": 0.01536, "grad_norm": 0.035224974127389654, "learning_rate": 0.0001, "loss": 1.118, "step": 288 }, { "epoch": 0.015413333333333333, "grad_norm": 0.026067067449157006, "learning_rate": 0.0001, "loss": 1.0179, "step": 289 }, { "epoch": 0.015466666666666667, "grad_norm": 0.04154574080729332, "learning_rate": 0.0001, "loss": 1.0617, "step": 290 }, { "epoch": 0.01552, "grad_norm": 0.02922863155265625, "learning_rate": 0.0001, "loss": 1.0007, "step": 291 }, { "epoch": 0.015573333333333333, "grad_norm": 0.03759135682927236, "learning_rate": 0.0001, "loss": 1.1074, "step": 292 }, { "epoch": 0.015626666666666667, "grad_norm": 0.02768527333698743, "learning_rate": 0.0001, "loss": 1.0832, "step": 293 }, { "epoch": 0.01568, "grad_norm": 0.028540400069516168, "learning_rate": 0.0001, "loss": 1.0482, "step": 294 }, { "epoch": 0.015733333333333332, "grad_norm": 0.03785712025203911, "learning_rate": 0.0001, "loss": 1.0742, "step": 295 }, { "epoch": 0.015786666666666668, "grad_norm": 0.03056094132989058, "learning_rate": 0.0001, "loss": 1.0569, "step": 296 }, { "epoch": 0.01584, "grad_norm": 0.03159285738338081, "learning_rate": 0.0001, "loss": 1.0684, "step": 297 }, { "epoch": 0.015893333333333332, "grad_norm": 0.035974216268575804, "learning_rate": 0.0001, "loss": 1.0613, "step": 298 }, { "epoch": 0.015946666666666668, "grad_norm": 0.030947377010682443, "learning_rate": 0.0001, "loss": 1.1092, "step": 299 }, { "epoch": 0.016, "grad_norm": 0.033898563438806525, "learning_rate": 0.0001, "loss": 1.041, "step": 300 }, { "epoch": 0.016053333333333333, "grad_norm": 0.03292576051008011, "learning_rate": 0.0001, "loss": 1.0887, "step": 301 }, { "epoch": 0.016106666666666665, "grad_norm": 0.031749365812221826, "learning_rate": 0.0001, "loss": 1.0969, "step": 302 }, { "epoch": 0.01616, "grad_norm": 0.029785513340430385, "learning_rate": 0.0001, "loss": 1.055, "step": 303 }, { "epoch": 0.016213333333333333, "grad_norm": 0.031742247722212874, "learning_rate": 0.0001, "loss": 1.006, "step": 304 }, { "epoch": 0.016266666666666665, "grad_norm": 0.03134762620808533, "learning_rate": 0.0001, "loss": 1.0492, "step": 305 }, { "epoch": 0.01632, "grad_norm": 0.035003819557545446, "learning_rate": 0.0001, "loss": 1.0558, "step": 306 }, { "epoch": 0.016373333333333333, "grad_norm": 0.03296922340582736, "learning_rate": 0.0001, "loss": 1.0714, "step": 307 }, { "epoch": 0.016426666666666666, "grad_norm": 0.03117154954741794, "learning_rate": 0.0001, "loss": 1.057, "step": 308 }, { "epoch": 0.01648, "grad_norm": 0.029912372061067876, "learning_rate": 0.0001, "loss": 1.0732, "step": 309 }, { "epoch": 0.016533333333333334, "grad_norm": 0.04487232292890057, "learning_rate": 0.0001, "loss": 1.0216, "step": 310 }, { "epoch": 0.016586666666666666, "grad_norm": 0.03081273512723902, "learning_rate": 0.0001, "loss": 1.057, "step": 311 }, { "epoch": 0.01664, "grad_norm": 0.03281915569187027, "learning_rate": 0.0001, "loss": 1.0563, "step": 312 }, { "epoch": 0.016693333333333334, "grad_norm": 0.029292829792812388, "learning_rate": 0.0001, "loss": 1.0558, "step": 313 }, { "epoch": 0.016746666666666667, "grad_norm": 0.02977200434254926, "learning_rate": 0.0001, "loss": 1.0343, "step": 314 }, { "epoch": 0.0168, "grad_norm": 0.027179631564878907, "learning_rate": 0.0001, "loss": 0.9973, "step": 315 }, { "epoch": 0.016853333333333335, "grad_norm": 0.02707133743343452, "learning_rate": 0.0001, "loss": 0.985, "step": 316 }, { "epoch": 0.016906666666666667, "grad_norm": 0.027862420414370256, "learning_rate": 0.0001, "loss": 1.0784, "step": 317 }, { "epoch": 0.01696, "grad_norm": 0.024751619732911904, "learning_rate": 0.0001, "loss": 1.0739, "step": 318 }, { "epoch": 0.01701333333333333, "grad_norm": 0.031493765173030604, "learning_rate": 0.0001, "loss": 1.0446, "step": 319 }, { "epoch": 0.017066666666666667, "grad_norm": 0.028696386778704255, "learning_rate": 0.0001, "loss": 0.9795, "step": 320 }, { "epoch": 0.01712, "grad_norm": 0.03415118878092258, "learning_rate": 0.0001, "loss": 1.0772, "step": 321 }, { "epoch": 0.017173333333333332, "grad_norm": 0.02995010953902378, "learning_rate": 0.0001, "loss": 1.0159, "step": 322 }, { "epoch": 0.017226666666666668, "grad_norm": 0.03580808487326185, "learning_rate": 0.0001, "loss": 1.0612, "step": 323 }, { "epoch": 0.01728, "grad_norm": 0.03506423701369882, "learning_rate": 0.0001, "loss": 1.0595, "step": 324 }, { "epoch": 0.017333333333333333, "grad_norm": 0.03466479476243407, "learning_rate": 0.0001, "loss": 1.0502, "step": 325 }, { "epoch": 0.01738666666666667, "grad_norm": 0.03214391804179624, "learning_rate": 0.0001, "loss": 1.0812, "step": 326 }, { "epoch": 0.01744, "grad_norm": 0.028072159375967753, "learning_rate": 0.0001, "loss": 1.0963, "step": 327 }, { "epoch": 0.017493333333333333, "grad_norm": 0.031494434621519414, "learning_rate": 0.0001, "loss": 1.1078, "step": 328 }, { "epoch": 0.017546666666666665, "grad_norm": 0.031617913967152994, "learning_rate": 0.0001, "loss": 1.0441, "step": 329 }, { "epoch": 0.0176, "grad_norm": 0.0329875799682057, "learning_rate": 0.0001, "loss": 1.0439, "step": 330 }, { "epoch": 0.017653333333333333, "grad_norm": 0.029467640878076403, "learning_rate": 0.0001, "loss": 1.02, "step": 331 }, { "epoch": 0.017706666666666666, "grad_norm": 0.03052182121481663, "learning_rate": 0.0001, "loss": 1.0755, "step": 332 }, { "epoch": 0.01776, "grad_norm": 0.02559458807134852, "learning_rate": 0.0001, "loss": 1.0606, "step": 333 }, { "epoch": 0.017813333333333334, "grad_norm": 0.02703684933326687, "learning_rate": 0.0001, "loss": 1.0864, "step": 334 }, { "epoch": 0.017866666666666666, "grad_norm": 0.026753531972531313, "learning_rate": 0.0001, "loss": 1.0259, "step": 335 }, { "epoch": 0.01792, "grad_norm": 0.026916556699741197, "learning_rate": 0.0001, "loss": 1.075, "step": 336 }, { "epoch": 0.017973333333333334, "grad_norm": 0.025738137328926707, "learning_rate": 0.0001, "loss": 1.1118, "step": 337 }, { "epoch": 0.018026666666666667, "grad_norm": 0.02567237774910536, "learning_rate": 0.0001, "loss": 1.1171, "step": 338 }, { "epoch": 0.01808, "grad_norm": 0.026013833568443275, "learning_rate": 0.0001, "loss": 1.0911, "step": 339 }, { "epoch": 0.018133333333333335, "grad_norm": 0.027028788146671114, "learning_rate": 0.0001, "loss": 1.0504, "step": 340 }, { "epoch": 0.018186666666666667, "grad_norm": 0.023988082488905483, "learning_rate": 0.0001, "loss": 1.0436, "step": 341 }, { "epoch": 0.01824, "grad_norm": 0.026303446832233002, "learning_rate": 0.0001, "loss": 1.0461, "step": 342 }, { "epoch": 0.018293333333333335, "grad_norm": 0.02427904886173714, "learning_rate": 0.0001, "loss": 1.0531, "step": 343 }, { "epoch": 0.018346666666666667, "grad_norm": 0.023390434640162036, "learning_rate": 0.0001, "loss": 1.0632, "step": 344 }, { "epoch": 0.0184, "grad_norm": 0.028486247841189936, "learning_rate": 0.0001, "loss": 1.046, "step": 345 }, { "epoch": 0.018453333333333332, "grad_norm": 0.024377650723664605, "learning_rate": 0.0001, "loss": 1.0255, "step": 346 }, { "epoch": 0.018506666666666668, "grad_norm": 0.030887395887601296, "learning_rate": 0.0001, "loss": 1.0857, "step": 347 }, { "epoch": 0.01856, "grad_norm": 0.02674271547203887, "learning_rate": 0.0001, "loss": 1.0208, "step": 348 }, { "epoch": 0.018613333333333332, "grad_norm": 0.029958343257763205, "learning_rate": 0.0001, "loss": 1.0487, "step": 349 }, { "epoch": 0.018666666666666668, "grad_norm": 0.02721468036424237, "learning_rate": 0.0001, "loss": 1.0297, "step": 350 }, { "epoch": 0.01872, "grad_norm": 0.03041357064666306, "learning_rate": 0.0001, "loss": 1.0595, "step": 351 }, { "epoch": 0.018773333333333333, "grad_norm": 0.025530909097418928, "learning_rate": 0.0001, "loss": 0.9533, "step": 352 }, { "epoch": 0.018826666666666665, "grad_norm": 0.029046980447655, "learning_rate": 0.0001, "loss": 1.0412, "step": 353 }, { "epoch": 0.01888, "grad_norm": 0.02742225734624913, "learning_rate": 0.0001, "loss": 1.0527, "step": 354 }, { "epoch": 0.018933333333333333, "grad_norm": 0.02817214536206837, "learning_rate": 0.0001, "loss": 1.0794, "step": 355 }, { "epoch": 0.018986666666666666, "grad_norm": 0.028177786714841432, "learning_rate": 0.0001, "loss": 1.1266, "step": 356 }, { "epoch": 0.01904, "grad_norm": 0.036940352302188284, "learning_rate": 0.0001, "loss": 1.0354, "step": 357 }, { "epoch": 0.019093333333333334, "grad_norm": 0.02891213109646514, "learning_rate": 0.0001, "loss": 1.0301, "step": 358 }, { "epoch": 0.019146666666666666, "grad_norm": 0.035077638590988815, "learning_rate": 0.0001, "loss": 1.1065, "step": 359 }, { "epoch": 0.0192, "grad_norm": 0.027029906296890737, "learning_rate": 0.0001, "loss": 1.0932, "step": 360 }, { "epoch": 0.019253333333333334, "grad_norm": 0.028542269376271526, "learning_rate": 0.0001, "loss": 1.0999, "step": 361 }, { "epoch": 0.019306666666666666, "grad_norm": 0.03555033316971397, "learning_rate": 0.0001, "loss": 1.0551, "step": 362 }, { "epoch": 0.01936, "grad_norm": 0.02804863106584758, "learning_rate": 0.0001, "loss": 1.0604, "step": 363 }, { "epoch": 0.019413333333333335, "grad_norm": 0.03343706544181945, "learning_rate": 0.0001, "loss": 1.0714, "step": 364 }, { "epoch": 0.019466666666666667, "grad_norm": 0.03368558088032251, "learning_rate": 0.0001, "loss": 1.0638, "step": 365 }, { "epoch": 0.01952, "grad_norm": 0.030220655249612118, "learning_rate": 0.0001, "loss": 1.0467, "step": 366 }, { "epoch": 0.019573333333333335, "grad_norm": 0.029117713883176303, "learning_rate": 0.0001, "loss": 1.1224, "step": 367 }, { "epoch": 0.019626666666666667, "grad_norm": 0.031636676066211435, "learning_rate": 0.0001, "loss": 1.0971, "step": 368 }, { "epoch": 0.01968, "grad_norm": 0.025851792712128695, "learning_rate": 0.0001, "loss": 1.0808, "step": 369 }, { "epoch": 0.019733333333333332, "grad_norm": 0.027299446409118307, "learning_rate": 0.0001, "loss": 1.0784, "step": 370 }, { "epoch": 0.019786666666666668, "grad_norm": 0.028099557032940214, "learning_rate": 0.0001, "loss": 0.9995, "step": 371 }, { "epoch": 0.01984, "grad_norm": 0.026366419496810567, "learning_rate": 0.0001, "loss": 1.0425, "step": 372 }, { "epoch": 0.019893333333333332, "grad_norm": 0.025729039831486382, "learning_rate": 0.0001, "loss": 1.0516, "step": 373 }, { "epoch": 0.019946666666666668, "grad_norm": 0.02890713408278688, "learning_rate": 0.0001, "loss": 1.0055, "step": 374 }, { "epoch": 0.02, "grad_norm": 0.027887343477902646, "learning_rate": 0.0001, "loss": 1.0869, "step": 375 }, { "epoch": 0.020053333333333333, "grad_norm": 0.025907081160040965, "learning_rate": 0.0001, "loss": 1.0178, "step": 376 }, { "epoch": 0.020106666666666665, "grad_norm": 0.026435137519446417, "learning_rate": 0.0001, "loss": 1.0937, "step": 377 }, { "epoch": 0.02016, "grad_norm": 0.0253290870695598, "learning_rate": 0.0001, "loss": 1.031, "step": 378 }, { "epoch": 0.020213333333333333, "grad_norm": 0.026734068911816202, "learning_rate": 0.0001, "loss": 1.0576, "step": 379 }, { "epoch": 0.020266666666666665, "grad_norm": 0.03393577567452843, "learning_rate": 0.0001, "loss": 1.0591, "step": 380 }, { "epoch": 0.02032, "grad_norm": 0.02828326274802342, "learning_rate": 0.0001, "loss": 1.0517, "step": 381 }, { "epoch": 0.020373333333333334, "grad_norm": 0.02860485461026611, "learning_rate": 0.0001, "loss": 1.0674, "step": 382 }, { "epoch": 0.020426666666666666, "grad_norm": 0.026478529379975944, "learning_rate": 0.0001, "loss": 1.0941, "step": 383 }, { "epoch": 0.02048, "grad_norm": 0.027481746097079915, "learning_rate": 0.0001, "loss": 1.1043, "step": 384 }, { "epoch": 0.020533333333333334, "grad_norm": 0.027006969234312356, "learning_rate": 0.0001, "loss": 1.1279, "step": 385 }, { "epoch": 0.020586666666666666, "grad_norm": 0.028720064065126408, "learning_rate": 0.0001, "loss": 1.0274, "step": 386 }, { "epoch": 0.02064, "grad_norm": 0.027529008097351197, "learning_rate": 0.0001, "loss": 1.0253, "step": 387 }, { "epoch": 0.020693333333333334, "grad_norm": 0.03158791587970711, "learning_rate": 0.0001, "loss": 1.055, "step": 388 }, { "epoch": 0.020746666666666667, "grad_norm": 0.0291389379537766, "learning_rate": 0.0001, "loss": 1.022, "step": 389 }, { "epoch": 0.0208, "grad_norm": 0.026310647414075156, "learning_rate": 0.0001, "loss": 1.0406, "step": 390 }, { "epoch": 0.020853333333333335, "grad_norm": 0.029681993096700644, "learning_rate": 0.0001, "loss": 1.1108, "step": 391 }, { "epoch": 0.020906666666666667, "grad_norm": 0.026459941461558376, "learning_rate": 0.0001, "loss": 1.0914, "step": 392 }, { "epoch": 0.02096, "grad_norm": 0.026362412568191183, "learning_rate": 0.0001, "loss": 1.056, "step": 393 }, { "epoch": 0.021013333333333332, "grad_norm": 0.026093317445612677, "learning_rate": 0.0001, "loss": 1.0737, "step": 394 }, { "epoch": 0.021066666666666668, "grad_norm": 0.025638727214101386, "learning_rate": 0.0001, "loss": 1.0656, "step": 395 }, { "epoch": 0.02112, "grad_norm": 0.028232502494594188, "learning_rate": 0.0001, "loss": 0.9716, "step": 396 }, { "epoch": 0.021173333333333332, "grad_norm": 0.02906780589841371, "learning_rate": 0.0001, "loss": 1.0187, "step": 397 }, { "epoch": 0.021226666666666668, "grad_norm": 0.025717361098639903, "learning_rate": 0.0001, "loss": 1.058, "step": 398 }, { "epoch": 0.02128, "grad_norm": 0.02652830785176825, "learning_rate": 0.0001, "loss": 1.0539, "step": 399 }, { "epoch": 0.021333333333333333, "grad_norm": 0.025167052204156423, "learning_rate": 0.0001, "loss": 1.029, "step": 400 }, { "epoch": 0.021333333333333333, "eval_accuracy": 0.6031766972522907, "eval_loss": 1.4504541158676147, "eval_runtime": 62.3335, "eval_samples_per_second": 16.043, "eval_steps_per_second": 0.513, "step": 400 }, { "epoch": 0.021386666666666665, "grad_norm": 0.029053357525178344, "learning_rate": 0.0001, "loss": 1.0365, "step": 401 }, { "epoch": 0.02144, "grad_norm": 0.029474045819068078, "learning_rate": 0.0001, "loss": 1.0607, "step": 402 }, { "epoch": 0.021493333333333333, "grad_norm": 0.025678794455837924, "learning_rate": 0.0001, "loss": 1.0363, "step": 403 }, { "epoch": 0.021546666666666665, "grad_norm": 0.03227659639217607, "learning_rate": 0.0001, "loss": 1.0577, "step": 404 }, { "epoch": 0.0216, "grad_norm": 0.02884093933159816, "learning_rate": 0.0001, "loss": 1.0318, "step": 405 }, { "epoch": 0.021653333333333333, "grad_norm": 0.026513728040301318, "learning_rate": 0.0001, "loss": 1.07, "step": 406 }, { "epoch": 0.021706666666666666, "grad_norm": 0.030849289634637234, "learning_rate": 0.0001, "loss": 1.0563, "step": 407 }, { "epoch": 0.02176, "grad_norm": 0.03153134056187864, "learning_rate": 0.0001, "loss": 0.974, "step": 408 }, { "epoch": 0.021813333333333334, "grad_norm": 0.030167919251293484, "learning_rate": 0.0001, "loss": 1.0063, "step": 409 }, { "epoch": 0.021866666666666666, "grad_norm": 0.03779516349808776, "learning_rate": 0.0001, "loss": 1.0775, "step": 410 }, { "epoch": 0.02192, "grad_norm": 0.03487583611834528, "learning_rate": 0.0001, "loss": 1.0242, "step": 411 }, { "epoch": 0.021973333333333334, "grad_norm": 0.03340258412178405, "learning_rate": 0.0001, "loss": 1.007, "step": 412 }, { "epoch": 0.022026666666666667, "grad_norm": 0.02992368088330469, "learning_rate": 0.0001, "loss": 1.0288, "step": 413 }, { "epoch": 0.02208, "grad_norm": 0.028447780043733484, "learning_rate": 0.0001, "loss": 1.0049, "step": 414 }, { "epoch": 0.022133333333333335, "grad_norm": 0.03082770040515954, "learning_rate": 0.0001, "loss": 1.0824, "step": 415 }, { "epoch": 0.022186666666666667, "grad_norm": 0.03142775534057516, "learning_rate": 0.0001, "loss": 1.0175, "step": 416 }, { "epoch": 0.02224, "grad_norm": 0.03039707881525997, "learning_rate": 0.0001, "loss": 1.1004, "step": 417 }, { "epoch": 0.02229333333333333, "grad_norm": 0.035482902760430986, "learning_rate": 0.0001, "loss": 1.0629, "step": 418 }, { "epoch": 0.022346666666666667, "grad_norm": 0.0311600162316943, "learning_rate": 0.0001, "loss": 1.083, "step": 419 }, { "epoch": 0.0224, "grad_norm": 0.02598116713955271, "learning_rate": 0.0001, "loss": 1.0295, "step": 420 }, { "epoch": 0.022453333333333332, "grad_norm": 0.028539749918331213, "learning_rate": 0.0001, "loss": 1.1239, "step": 421 }, { "epoch": 0.022506666666666668, "grad_norm": 0.02794856360914057, "learning_rate": 0.0001, "loss": 1.0869, "step": 422 }, { "epoch": 0.02256, "grad_norm": 0.026963534370146734, "learning_rate": 0.0001, "loss": 1.0359, "step": 423 }, { "epoch": 0.022613333333333333, "grad_norm": 0.029060493516265676, "learning_rate": 0.0001, "loss": 1.0602, "step": 424 }, { "epoch": 0.02266666666666667, "grad_norm": 0.026189659354252996, "learning_rate": 0.0001, "loss": 1.0796, "step": 425 }, { "epoch": 0.02272, "grad_norm": 0.028693064238298812, "learning_rate": 0.0001, "loss": 1.0146, "step": 426 }, { "epoch": 0.022773333333333333, "grad_norm": 0.025348928366226316, "learning_rate": 0.0001, "loss": 1.0848, "step": 427 }, { "epoch": 0.022826666666666665, "grad_norm": 0.02885848930611813, "learning_rate": 0.0001, "loss": 1.0602, "step": 428 }, { "epoch": 0.02288, "grad_norm": 0.02629223229615296, "learning_rate": 0.0001, "loss": 1.03, "step": 429 }, { "epoch": 0.022933333333333333, "grad_norm": 0.027409049751057055, "learning_rate": 0.0001, "loss": 1.061, "step": 430 }, { "epoch": 0.022986666666666666, "grad_norm": 0.02780451142825781, "learning_rate": 0.0001, "loss": 1.0552, "step": 431 }, { "epoch": 0.02304, "grad_norm": 0.029522800413640884, "learning_rate": 0.0001, "loss": 1.0533, "step": 432 }, { "epoch": 0.023093333333333334, "grad_norm": 0.030455229875625784, "learning_rate": 0.0001, "loss": 1.0033, "step": 433 }, { "epoch": 0.023146666666666666, "grad_norm": 0.03173636241329264, "learning_rate": 0.0001, "loss": 1.0686, "step": 434 }, { "epoch": 0.0232, "grad_norm": 0.03168326600402686, "learning_rate": 0.0001, "loss": 1.0628, "step": 435 }, { "epoch": 0.023253333333333334, "grad_norm": 0.026215702129123965, "learning_rate": 0.0001, "loss": 1.0686, "step": 436 }, { "epoch": 0.023306666666666667, "grad_norm": 0.035464794520461466, "learning_rate": 0.0001, "loss": 1.0772, "step": 437 }, { "epoch": 0.02336, "grad_norm": 0.02855595177866171, "learning_rate": 0.0001, "loss": 1.098, "step": 438 }, { "epoch": 0.023413333333333335, "grad_norm": 0.04002437828765943, "learning_rate": 0.0001, "loss": 1.089, "step": 439 }, { "epoch": 0.023466666666666667, "grad_norm": 0.03585573294824762, "learning_rate": 0.0001, "loss": 1.0301, "step": 440 }, { "epoch": 0.02352, "grad_norm": 0.043418690636598985, "learning_rate": 0.0001, "loss": 1.0726, "step": 441 }, { "epoch": 0.023573333333333335, "grad_norm": 0.0290614894491396, "learning_rate": 0.0001, "loss": 1.0859, "step": 442 }, { "epoch": 0.023626666666666667, "grad_norm": 0.0290944822288765, "learning_rate": 0.0001, "loss": 1.126, "step": 443 }, { "epoch": 0.02368, "grad_norm": 0.030186607335437106, "learning_rate": 0.0001, "loss": 1.087, "step": 444 }, { "epoch": 0.023733333333333332, "grad_norm": 0.02814069752913434, "learning_rate": 0.0001, "loss": 1.0546, "step": 445 }, { "epoch": 0.023786666666666668, "grad_norm": 0.03233398519193545, "learning_rate": 0.0001, "loss": 1.0532, "step": 446 }, { "epoch": 0.02384, "grad_norm": 0.03063285078969354, "learning_rate": 0.0001, "loss": 1.0443, "step": 447 }, { "epoch": 0.023893333333333332, "grad_norm": 0.033114650713262056, "learning_rate": 0.0001, "loss": 1.0253, "step": 448 }, { "epoch": 0.023946666666666668, "grad_norm": 0.03491959026821597, "learning_rate": 0.0001, "loss": 1.0721, "step": 449 }, { "epoch": 0.024, "grad_norm": 0.026318486959858924, "learning_rate": 0.0001, "loss": 1.0659, "step": 450 }, { "epoch": 0.024053333333333333, "grad_norm": 0.04080394535435901, "learning_rate": 0.0001, "loss": 1.0095, "step": 451 }, { "epoch": 0.024106666666666665, "grad_norm": 0.03246981772136912, "learning_rate": 0.0001, "loss": 1.0795, "step": 452 }, { "epoch": 0.02416, "grad_norm": 0.03711499410275952, "learning_rate": 0.0001, "loss": 1.0494, "step": 453 }, { "epoch": 0.024213333333333333, "grad_norm": 0.03389334869976908, "learning_rate": 0.0001, "loss": 1.0487, "step": 454 }, { "epoch": 0.024266666666666666, "grad_norm": 0.03060692008215914, "learning_rate": 0.0001, "loss": 0.9845, "step": 455 }, { "epoch": 0.02432, "grad_norm": 0.03240637929991925, "learning_rate": 0.0001, "loss": 1.0729, "step": 456 }, { "epoch": 0.024373333333333334, "grad_norm": 0.03309869330586512, "learning_rate": 0.0001, "loss": 1.0077, "step": 457 }, { "epoch": 0.024426666666666666, "grad_norm": 0.029231242062182545, "learning_rate": 0.0001, "loss": 1.0936, "step": 458 }, { "epoch": 0.02448, "grad_norm": 0.035605870022303046, "learning_rate": 0.0001, "loss": 1.0339, "step": 459 }, { "epoch": 0.024533333333333334, "grad_norm": 0.032122017264580076, "learning_rate": 0.0001, "loss": 1.0432, "step": 460 }, { "epoch": 0.024586666666666666, "grad_norm": 0.03627076642877057, "learning_rate": 0.0001, "loss": 1.0836, "step": 461 }, { "epoch": 0.02464, "grad_norm": 0.02736588232960089, "learning_rate": 0.0001, "loss": 1.0424, "step": 462 }, { "epoch": 0.024693333333333334, "grad_norm": 0.032870392142688235, "learning_rate": 0.0001, "loss": 1.0666, "step": 463 }, { "epoch": 0.024746666666666667, "grad_norm": 0.02580065579028054, "learning_rate": 0.0001, "loss": 1.0515, "step": 464 }, { "epoch": 0.0248, "grad_norm": 0.030460139904030313, "learning_rate": 0.0001, "loss": 1.052, "step": 465 }, { "epoch": 0.024853333333333335, "grad_norm": 0.02737468320120218, "learning_rate": 0.0001, "loss": 0.9922, "step": 466 }, { "epoch": 0.024906666666666667, "grad_norm": 0.03475517154737565, "learning_rate": 0.0001, "loss": 1.0589, "step": 467 }, { "epoch": 0.02496, "grad_norm": 0.028928836775852042, "learning_rate": 0.0001, "loss": 1.0824, "step": 468 }, { "epoch": 0.025013333333333332, "grad_norm": 0.035307137381791795, "learning_rate": 0.0001, "loss": 0.9911, "step": 469 }, { "epoch": 0.025066666666666668, "grad_norm": 0.026823401948891615, "learning_rate": 0.0001, "loss": 1.0639, "step": 470 }, { "epoch": 0.02512, "grad_norm": 0.0357739238856504, "learning_rate": 0.0001, "loss": 1.063, "step": 471 }, { "epoch": 0.025173333333333332, "grad_norm": 0.02708876927708111, "learning_rate": 0.0001, "loss": 1.044, "step": 472 }, { "epoch": 0.025226666666666668, "grad_norm": 0.033064805821763264, "learning_rate": 0.0001, "loss": 1.0237, "step": 473 }, { "epoch": 0.02528, "grad_norm": 0.027573131632937994, "learning_rate": 0.0001, "loss": 0.9948, "step": 474 }, { "epoch": 0.025333333333333333, "grad_norm": 0.03168991555601376, "learning_rate": 0.0001, "loss": 1.0835, "step": 475 }, { "epoch": 0.025386666666666665, "grad_norm": 0.026789578605463115, "learning_rate": 0.0001, "loss": 1.054, "step": 476 }, { "epoch": 0.02544, "grad_norm": 0.029621588067924365, "learning_rate": 0.0001, "loss": 1.0663, "step": 477 }, { "epoch": 0.025493333333333333, "grad_norm": 0.0256933807176801, "learning_rate": 0.0001, "loss": 1.0868, "step": 478 }, { "epoch": 0.025546666666666665, "grad_norm": 0.031583332157905514, "learning_rate": 0.0001, "loss": 1.0984, "step": 479 }, { "epoch": 0.0256, "grad_norm": 0.028610464318737584, "learning_rate": 0.0001, "loss": 1.0159, "step": 480 }, { "epoch": 0.025653333333333334, "grad_norm": 0.03182093744252328, "learning_rate": 0.0001, "loss": 1.0765, "step": 481 }, { "epoch": 0.025706666666666666, "grad_norm": 0.027101991844817215, "learning_rate": 0.0001, "loss": 1.0466, "step": 482 }, { "epoch": 0.02576, "grad_norm": 0.03559697773609355, "learning_rate": 0.0001, "loss": 0.9895, "step": 483 }, { "epoch": 0.025813333333333334, "grad_norm": 0.029373287519758855, "learning_rate": 0.0001, "loss": 1.0795, "step": 484 }, { "epoch": 0.025866666666666666, "grad_norm": 0.030874499025079473, "learning_rate": 0.0001, "loss": 1.0496, "step": 485 }, { "epoch": 0.02592, "grad_norm": 0.03160479471651721, "learning_rate": 0.0001, "loss": 1.0135, "step": 486 }, { "epoch": 0.025973333333333334, "grad_norm": 0.03447887590022929, "learning_rate": 0.0001, "loss": 1.054, "step": 487 }, { "epoch": 0.026026666666666667, "grad_norm": 0.030774359975939802, "learning_rate": 0.0001, "loss": 1.0676, "step": 488 }, { "epoch": 0.02608, "grad_norm": 0.028798000478720626, "learning_rate": 0.0001, "loss": 1.0028, "step": 489 }, { "epoch": 0.026133333333333335, "grad_norm": 0.03390295207044085, "learning_rate": 0.0001, "loss": 1.0608, "step": 490 }, { "epoch": 0.026186666666666667, "grad_norm": 0.026205318620701235, "learning_rate": 0.0001, "loss": 1.0723, "step": 491 }, { "epoch": 0.02624, "grad_norm": 0.030382545007108054, "learning_rate": 0.0001, "loss": 1.0075, "step": 492 }, { "epoch": 0.026293333333333332, "grad_norm": 0.02632373090852729, "learning_rate": 0.0001, "loss": 1.016, "step": 493 }, { "epoch": 0.026346666666666668, "grad_norm": 0.034629311803308915, "learning_rate": 0.0001, "loss": 1.0849, "step": 494 }, { "epoch": 0.0264, "grad_norm": 0.02794974055789051, "learning_rate": 0.0001, "loss": 1.0658, "step": 495 }, { "epoch": 0.026453333333333332, "grad_norm": 0.034484018595900924, "learning_rate": 0.0001, "loss": 1.057, "step": 496 }, { "epoch": 0.026506666666666668, "grad_norm": 0.027226653491494283, "learning_rate": 0.0001, "loss": 1.0898, "step": 497 }, { "epoch": 0.02656, "grad_norm": 0.0366132176620981, "learning_rate": 0.0001, "loss": 0.9982, "step": 498 }, { "epoch": 0.026613333333333333, "grad_norm": 0.029198913488547064, "learning_rate": 0.0001, "loss": 1.018, "step": 499 }, { "epoch": 0.02666666666666667, "grad_norm": 0.03677223145835217, "learning_rate": 0.0001, "loss": 1.0794, "step": 500 }, { "epoch": 0.02672, "grad_norm": 0.02651990731901792, "learning_rate": 0.0001, "loss": 1.0962, "step": 501 }, { "epoch": 0.026773333333333333, "grad_norm": 0.03355077719282936, "learning_rate": 0.0001, "loss": 1.0907, "step": 502 }, { "epoch": 0.026826666666666665, "grad_norm": 0.02915868522934527, "learning_rate": 0.0001, "loss": 1.0684, "step": 503 }, { "epoch": 0.02688, "grad_norm": 0.030235182446328727, "learning_rate": 0.0001, "loss": 1.0726, "step": 504 }, { "epoch": 0.026933333333333333, "grad_norm": 0.032098510499524925, "learning_rate": 0.0001, "loss": 1.0403, "step": 505 }, { "epoch": 0.026986666666666666, "grad_norm": 0.029866292922145002, "learning_rate": 0.0001, "loss": 1.0198, "step": 506 }, { "epoch": 0.02704, "grad_norm": 0.03344940987833942, "learning_rate": 0.0001, "loss": 1.0245, "step": 507 }, { "epoch": 0.027093333333333334, "grad_norm": 0.032703648734689325, "learning_rate": 0.0001, "loss": 1.0319, "step": 508 }, { "epoch": 0.027146666666666666, "grad_norm": 0.030647095309253046, "learning_rate": 0.0001, "loss": 1.0015, "step": 509 }, { "epoch": 0.0272, "grad_norm": 0.03225772763011113, "learning_rate": 0.0001, "loss": 1.0099, "step": 510 }, { "epoch": 0.027253333333333334, "grad_norm": 0.026884104279355815, "learning_rate": 0.0001, "loss": 1.018, "step": 511 }, { "epoch": 0.027306666666666667, "grad_norm": 0.03559905848690804, "learning_rate": 0.0001, "loss": 1.047, "step": 512 }, { "epoch": 0.02736, "grad_norm": 0.025339288225932833, "learning_rate": 0.0001, "loss": 1.0192, "step": 513 }, { "epoch": 0.027413333333333335, "grad_norm": 0.02825279695243195, "learning_rate": 0.0001, "loss": 1.0188, "step": 514 }, { "epoch": 0.027466666666666667, "grad_norm": 0.027726730912414992, "learning_rate": 0.0001, "loss": 1.0139, "step": 515 }, { "epoch": 0.02752, "grad_norm": 0.027358196476371093, "learning_rate": 0.0001, "loss": 1.0217, "step": 516 }, { "epoch": 0.02757333333333333, "grad_norm": 0.025184591999536324, "learning_rate": 0.0001, "loss": 1.0667, "step": 517 }, { "epoch": 0.027626666666666667, "grad_norm": 0.028091983114919894, "learning_rate": 0.0001, "loss": 1.0539, "step": 518 }, { "epoch": 0.02768, "grad_norm": 0.025422931865888544, "learning_rate": 0.0001, "loss": 1.0582, "step": 519 }, { "epoch": 0.027733333333333332, "grad_norm": 0.027449346212440853, "learning_rate": 0.0001, "loss": 1.0463, "step": 520 }, { "epoch": 0.027786666666666668, "grad_norm": 0.0226677266044884, "learning_rate": 0.0001, "loss": 1.0547, "step": 521 }, { "epoch": 0.02784, "grad_norm": 0.029673940261652584, "learning_rate": 0.0001, "loss": 1.0175, "step": 522 }, { "epoch": 0.027893333333333332, "grad_norm": 0.026922235760732487, "learning_rate": 0.0001, "loss": 1.0505, "step": 523 }, { "epoch": 0.02794666666666667, "grad_norm": 0.025413857251451656, "learning_rate": 0.0001, "loss": 1.0449, "step": 524 }, { "epoch": 0.028, "grad_norm": 0.026132355495133704, "learning_rate": 0.0001, "loss": 0.9959, "step": 525 }, { "epoch": 0.028053333333333333, "grad_norm": 0.029086541686811053, "learning_rate": 0.0001, "loss": 1.0518, "step": 526 }, { "epoch": 0.028106666666666665, "grad_norm": 0.028055930897560945, "learning_rate": 0.0001, "loss": 1.0039, "step": 527 }, { "epoch": 0.02816, "grad_norm": 0.029840799240583228, "learning_rate": 0.0001, "loss": 0.9843, "step": 528 }, { "epoch": 0.028213333333333333, "grad_norm": 0.026251648807173542, "learning_rate": 0.0001, "loss": 1.0811, "step": 529 }, { "epoch": 0.028266666666666666, "grad_norm": 0.029243541996501757, "learning_rate": 0.0001, "loss": 1.0343, "step": 530 }, { "epoch": 0.02832, "grad_norm": 0.025780477919854453, "learning_rate": 0.0001, "loss": 1.0485, "step": 531 }, { "epoch": 0.028373333333333334, "grad_norm": 0.031714624601496204, "learning_rate": 0.0001, "loss": 1.0328, "step": 532 }, { "epoch": 0.028426666666666666, "grad_norm": 0.026892706111064008, "learning_rate": 0.0001, "loss": 0.9986, "step": 533 }, { "epoch": 0.02848, "grad_norm": 0.0335277111953333, "learning_rate": 0.0001, "loss": 1.0401, "step": 534 }, { "epoch": 0.028533333333333334, "grad_norm": 0.024376756145341696, "learning_rate": 0.0001, "loss": 1.0297, "step": 535 }, { "epoch": 0.028586666666666666, "grad_norm": 0.026528967455148288, "learning_rate": 0.0001, "loss": 1.0607, "step": 536 }, { "epoch": 0.02864, "grad_norm": 0.03104583148634439, "learning_rate": 0.0001, "loss": 1.0176, "step": 537 }, { "epoch": 0.028693333333333335, "grad_norm": 0.02563386891700496, "learning_rate": 0.0001, "loss": 0.9757, "step": 538 }, { "epoch": 0.028746666666666667, "grad_norm": 0.030424101368903257, "learning_rate": 0.0001, "loss": 1.0376, "step": 539 }, { "epoch": 0.0288, "grad_norm": 0.025122909052099962, "learning_rate": 0.0001, "loss": 1.018, "step": 540 }, { "epoch": 0.028853333333333335, "grad_norm": 0.027986777277271207, "learning_rate": 0.0001, "loss": 1.053, "step": 541 }, { "epoch": 0.028906666666666667, "grad_norm": 0.028366504481278976, "learning_rate": 0.0001, "loss": 1.08, "step": 542 }, { "epoch": 0.02896, "grad_norm": 0.02488252560475833, "learning_rate": 0.0001, "loss": 1.0569, "step": 543 }, { "epoch": 0.029013333333333332, "grad_norm": 0.02771674283303712, "learning_rate": 0.0001, "loss": 1.0876, "step": 544 }, { "epoch": 0.029066666666666668, "grad_norm": 0.023043430088074683, "learning_rate": 0.0001, "loss": 1.0617, "step": 545 }, { "epoch": 0.02912, "grad_norm": 0.026836814258446483, "learning_rate": 0.0001, "loss": 1.0553, "step": 546 }, { "epoch": 0.029173333333333332, "grad_norm": 0.02572272778382521, "learning_rate": 0.0001, "loss": 1.0499, "step": 547 }, { "epoch": 0.029226666666666668, "grad_norm": 0.024144153975780923, "learning_rate": 0.0001, "loss": 1.0697, "step": 548 }, { "epoch": 0.02928, "grad_norm": 0.024425685767587794, "learning_rate": 0.0001, "loss": 1.0005, "step": 549 }, { "epoch": 0.029333333333333333, "grad_norm": 0.024001550929373328, "learning_rate": 0.0001, "loss": 1.0064, "step": 550 }, { "epoch": 0.029386666666666665, "grad_norm": 0.02666933853610983, "learning_rate": 0.0001, "loss": 1.0129, "step": 551 }, { "epoch": 0.02944, "grad_norm": 0.02573731726673591, "learning_rate": 0.0001, "loss": 0.9938, "step": 552 }, { "epoch": 0.029493333333333333, "grad_norm": 0.02623993818553527, "learning_rate": 0.0001, "loss": 1.0389, "step": 553 }, { "epoch": 0.029546666666666666, "grad_norm": 0.02764017128615615, "learning_rate": 0.0001, "loss": 1.0165, "step": 554 }, { "epoch": 0.0296, "grad_norm": 0.02517507624746559, "learning_rate": 0.0001, "loss": 1.0142, "step": 555 }, { "epoch": 0.029653333333333334, "grad_norm": 0.028589097697550005, "learning_rate": 0.0001, "loss": 1.0486, "step": 556 }, { "epoch": 0.029706666666666666, "grad_norm": 0.030190744770913033, "learning_rate": 0.0001, "loss": 1.0213, "step": 557 }, { "epoch": 0.02976, "grad_norm": 0.027635184601247646, "learning_rate": 0.0001, "loss": 0.9842, "step": 558 }, { "epoch": 0.029813333333333334, "grad_norm": 0.030248276071141625, "learning_rate": 0.0001, "loss": 1.0615, "step": 559 }, { "epoch": 0.029866666666666666, "grad_norm": 0.03149026965789896, "learning_rate": 0.0001, "loss": 1.0091, "step": 560 }, { "epoch": 0.02992, "grad_norm": 0.026488963368527855, "learning_rate": 0.0001, "loss": 1.0393, "step": 561 }, { "epoch": 0.029973333333333334, "grad_norm": 0.03156056628715051, "learning_rate": 0.0001, "loss": 1.1064, "step": 562 }, { "epoch": 0.030026666666666667, "grad_norm": 0.026772923721642618, "learning_rate": 0.0001, "loss": 1.033, "step": 563 }, { "epoch": 0.03008, "grad_norm": 0.038827517285053986, "learning_rate": 0.0001, "loss": 1.0524, "step": 564 }, { "epoch": 0.030133333333333335, "grad_norm": 0.028417039583703018, "learning_rate": 0.0001, "loss": 1.0513, "step": 565 }, { "epoch": 0.030186666666666667, "grad_norm": 0.029024640825169812, "learning_rate": 0.0001, "loss": 1.0434, "step": 566 }, { "epoch": 0.03024, "grad_norm": 0.030815764401784105, "learning_rate": 0.0001, "loss": 1.0591, "step": 567 }, { "epoch": 0.030293333333333332, "grad_norm": 0.032176126369767806, "learning_rate": 0.0001, "loss": 1.0488, "step": 568 }, { "epoch": 0.030346666666666668, "grad_norm": 0.03548818342529221, "learning_rate": 0.0001, "loss": 1.0562, "step": 569 }, { "epoch": 0.0304, "grad_norm": 0.03152919410060147, "learning_rate": 0.0001, "loss": 1.0424, "step": 570 }, { "epoch": 0.030453333333333332, "grad_norm": 0.029509791077301034, "learning_rate": 0.0001, "loss": 1.0722, "step": 571 }, { "epoch": 0.030506666666666668, "grad_norm": 0.03177426421126197, "learning_rate": 0.0001, "loss": 1.0537, "step": 572 }, { "epoch": 0.03056, "grad_norm": 0.03140684345863599, "learning_rate": 0.0001, "loss": 1.0362, "step": 573 }, { "epoch": 0.030613333333333333, "grad_norm": 0.028387595365111578, "learning_rate": 0.0001, "loss": 1.0314, "step": 574 }, { "epoch": 0.030666666666666665, "grad_norm": 0.03550348870504331, "learning_rate": 0.0001, "loss": 1.0671, "step": 575 }, { "epoch": 0.03072, "grad_norm": 0.02860428962580057, "learning_rate": 0.0001, "loss": 1.0227, "step": 576 }, { "epoch": 0.030773333333333333, "grad_norm": 0.032033012137331396, "learning_rate": 0.0001, "loss": 1.0261, "step": 577 }, { "epoch": 0.030826666666666665, "grad_norm": 0.028652449871259623, "learning_rate": 0.0001, "loss": 1.0307, "step": 578 }, { "epoch": 0.03088, "grad_norm": 0.036854493411152246, "learning_rate": 0.0001, "loss": 1.0941, "step": 579 }, { "epoch": 0.030933333333333334, "grad_norm": 0.03144872596853934, "learning_rate": 0.0001, "loss": 1.0704, "step": 580 }, { "epoch": 0.030986666666666666, "grad_norm": 0.032146801934203724, "learning_rate": 0.0001, "loss": 1.067, "step": 581 }, { "epoch": 0.03104, "grad_norm": 0.02872348390190022, "learning_rate": 0.0001, "loss": 1.031, "step": 582 }, { "epoch": 0.031093333333333334, "grad_norm": 0.036941293121842654, "learning_rate": 0.0001, "loss": 1.06, "step": 583 }, { "epoch": 0.031146666666666666, "grad_norm": 0.028896635015294977, "learning_rate": 0.0001, "loss": 0.9874, "step": 584 }, { "epoch": 0.0312, "grad_norm": 0.032509037386965825, "learning_rate": 0.0001, "loss": 1.0308, "step": 585 }, { "epoch": 0.031253333333333334, "grad_norm": 0.026783272691399063, "learning_rate": 0.0001, "loss": 1.073, "step": 586 }, { "epoch": 0.03130666666666666, "grad_norm": 0.028201980116136813, "learning_rate": 0.0001, "loss": 1.0063, "step": 587 }, { "epoch": 0.03136, "grad_norm": 0.031472833110860174, "learning_rate": 0.0001, "loss": 1.0424, "step": 588 }, { "epoch": 0.031413333333333335, "grad_norm": 0.02561743775327991, "learning_rate": 0.0001, "loss": 1.1446, "step": 589 }, { "epoch": 0.031466666666666664, "grad_norm": 0.02857336989244412, "learning_rate": 0.0001, "loss": 1.0459, "step": 590 }, { "epoch": 0.03152, "grad_norm": 0.033339459213100914, "learning_rate": 0.0001, "loss": 1.0623, "step": 591 }, { "epoch": 0.031573333333333335, "grad_norm": 0.02520360108681762, "learning_rate": 0.0001, "loss": 1.0483, "step": 592 }, { "epoch": 0.031626666666666664, "grad_norm": 0.02966068583757507, "learning_rate": 0.0001, "loss": 1.0643, "step": 593 }, { "epoch": 0.03168, "grad_norm": 0.03104121529036495, "learning_rate": 0.0001, "loss": 1.0218, "step": 594 }, { "epoch": 0.031733333333333336, "grad_norm": 0.027301957706175103, "learning_rate": 0.0001, "loss": 1.0745, "step": 595 }, { "epoch": 0.031786666666666664, "grad_norm": 0.03488774725506519, "learning_rate": 0.0001, "loss": 1.0146, "step": 596 }, { "epoch": 0.03184, "grad_norm": 0.02707810299028643, "learning_rate": 0.0001, "loss": 1.0507, "step": 597 }, { "epoch": 0.031893333333333336, "grad_norm": 0.0322932263549692, "learning_rate": 0.0001, "loss": 1.0611, "step": 598 }, { "epoch": 0.031946666666666665, "grad_norm": 0.02787814023638413, "learning_rate": 0.0001, "loss": 1.0391, "step": 599 }, { "epoch": 0.032, "grad_norm": 0.029467224734742736, "learning_rate": 0.0001, "loss": 1.05, "step": 600 }, { "epoch": 0.032, "eval_accuracy": 0.6054293540235649, "eval_loss": 1.4374525547027588, "eval_runtime": 62.0912, "eval_samples_per_second": 16.105, "eval_steps_per_second": 0.515, "step": 600 }, { "epoch": 0.032053333333333336, "grad_norm": 0.029442314704859494, "learning_rate": 0.0001, "loss": 0.9308, "step": 601 }, { "epoch": 0.032106666666666665, "grad_norm": 0.0315822861964183, "learning_rate": 0.0001, "loss": 1.0444, "step": 602 }, { "epoch": 0.03216, "grad_norm": 0.031044050460379495, "learning_rate": 0.0001, "loss": 1.0511, "step": 603 }, { "epoch": 0.03221333333333333, "grad_norm": 0.0320737073739536, "learning_rate": 0.0001, "loss": 1.0392, "step": 604 }, { "epoch": 0.032266666666666666, "grad_norm": 0.03116399409367164, "learning_rate": 0.0001, "loss": 1.0641, "step": 605 }, { "epoch": 0.03232, "grad_norm": 0.02902664089507814, "learning_rate": 0.0001, "loss": 1.0822, "step": 606 }, { "epoch": 0.03237333333333333, "grad_norm": 0.02743228317735314, "learning_rate": 0.0001, "loss": 1.0677, "step": 607 }, { "epoch": 0.032426666666666666, "grad_norm": 0.03049060377227915, "learning_rate": 0.0001, "loss": 1.0886, "step": 608 }, { "epoch": 0.03248, "grad_norm": 0.030620285970369036, "learning_rate": 0.0001, "loss": 1.0321, "step": 609 }, { "epoch": 0.03253333333333333, "grad_norm": 0.027453568346793748, "learning_rate": 0.0001, "loss": 1.0329, "step": 610 }, { "epoch": 0.03258666666666667, "grad_norm": 0.028622317641376696, "learning_rate": 0.0001, "loss": 1.0837, "step": 611 }, { "epoch": 0.03264, "grad_norm": 0.029710954031531907, "learning_rate": 0.0001, "loss": 1.0775, "step": 612 }, { "epoch": 0.03269333333333333, "grad_norm": 0.026041232029131906, "learning_rate": 0.0001, "loss": 1.0413, "step": 613 }, { "epoch": 0.03274666666666667, "grad_norm": 0.03082650346920606, "learning_rate": 0.0001, "loss": 1.0645, "step": 614 }, { "epoch": 0.0328, "grad_norm": 0.025642962998964396, "learning_rate": 0.0001, "loss": 1.0948, "step": 615 }, { "epoch": 0.03285333333333333, "grad_norm": 0.026592884166059358, "learning_rate": 0.0001, "loss": 1.111, "step": 616 }, { "epoch": 0.03290666666666667, "grad_norm": 0.026511958477497, "learning_rate": 0.0001, "loss": 1.0177, "step": 617 }, { "epoch": 0.03296, "grad_norm": 0.02994628486890638, "learning_rate": 0.0001, "loss": 1.077, "step": 618 }, { "epoch": 0.03301333333333333, "grad_norm": 0.028691406228624348, "learning_rate": 0.0001, "loss": 1.0785, "step": 619 }, { "epoch": 0.03306666666666667, "grad_norm": 0.025828833086042266, "learning_rate": 0.0001, "loss": 1.0481, "step": 620 }, { "epoch": 0.03312, "grad_norm": 0.026737514314920413, "learning_rate": 0.0001, "loss": 1.1035, "step": 621 }, { "epoch": 0.03317333333333333, "grad_norm": 0.029197476259429336, "learning_rate": 0.0001, "loss": 1.0676, "step": 622 }, { "epoch": 0.03322666666666667, "grad_norm": 0.024648165353941858, "learning_rate": 0.0001, "loss": 1.1104, "step": 623 }, { "epoch": 0.03328, "grad_norm": 0.030263619862331045, "learning_rate": 0.0001, "loss": 1.1207, "step": 624 }, { "epoch": 0.03333333333333333, "grad_norm": 0.029513683866545768, "learning_rate": 0.0001, "loss": 0.9784, "step": 625 }, { "epoch": 0.03338666666666667, "grad_norm": 0.027830298720054186, "learning_rate": 0.0001, "loss": 0.9893, "step": 626 }, { "epoch": 0.03344, "grad_norm": 0.029741220158497214, "learning_rate": 0.0001, "loss": 1.0318, "step": 627 }, { "epoch": 0.03349333333333333, "grad_norm": 0.029649247016086167, "learning_rate": 0.0001, "loss": 1.0562, "step": 628 }, { "epoch": 0.03354666666666667, "grad_norm": 0.029771957066470067, "learning_rate": 0.0001, "loss": 1.0399, "step": 629 }, { "epoch": 0.0336, "grad_norm": 0.02524012296167611, "learning_rate": 0.0001, "loss": 1.0232, "step": 630 }, { "epoch": 0.033653333333333334, "grad_norm": 0.0253636486784129, "learning_rate": 0.0001, "loss": 1.0719, "step": 631 }, { "epoch": 0.03370666666666667, "grad_norm": 0.0301207519450283, "learning_rate": 0.0001, "loss": 0.9763, "step": 632 }, { "epoch": 0.03376, "grad_norm": 0.025200984519095006, "learning_rate": 0.0001, "loss": 1.0939, "step": 633 }, { "epoch": 0.033813333333333334, "grad_norm": 0.026202270849513667, "learning_rate": 0.0001, "loss": 1.0581, "step": 634 }, { "epoch": 0.03386666666666667, "grad_norm": 0.02718622752986432, "learning_rate": 0.0001, "loss": 1.0553, "step": 635 }, { "epoch": 0.03392, "grad_norm": 0.02847223530413084, "learning_rate": 0.0001, "loss": 1.0308, "step": 636 }, { "epoch": 0.033973333333333335, "grad_norm": 0.028141133249394403, "learning_rate": 0.0001, "loss": 1.0333, "step": 637 }, { "epoch": 0.03402666666666666, "grad_norm": 0.027803697109497857, "learning_rate": 0.0001, "loss": 1.0076, "step": 638 }, { "epoch": 0.03408, "grad_norm": 0.025860133228893974, "learning_rate": 0.0001, "loss": 1.0478, "step": 639 }, { "epoch": 0.034133333333333335, "grad_norm": 0.02624092268602613, "learning_rate": 0.0001, "loss": 1.0561, "step": 640 }, { "epoch": 0.034186666666666664, "grad_norm": 0.02830680761297857, "learning_rate": 0.0001, "loss": 1.0813, "step": 641 }, { "epoch": 0.03424, "grad_norm": 0.027440795752189422, "learning_rate": 0.0001, "loss": 1.0709, "step": 642 }, { "epoch": 0.034293333333333335, "grad_norm": 0.02842495697281179, "learning_rate": 0.0001, "loss": 1.0398, "step": 643 }, { "epoch": 0.034346666666666664, "grad_norm": 0.026877087653101168, "learning_rate": 0.0001, "loss": 1.0394, "step": 644 }, { "epoch": 0.0344, "grad_norm": 0.031291205618477376, "learning_rate": 0.0001, "loss": 1.0514, "step": 645 }, { "epoch": 0.034453333333333336, "grad_norm": 0.027220769170152172, "learning_rate": 0.0001, "loss": 1.0075, "step": 646 }, { "epoch": 0.034506666666666665, "grad_norm": 0.034450347058666515, "learning_rate": 0.0001, "loss": 1.0253, "step": 647 }, { "epoch": 0.03456, "grad_norm": 0.02474358421090832, "learning_rate": 0.0001, "loss": 1.0122, "step": 648 }, { "epoch": 0.034613333333333336, "grad_norm": 0.02852515746927132, "learning_rate": 0.0001, "loss": 1.0422, "step": 649 }, { "epoch": 0.034666666666666665, "grad_norm": 0.02806506063075934, "learning_rate": 0.0001, "loss": 1.0501, "step": 650 }, { "epoch": 0.03472, "grad_norm": 0.030041188129474285, "learning_rate": 0.0001, "loss": 1.0629, "step": 651 }, { "epoch": 0.03477333333333334, "grad_norm": 0.027421503437624027, "learning_rate": 0.0001, "loss": 1.0566, "step": 652 }, { "epoch": 0.034826666666666665, "grad_norm": 0.03307946742691569, "learning_rate": 0.0001, "loss": 1.0523, "step": 653 }, { "epoch": 0.03488, "grad_norm": 0.024415846045076517, "learning_rate": 0.0001, "loss": 0.9848, "step": 654 }, { "epoch": 0.03493333333333333, "grad_norm": 0.03138882184583716, "learning_rate": 0.0001, "loss": 1.0631, "step": 655 }, { "epoch": 0.034986666666666666, "grad_norm": 0.026448367364929868, "learning_rate": 0.0001, "loss": 1.0205, "step": 656 }, { "epoch": 0.03504, "grad_norm": 0.029342221583600215, "learning_rate": 0.0001, "loss": 1.0385, "step": 657 }, { "epoch": 0.03509333333333333, "grad_norm": 0.03038647314125687, "learning_rate": 0.0001, "loss": 0.9936, "step": 658 }, { "epoch": 0.035146666666666666, "grad_norm": 0.02775980593405033, "learning_rate": 0.0001, "loss": 1.0693, "step": 659 }, { "epoch": 0.0352, "grad_norm": 0.026088659147883955, "learning_rate": 0.0001, "loss": 1.0413, "step": 660 }, { "epoch": 0.03525333333333333, "grad_norm": 0.029625559678343332, "learning_rate": 0.0001, "loss": 1.0629, "step": 661 }, { "epoch": 0.03530666666666667, "grad_norm": 0.027313788130980413, "learning_rate": 0.0001, "loss": 1.0392, "step": 662 }, { "epoch": 0.03536, "grad_norm": 0.03331499740465693, "learning_rate": 0.0001, "loss": 1.0229, "step": 663 }, { "epoch": 0.03541333333333333, "grad_norm": 0.030514783497164282, "learning_rate": 0.0001, "loss": 1.023, "step": 664 }, { "epoch": 0.03546666666666667, "grad_norm": 0.02713831987788137, "learning_rate": 0.0001, "loss": 1.0345, "step": 665 }, { "epoch": 0.03552, "grad_norm": 0.029875217710297927, "learning_rate": 0.0001, "loss": 1.0473, "step": 666 }, { "epoch": 0.03557333333333333, "grad_norm": 0.026468342889627728, "learning_rate": 0.0001, "loss": 1.015, "step": 667 }, { "epoch": 0.03562666666666667, "grad_norm": 0.02919312996312141, "learning_rate": 0.0001, "loss": 0.9788, "step": 668 }, { "epoch": 0.03568, "grad_norm": 0.030901880152681808, "learning_rate": 0.0001, "loss": 1.0289, "step": 669 }, { "epoch": 0.03573333333333333, "grad_norm": 0.027031590786473124, "learning_rate": 0.0001, "loss": 1.0425, "step": 670 }, { "epoch": 0.03578666666666667, "grad_norm": 0.029739424686526857, "learning_rate": 0.0001, "loss": 1.0814, "step": 671 }, { "epoch": 0.03584, "grad_norm": 0.03133699636596671, "learning_rate": 0.0001, "loss": 1.0278, "step": 672 }, { "epoch": 0.03589333333333333, "grad_norm": 0.025661635645964066, "learning_rate": 0.0001, "loss": 1.1161, "step": 673 }, { "epoch": 0.03594666666666667, "grad_norm": 0.033243356210014646, "learning_rate": 0.0001, "loss": 1.0207, "step": 674 }, { "epoch": 0.036, "grad_norm": 0.02651931561965799, "learning_rate": 0.0001, "loss": 1.016, "step": 675 }, { "epoch": 0.03605333333333333, "grad_norm": 0.030756323518494756, "learning_rate": 0.0001, "loss": 1.0485, "step": 676 }, { "epoch": 0.03610666666666667, "grad_norm": 0.029870545925031324, "learning_rate": 0.0001, "loss": 1.1165, "step": 677 }, { "epoch": 0.03616, "grad_norm": 0.0265488035721901, "learning_rate": 0.0001, "loss": 1.009, "step": 678 }, { "epoch": 0.036213333333333333, "grad_norm": 0.03185938576378988, "learning_rate": 0.0001, "loss": 1.0203, "step": 679 }, { "epoch": 0.03626666666666667, "grad_norm": 0.02917796576032436, "learning_rate": 0.0001, "loss": 1.0119, "step": 680 }, { "epoch": 0.03632, "grad_norm": 0.02810637908954052, "learning_rate": 0.0001, "loss": 1.0324, "step": 681 }, { "epoch": 0.036373333333333334, "grad_norm": 0.03404403242385817, "learning_rate": 0.0001, "loss": 1.0048, "step": 682 }, { "epoch": 0.03642666666666667, "grad_norm": 0.02651473722355262, "learning_rate": 0.0001, "loss": 1.0131, "step": 683 }, { "epoch": 0.03648, "grad_norm": 0.03317655777753852, "learning_rate": 0.0001, "loss": 1.0005, "step": 684 }, { "epoch": 0.036533333333333334, "grad_norm": 0.026765529601745244, "learning_rate": 0.0001, "loss": 1.0301, "step": 685 }, { "epoch": 0.03658666666666667, "grad_norm": 0.03337148184797978, "learning_rate": 0.0001, "loss": 1.1005, "step": 686 }, { "epoch": 0.03664, "grad_norm": 0.02819962056557692, "learning_rate": 0.0001, "loss": 1.0758, "step": 687 }, { "epoch": 0.036693333333333335, "grad_norm": 0.03210247987681375, "learning_rate": 0.0001, "loss": 1.0187, "step": 688 }, { "epoch": 0.036746666666666664, "grad_norm": 0.03232827308693877, "learning_rate": 0.0001, "loss": 1.0325, "step": 689 }, { "epoch": 0.0368, "grad_norm": 0.03446768596225845, "learning_rate": 0.0001, "loss": 1.03, "step": 690 }, { "epoch": 0.036853333333333335, "grad_norm": 0.026897559503242113, "learning_rate": 0.0001, "loss": 1.0475, "step": 691 }, { "epoch": 0.036906666666666664, "grad_norm": 0.029446631318678595, "learning_rate": 0.0001, "loss": 1.0477, "step": 692 }, { "epoch": 0.03696, "grad_norm": 0.032762331751153534, "learning_rate": 0.0001, "loss": 1.0197, "step": 693 }, { "epoch": 0.037013333333333336, "grad_norm": 0.0281957658742352, "learning_rate": 0.0001, "loss": 1.0158, "step": 694 }, { "epoch": 0.037066666666666664, "grad_norm": 0.02724850861016724, "learning_rate": 0.0001, "loss": 1.0016, "step": 695 }, { "epoch": 0.03712, "grad_norm": 0.023148234203756595, "learning_rate": 0.0001, "loss": 0.9617, "step": 696 }, { "epoch": 0.037173333333333336, "grad_norm": 0.02438329862235821, "learning_rate": 0.0001, "loss": 1.0901, "step": 697 }, { "epoch": 0.037226666666666665, "grad_norm": 0.029746514340246336, "learning_rate": 0.0001, "loss": 1.1037, "step": 698 }, { "epoch": 0.03728, "grad_norm": 0.02460138737361887, "learning_rate": 0.0001, "loss": 1.0174, "step": 699 }, { "epoch": 0.037333333333333336, "grad_norm": 0.028136426250659978, "learning_rate": 0.0001, "loss": 1.0767, "step": 700 }, { "epoch": 0.037386666666666665, "grad_norm": 0.02593148419061818, "learning_rate": 0.0001, "loss": 1.0616, "step": 701 }, { "epoch": 0.03744, "grad_norm": 0.03229869015677275, "learning_rate": 0.0001, "loss": 1.1232, "step": 702 }, { "epoch": 0.03749333333333333, "grad_norm": 0.0272899279506961, "learning_rate": 0.0001, "loss": 1.0561, "step": 703 }, { "epoch": 0.037546666666666666, "grad_norm": 0.031003158476783026, "learning_rate": 0.0001, "loss": 1.0549, "step": 704 }, { "epoch": 0.0376, "grad_norm": 0.029569893252869125, "learning_rate": 0.0001, "loss": 1.0332, "step": 705 }, { "epoch": 0.03765333333333333, "grad_norm": 0.029938159923103624, "learning_rate": 0.0001, "loss": 1.046, "step": 706 }, { "epoch": 0.037706666666666666, "grad_norm": 0.02600762378192995, "learning_rate": 0.0001, "loss": 1.0764, "step": 707 }, { "epoch": 0.03776, "grad_norm": 0.028209872030893854, "learning_rate": 0.0001, "loss": 1.0324, "step": 708 }, { "epoch": 0.03781333333333333, "grad_norm": 0.024802092602009492, "learning_rate": 0.0001, "loss": 1.0487, "step": 709 }, { "epoch": 0.037866666666666667, "grad_norm": 0.025137906895737205, "learning_rate": 0.0001, "loss": 1.0376, "step": 710 }, { "epoch": 0.03792, "grad_norm": 0.030244055295908946, "learning_rate": 0.0001, "loss": 1.1005, "step": 711 }, { "epoch": 0.03797333333333333, "grad_norm": 0.023607379391306738, "learning_rate": 0.0001, "loss": 1.0019, "step": 712 }, { "epoch": 0.03802666666666667, "grad_norm": 0.026010705861925113, "learning_rate": 0.0001, "loss": 1.0259, "step": 713 }, { "epoch": 0.03808, "grad_norm": 0.026746865614794394, "learning_rate": 0.0001, "loss": 0.9968, "step": 714 }, { "epoch": 0.03813333333333333, "grad_norm": 0.029268328376316065, "learning_rate": 0.0001, "loss": 1.1037, "step": 715 }, { "epoch": 0.03818666666666667, "grad_norm": 0.028164921527962718, "learning_rate": 0.0001, "loss": 1.0396, "step": 716 }, { "epoch": 0.03824, "grad_norm": 0.026653349268801866, "learning_rate": 0.0001, "loss": 1.0644, "step": 717 }, { "epoch": 0.03829333333333333, "grad_norm": 0.027779322896187765, "learning_rate": 0.0001, "loss": 1.0778, "step": 718 }, { "epoch": 0.03834666666666667, "grad_norm": 0.02716044130446403, "learning_rate": 0.0001, "loss": 1.0138, "step": 719 }, { "epoch": 0.0384, "grad_norm": 0.028955600466157444, "learning_rate": 0.0001, "loss": 1.0858, "step": 720 }, { "epoch": 0.03845333333333333, "grad_norm": 0.02692199040163914, "learning_rate": 0.0001, "loss": 1.0152, "step": 721 }, { "epoch": 0.03850666666666667, "grad_norm": 0.027917011781956817, "learning_rate": 0.0001, "loss": 1.0025, "step": 722 }, { "epoch": 0.03856, "grad_norm": 0.027219037133144053, "learning_rate": 0.0001, "loss": 1.069, "step": 723 }, { "epoch": 0.03861333333333333, "grad_norm": 0.0299733011308284, "learning_rate": 0.0001, "loss": 1.0342, "step": 724 }, { "epoch": 0.03866666666666667, "grad_norm": 0.02740215314308012, "learning_rate": 0.0001, "loss": 1.0657, "step": 725 }, { "epoch": 0.03872, "grad_norm": 0.028295373095918817, "learning_rate": 0.0001, "loss": 1.0119, "step": 726 }, { "epoch": 0.03877333333333333, "grad_norm": 0.028247695599226994, "learning_rate": 0.0001, "loss": 1.0702, "step": 727 }, { "epoch": 0.03882666666666667, "grad_norm": 0.025961451300866772, "learning_rate": 0.0001, "loss": 1.0384, "step": 728 }, { "epoch": 0.03888, "grad_norm": 0.031133313696705606, "learning_rate": 0.0001, "loss": 1.0551, "step": 729 }, { "epoch": 0.038933333333333334, "grad_norm": 0.02773277118047147, "learning_rate": 0.0001, "loss": 1.0604, "step": 730 }, { "epoch": 0.03898666666666667, "grad_norm": 0.03001493305971132, "learning_rate": 0.0001, "loss": 1.0414, "step": 731 }, { "epoch": 0.03904, "grad_norm": 0.026973731063982445, "learning_rate": 0.0001, "loss": 1.0332, "step": 732 }, { "epoch": 0.039093333333333334, "grad_norm": 0.030376146440363846, "learning_rate": 0.0001, "loss": 1.0137, "step": 733 }, { "epoch": 0.03914666666666667, "grad_norm": 0.027357657227751988, "learning_rate": 0.0001, "loss": 1.0289, "step": 734 }, { "epoch": 0.0392, "grad_norm": 0.02750576574072316, "learning_rate": 0.0001, "loss": 0.9777, "step": 735 }, { "epoch": 0.039253333333333335, "grad_norm": 0.03265162169157673, "learning_rate": 0.0001, "loss": 1.0356, "step": 736 }, { "epoch": 0.03930666666666666, "grad_norm": 0.025014085583874034, "learning_rate": 0.0001, "loss": 1.0714, "step": 737 }, { "epoch": 0.03936, "grad_norm": 0.03237202030888492, "learning_rate": 0.0001, "loss": 1.0521, "step": 738 }, { "epoch": 0.039413333333333335, "grad_norm": 0.027461699076853703, "learning_rate": 0.0001, "loss": 1.0668, "step": 739 }, { "epoch": 0.039466666666666664, "grad_norm": 0.031325031567587286, "learning_rate": 0.0001, "loss": 1.041, "step": 740 }, { "epoch": 0.03952, "grad_norm": 0.030453728770916868, "learning_rate": 0.0001, "loss": 1.0256, "step": 741 }, { "epoch": 0.039573333333333335, "grad_norm": 0.02943091094307162, "learning_rate": 0.0001, "loss": 1.0504, "step": 742 }, { "epoch": 0.039626666666666664, "grad_norm": 0.030391933689108846, "learning_rate": 0.0001, "loss": 1.0129, "step": 743 }, { "epoch": 0.03968, "grad_norm": 0.03448463373425907, "learning_rate": 0.0001, "loss": 0.9802, "step": 744 }, { "epoch": 0.039733333333333336, "grad_norm": 0.026142254203839345, "learning_rate": 0.0001, "loss": 1.0359, "step": 745 }, { "epoch": 0.039786666666666665, "grad_norm": 0.03202916519352381, "learning_rate": 0.0001, "loss": 1.0869, "step": 746 }, { "epoch": 0.03984, "grad_norm": 0.023781815104029977, "learning_rate": 0.0001, "loss": 1.0432, "step": 747 }, { "epoch": 0.039893333333333336, "grad_norm": 0.029031046885221467, "learning_rate": 0.0001, "loss": 1.0894, "step": 748 }, { "epoch": 0.039946666666666665, "grad_norm": 0.026079542357992126, "learning_rate": 0.0001, "loss": 1.0323, "step": 749 }, { "epoch": 0.04, "grad_norm": 0.026882403635630703, "learning_rate": 0.0001, "loss": 1.0793, "step": 750 }, { "epoch": 0.04005333333333334, "grad_norm": 0.026003312619162028, "learning_rate": 0.0001, "loss": 0.9986, "step": 751 }, { "epoch": 0.040106666666666665, "grad_norm": 0.028952496808054392, "learning_rate": 0.0001, "loss": 1.0731, "step": 752 }, { "epoch": 0.04016, "grad_norm": 0.027781130938632756, "learning_rate": 0.0001, "loss": 1.0342, "step": 753 }, { "epoch": 0.04021333333333333, "grad_norm": 0.026733557978303214, "learning_rate": 0.0001, "loss": 1.0524, "step": 754 }, { "epoch": 0.040266666666666666, "grad_norm": 0.029619895774231214, "learning_rate": 0.0001, "loss": 1.0168, "step": 755 }, { "epoch": 0.04032, "grad_norm": 0.025986463353329322, "learning_rate": 0.0001, "loss": 1.0095, "step": 756 }, { "epoch": 0.04037333333333333, "grad_norm": 0.025729881302954404, "learning_rate": 0.0001, "loss": 1.0372, "step": 757 }, { "epoch": 0.040426666666666666, "grad_norm": 0.025973762228878147, "learning_rate": 0.0001, "loss": 0.985, "step": 758 }, { "epoch": 0.04048, "grad_norm": 0.027831946321555466, "learning_rate": 0.0001, "loss": 1.0466, "step": 759 }, { "epoch": 0.04053333333333333, "grad_norm": 0.023723124249157426, "learning_rate": 0.0001, "loss": 1.0805, "step": 760 }, { "epoch": 0.04058666666666667, "grad_norm": 0.024409018879416225, "learning_rate": 0.0001, "loss": 1.1149, "step": 761 }, { "epoch": 0.04064, "grad_norm": 0.02599894182832873, "learning_rate": 0.0001, "loss": 1.0393, "step": 762 }, { "epoch": 0.04069333333333333, "grad_norm": 0.026537162424658794, "learning_rate": 0.0001, "loss": 1.0173, "step": 763 }, { "epoch": 0.04074666666666667, "grad_norm": 0.025880993280216896, "learning_rate": 0.0001, "loss": 1.0757, "step": 764 }, { "epoch": 0.0408, "grad_norm": 0.02506965819873307, "learning_rate": 0.0001, "loss": 0.9804, "step": 765 }, { "epoch": 0.04085333333333333, "grad_norm": 0.02536139529720351, "learning_rate": 0.0001, "loss": 1.0109, "step": 766 }, { "epoch": 0.04090666666666667, "grad_norm": 0.02970527215447741, "learning_rate": 0.0001, "loss": 1.0285, "step": 767 }, { "epoch": 0.04096, "grad_norm": 0.025118771183072812, "learning_rate": 0.0001, "loss": 1.0677, "step": 768 }, { "epoch": 0.04101333333333333, "grad_norm": 0.026288985573433867, "learning_rate": 0.0001, "loss": 1.0471, "step": 769 }, { "epoch": 0.04106666666666667, "grad_norm": 0.027271600816907965, "learning_rate": 0.0001, "loss": 1.0562, "step": 770 }, { "epoch": 0.04112, "grad_norm": 0.030354044923674085, "learning_rate": 0.0001, "loss": 1.0741, "step": 771 }, { "epoch": 0.04117333333333333, "grad_norm": 0.02622513945137329, "learning_rate": 0.0001, "loss": 1.0647, "step": 772 }, { "epoch": 0.04122666666666667, "grad_norm": 0.028177909995223804, "learning_rate": 0.0001, "loss": 1.0135, "step": 773 }, { "epoch": 0.04128, "grad_norm": 0.02833113727351829, "learning_rate": 0.0001, "loss": 1.0492, "step": 774 }, { "epoch": 0.04133333333333333, "grad_norm": 0.025911071618273676, "learning_rate": 0.0001, "loss": 1.0767, "step": 775 }, { "epoch": 0.04138666666666667, "grad_norm": 0.027931049233247074, "learning_rate": 0.0001, "loss": 1.0575, "step": 776 }, { "epoch": 0.04144, "grad_norm": 0.03386380872322391, "learning_rate": 0.0001, "loss": 1.0856, "step": 777 }, { "epoch": 0.04149333333333333, "grad_norm": 0.03215934079112651, "learning_rate": 0.0001, "loss": 1.0041, "step": 778 }, { "epoch": 0.04154666666666667, "grad_norm": 0.031808495402366015, "learning_rate": 0.0001, "loss": 1.0377, "step": 779 }, { "epoch": 0.0416, "grad_norm": 0.025840807078132324, "learning_rate": 0.0001, "loss": 1.101, "step": 780 }, { "epoch": 0.041653333333333334, "grad_norm": 0.030238852197037553, "learning_rate": 0.0001, "loss": 1.0694, "step": 781 }, { "epoch": 0.04170666666666667, "grad_norm": 0.027447774180194593, "learning_rate": 0.0001, "loss": 1.0162, "step": 782 }, { "epoch": 0.04176, "grad_norm": 0.028798570223231384, "learning_rate": 0.0001, "loss": 0.9791, "step": 783 }, { "epoch": 0.041813333333333334, "grad_norm": 0.0256322210687924, "learning_rate": 0.0001, "loss": 0.9828, "step": 784 }, { "epoch": 0.04186666666666667, "grad_norm": 0.02806223828827209, "learning_rate": 0.0001, "loss": 1.0785, "step": 785 }, { "epoch": 0.04192, "grad_norm": 0.026213708664652294, "learning_rate": 0.0001, "loss": 1.0404, "step": 786 }, { "epoch": 0.041973333333333335, "grad_norm": 0.02720503458938639, "learning_rate": 0.0001, "loss": 1.0455, "step": 787 }, { "epoch": 0.042026666666666664, "grad_norm": 0.025686311433147313, "learning_rate": 0.0001, "loss": 1.0378, "step": 788 }, { "epoch": 0.04208, "grad_norm": 0.02513551846750815, "learning_rate": 0.0001, "loss": 1.0054, "step": 789 }, { "epoch": 0.042133333333333335, "grad_norm": 0.025322570579306657, "learning_rate": 0.0001, "loss": 1.0405, "step": 790 }, { "epoch": 0.042186666666666664, "grad_norm": 0.023569924939221342, "learning_rate": 0.0001, "loss": 0.9785, "step": 791 }, { "epoch": 0.04224, "grad_norm": 0.025538850759327804, "learning_rate": 0.0001, "loss": 1.0488, "step": 792 }, { "epoch": 0.042293333333333336, "grad_norm": 0.02602153335702122, "learning_rate": 0.0001, "loss": 0.9974, "step": 793 }, { "epoch": 0.042346666666666664, "grad_norm": 0.027366433563260364, "learning_rate": 0.0001, "loss": 1.0373, "step": 794 }, { "epoch": 0.0424, "grad_norm": 0.026325880860775832, "learning_rate": 0.0001, "loss": 1.0335, "step": 795 }, { "epoch": 0.042453333333333336, "grad_norm": 0.025630381306590642, "learning_rate": 0.0001, "loss": 1.0309, "step": 796 }, { "epoch": 0.042506666666666665, "grad_norm": 0.02845945089868684, "learning_rate": 0.0001, "loss": 1.0292, "step": 797 }, { "epoch": 0.04256, "grad_norm": 0.02884539665460236, "learning_rate": 0.0001, "loss": 1.0841, "step": 798 }, { "epoch": 0.042613333333333336, "grad_norm": 0.029387731430493474, "learning_rate": 0.0001, "loss": 1.0487, "step": 799 }, { "epoch": 0.042666666666666665, "grad_norm": 0.025881026316409355, "learning_rate": 0.0001, "loss": 1.0518, "step": 800 }, { "epoch": 0.042666666666666665, "eval_accuracy": 0.6070635908507251, "eval_loss": 1.4281765222549438, "eval_runtime": 63.3183, "eval_samples_per_second": 15.793, "eval_steps_per_second": 0.505, "step": 800 }, { "epoch": 0.04272, "grad_norm": 0.029166882820575512, "learning_rate": 0.0001, "loss": 1.051, "step": 801 }, { "epoch": 0.04277333333333333, "grad_norm": 0.0250304770118888, "learning_rate": 0.0001, "loss": 1.0426, "step": 802 }, { "epoch": 0.042826666666666666, "grad_norm": 0.030677898791501974, "learning_rate": 0.0001, "loss": 1.0154, "step": 803 }, { "epoch": 0.04288, "grad_norm": 0.027003872301718947, "learning_rate": 0.0001, "loss": 1.0015, "step": 804 }, { "epoch": 0.04293333333333333, "grad_norm": 0.029722623664073657, "learning_rate": 0.0001, "loss": 1.0208, "step": 805 }, { "epoch": 0.042986666666666666, "grad_norm": 0.025830480105869136, "learning_rate": 0.0001, "loss": 0.9847, "step": 806 }, { "epoch": 0.04304, "grad_norm": 0.025094127707010614, "learning_rate": 0.0001, "loss": 1.052, "step": 807 }, { "epoch": 0.04309333333333333, "grad_norm": 0.03399191864821582, "learning_rate": 0.0001, "loss": 1.0041, "step": 808 }, { "epoch": 0.043146666666666667, "grad_norm": 0.02663254034691933, "learning_rate": 0.0001, "loss": 0.9887, "step": 809 }, { "epoch": 0.0432, "grad_norm": 0.03316585433082221, "learning_rate": 0.0001, "loss": 1.0303, "step": 810 }, { "epoch": 0.04325333333333333, "grad_norm": 0.02666646257083002, "learning_rate": 0.0001, "loss": 1.0092, "step": 811 }, { "epoch": 0.04330666666666667, "grad_norm": 0.028243938168319598, "learning_rate": 0.0001, "loss": 1.0036, "step": 812 }, { "epoch": 0.04336, "grad_norm": 0.029180611506753707, "learning_rate": 0.0001, "loss": 1.1224, "step": 813 }, { "epoch": 0.04341333333333333, "grad_norm": 0.03015300324313961, "learning_rate": 0.0001, "loss": 0.9854, "step": 814 }, { "epoch": 0.04346666666666667, "grad_norm": 0.030535963377852464, "learning_rate": 0.0001, "loss": 1.0043, "step": 815 }, { "epoch": 0.04352, "grad_norm": 0.026258368369023597, "learning_rate": 0.0001, "loss": 1.0487, "step": 816 }, { "epoch": 0.04357333333333333, "grad_norm": 0.03148727800128241, "learning_rate": 0.0001, "loss": 0.9803, "step": 817 }, { "epoch": 0.04362666666666667, "grad_norm": 0.026962935127549294, "learning_rate": 0.0001, "loss": 1.0443, "step": 818 }, { "epoch": 0.04368, "grad_norm": 0.03099516799542764, "learning_rate": 0.0001, "loss": 1.0323, "step": 819 }, { "epoch": 0.04373333333333333, "grad_norm": 0.027660875209212087, "learning_rate": 0.0001, "loss": 1.0678, "step": 820 }, { "epoch": 0.04378666666666667, "grad_norm": 0.026764545220323805, "learning_rate": 0.0001, "loss": 1.026, "step": 821 }, { "epoch": 0.04384, "grad_norm": 0.03219562491030368, "learning_rate": 0.0001, "loss": 1.028, "step": 822 }, { "epoch": 0.04389333333333333, "grad_norm": 0.029178001850638235, "learning_rate": 0.0001, "loss": 1.0011, "step": 823 }, { "epoch": 0.04394666666666667, "grad_norm": 0.028677693722987795, "learning_rate": 0.0001, "loss": 1.0813, "step": 824 }, { "epoch": 0.044, "grad_norm": 0.031671662566301724, "learning_rate": 0.0001, "loss": 1.026, "step": 825 }, { "epoch": 0.04405333333333333, "grad_norm": 0.02364173144547327, "learning_rate": 0.0001, "loss": 1.0613, "step": 826 }, { "epoch": 0.04410666666666667, "grad_norm": 0.030558845012044714, "learning_rate": 0.0001, "loss": 1.0041, "step": 827 }, { "epoch": 0.04416, "grad_norm": 0.029615828974508915, "learning_rate": 0.0001, "loss": 1.032, "step": 828 }, { "epoch": 0.044213333333333334, "grad_norm": 0.027560347249488065, "learning_rate": 0.0001, "loss": 1.0214, "step": 829 }, { "epoch": 0.04426666666666667, "grad_norm": 0.02651364890773219, "learning_rate": 0.0001, "loss": 1.0525, "step": 830 }, { "epoch": 0.04432, "grad_norm": 0.030157698260727527, "learning_rate": 0.0001, "loss": 1.0403, "step": 831 }, { "epoch": 0.044373333333333334, "grad_norm": 0.02853813958840772, "learning_rate": 0.0001, "loss": 0.9673, "step": 832 }, { "epoch": 0.04442666666666667, "grad_norm": 0.027255234754136964, "learning_rate": 0.0001, "loss": 1.0424, "step": 833 }, { "epoch": 0.04448, "grad_norm": 0.030997396681927917, "learning_rate": 0.0001, "loss": 1.0073, "step": 834 }, { "epoch": 0.044533333333333334, "grad_norm": 0.026006883921332068, "learning_rate": 0.0001, "loss": 1.0361, "step": 835 }, { "epoch": 0.04458666666666666, "grad_norm": 0.02723376576368481, "learning_rate": 0.0001, "loss": 0.9861, "step": 836 }, { "epoch": 0.04464, "grad_norm": 0.02907354280903025, "learning_rate": 0.0001, "loss": 1.0768, "step": 837 }, { "epoch": 0.044693333333333335, "grad_norm": 0.02454786990368478, "learning_rate": 0.0001, "loss": 1.0851, "step": 838 }, { "epoch": 0.044746666666666664, "grad_norm": 0.029245046413531754, "learning_rate": 0.0001, "loss": 1.0558, "step": 839 }, { "epoch": 0.0448, "grad_norm": 0.023636608506140265, "learning_rate": 0.0001, "loss": 1.041, "step": 840 }, { "epoch": 0.044853333333333335, "grad_norm": 0.026821550293091273, "learning_rate": 0.0001, "loss": 1.0751, "step": 841 }, { "epoch": 0.044906666666666664, "grad_norm": 0.023579630491512706, "learning_rate": 0.0001, "loss": 0.9943, "step": 842 }, { "epoch": 0.04496, "grad_norm": 0.024849862421515965, "learning_rate": 0.0001, "loss": 1.0374, "step": 843 }, { "epoch": 0.045013333333333336, "grad_norm": 0.025584371274505965, "learning_rate": 0.0001, "loss": 0.9754, "step": 844 }, { "epoch": 0.045066666666666665, "grad_norm": 0.026239644874107387, "learning_rate": 0.0001, "loss": 1.0688, "step": 845 }, { "epoch": 0.04512, "grad_norm": 0.025550271758790568, "learning_rate": 0.0001, "loss": 1.0357, "step": 846 }, { "epoch": 0.045173333333333336, "grad_norm": 0.02625977319875168, "learning_rate": 0.0001, "loss": 1.0334, "step": 847 }, { "epoch": 0.045226666666666665, "grad_norm": 0.026635003193319306, "learning_rate": 0.0001, "loss": 1.0797, "step": 848 }, { "epoch": 0.04528, "grad_norm": 0.024061494469878514, "learning_rate": 0.0001, "loss": 1.0657, "step": 849 }, { "epoch": 0.04533333333333334, "grad_norm": 0.026714488730389906, "learning_rate": 0.0001, "loss": 1.0088, "step": 850 }, { "epoch": 0.045386666666666665, "grad_norm": 0.024730658039716958, "learning_rate": 0.0001, "loss": 1.0488, "step": 851 }, { "epoch": 0.04544, "grad_norm": 0.02718835792563627, "learning_rate": 0.0001, "loss": 1.0673, "step": 852 }, { "epoch": 0.04549333333333333, "grad_norm": 0.02441681391807533, "learning_rate": 0.0001, "loss": 1.0314, "step": 853 }, { "epoch": 0.045546666666666666, "grad_norm": 0.026865227160608504, "learning_rate": 0.0001, "loss": 1.0919, "step": 854 }, { "epoch": 0.0456, "grad_norm": 0.025148982499951615, "learning_rate": 0.0001, "loss": 1.0216, "step": 855 }, { "epoch": 0.04565333333333333, "grad_norm": 0.02594747063669678, "learning_rate": 0.0001, "loss": 1.0201, "step": 856 }, { "epoch": 0.045706666666666666, "grad_norm": 0.02428189394776864, "learning_rate": 0.0001, "loss": 0.9894, "step": 857 }, { "epoch": 0.04576, "grad_norm": 0.024536461948441435, "learning_rate": 0.0001, "loss": 1.0509, "step": 858 }, { "epoch": 0.04581333333333333, "grad_norm": 0.02439492161711063, "learning_rate": 0.0001, "loss": 1.0503, "step": 859 }, { "epoch": 0.04586666666666667, "grad_norm": 0.025643491596401575, "learning_rate": 0.0001, "loss": 1.1235, "step": 860 }, { "epoch": 0.04592, "grad_norm": 0.027406018505493065, "learning_rate": 0.0001, "loss": 1.0317, "step": 861 }, { "epoch": 0.04597333333333333, "grad_norm": 0.026358568639206152, "learning_rate": 0.0001, "loss": 0.9772, "step": 862 }, { "epoch": 0.04602666666666667, "grad_norm": 0.034589733239701694, "learning_rate": 0.0001, "loss": 1.0105, "step": 863 }, { "epoch": 0.04608, "grad_norm": 0.026697480867421183, "learning_rate": 0.0001, "loss": 1.0422, "step": 864 }, { "epoch": 0.04613333333333333, "grad_norm": 0.026118070373238444, "learning_rate": 0.0001, "loss": 0.9825, "step": 865 }, { "epoch": 0.04618666666666667, "grad_norm": 0.03311993920300801, "learning_rate": 0.0001, "loss": 1.0257, "step": 866 }, { "epoch": 0.04624, "grad_norm": 0.02541670861160208, "learning_rate": 0.0001, "loss": 1.0268, "step": 867 }, { "epoch": 0.04629333333333333, "grad_norm": 0.03192569631342193, "learning_rate": 0.0001, "loss": 0.9881, "step": 868 }, { "epoch": 0.04634666666666667, "grad_norm": 0.028360484249675532, "learning_rate": 0.0001, "loss": 1.0242, "step": 869 }, { "epoch": 0.0464, "grad_norm": 0.028765376975513374, "learning_rate": 0.0001, "loss": 1.0103, "step": 870 }, { "epoch": 0.04645333333333333, "grad_norm": 0.03106507609430417, "learning_rate": 0.0001, "loss": 1.0652, "step": 871 }, { "epoch": 0.04650666666666667, "grad_norm": 0.02788284325442229, "learning_rate": 0.0001, "loss": 0.984, "step": 872 }, { "epoch": 0.04656, "grad_norm": 0.032772881749993786, "learning_rate": 0.0001, "loss": 1.0091, "step": 873 }, { "epoch": 0.04661333333333333, "grad_norm": 0.027748818317682947, "learning_rate": 0.0001, "loss": 1.0062, "step": 874 }, { "epoch": 0.04666666666666667, "grad_norm": 0.030669521043367454, "learning_rate": 0.0001, "loss": 1.0211, "step": 875 }, { "epoch": 0.04672, "grad_norm": 0.027938866780504692, "learning_rate": 0.0001, "loss": 1.0078, "step": 876 }, { "epoch": 0.04677333333333333, "grad_norm": 0.028897145772550443, "learning_rate": 0.0001, "loss": 0.9596, "step": 877 }, { "epoch": 0.04682666666666667, "grad_norm": 0.027563295125290033, "learning_rate": 0.0001, "loss": 0.9729, "step": 878 }, { "epoch": 0.04688, "grad_norm": 0.03053359180292864, "learning_rate": 0.0001, "loss": 1.0439, "step": 879 }, { "epoch": 0.046933333333333334, "grad_norm": 0.030128218536925155, "learning_rate": 0.0001, "loss": 1.0081, "step": 880 }, { "epoch": 0.04698666666666667, "grad_norm": 0.028544472551416372, "learning_rate": 0.0001, "loss": 1.0911, "step": 881 }, { "epoch": 0.04704, "grad_norm": 0.030167810066356493, "learning_rate": 0.0001, "loss": 1.0452, "step": 882 }, { "epoch": 0.047093333333333334, "grad_norm": 0.02408297505641106, "learning_rate": 0.0001, "loss": 1.0051, "step": 883 }, { "epoch": 0.04714666666666667, "grad_norm": 0.027774780971964057, "learning_rate": 0.0001, "loss": 1.0536, "step": 884 }, { "epoch": 0.0472, "grad_norm": 0.025400460687023188, "learning_rate": 0.0001, "loss": 1.0593, "step": 885 }, { "epoch": 0.047253333333333335, "grad_norm": 0.02709911794207296, "learning_rate": 0.0001, "loss": 1.0308, "step": 886 }, { "epoch": 0.047306666666666664, "grad_norm": 0.025319198473964438, "learning_rate": 0.0001, "loss": 1.01, "step": 887 }, { "epoch": 0.04736, "grad_norm": 0.026180757328368835, "learning_rate": 0.0001, "loss": 1.0419, "step": 888 }, { "epoch": 0.047413333333333335, "grad_norm": 0.025285573551095335, "learning_rate": 0.0001, "loss": 1.002, "step": 889 }, { "epoch": 0.047466666666666664, "grad_norm": 0.02843670045959905, "learning_rate": 0.0001, "loss": 1.0537, "step": 890 }, { "epoch": 0.04752, "grad_norm": 0.025997312301233654, "learning_rate": 0.0001, "loss": 1.0398, "step": 891 }, { "epoch": 0.047573333333333336, "grad_norm": 0.024073069076504146, "learning_rate": 0.0001, "loss": 1.0616, "step": 892 }, { "epoch": 0.047626666666666664, "grad_norm": 0.023853858637453446, "learning_rate": 0.0001, "loss": 1.0485, "step": 893 }, { "epoch": 0.04768, "grad_norm": 0.025311517497015795, "learning_rate": 0.0001, "loss": 1.019, "step": 894 }, { "epoch": 0.047733333333333336, "grad_norm": 0.026987392764467363, "learning_rate": 0.0001, "loss": 1.0148, "step": 895 }, { "epoch": 0.047786666666666665, "grad_norm": 0.022174378532711547, "learning_rate": 0.0001, "loss": 0.9909, "step": 896 }, { "epoch": 0.04784, "grad_norm": 0.026317338230162874, "learning_rate": 0.0001, "loss": 1.0502, "step": 897 }, { "epoch": 0.047893333333333336, "grad_norm": 0.026420583777472976, "learning_rate": 0.0001, "loss": 1.0273, "step": 898 }, { "epoch": 0.047946666666666665, "grad_norm": 0.026985587613239652, "learning_rate": 0.0001, "loss": 1.0057, "step": 899 }, { "epoch": 0.048, "grad_norm": 0.025839416552008523, "learning_rate": 0.0001, "loss": 1.0796, "step": 900 }, { "epoch": 0.04805333333333334, "grad_norm": 0.02672940975746081, "learning_rate": 0.0001, "loss": 1.005, "step": 901 }, { "epoch": 0.048106666666666666, "grad_norm": 0.02684830673190323, "learning_rate": 0.0001, "loss": 1.0645, "step": 902 }, { "epoch": 0.04816, "grad_norm": 0.028077869874641965, "learning_rate": 0.0001, "loss": 1.0722, "step": 903 }, { "epoch": 0.04821333333333333, "grad_norm": 0.025370399817479655, "learning_rate": 0.0001, "loss": 0.9515, "step": 904 }, { "epoch": 0.048266666666666666, "grad_norm": 0.02859832025368656, "learning_rate": 0.0001, "loss": 1.0186, "step": 905 }, { "epoch": 0.04832, "grad_norm": 0.02320408974355129, "learning_rate": 0.0001, "loss": 0.9942, "step": 906 }, { "epoch": 0.04837333333333333, "grad_norm": 0.02743463118936736, "learning_rate": 0.0001, "loss": 1.0739, "step": 907 }, { "epoch": 0.048426666666666666, "grad_norm": 0.026355248799057453, "learning_rate": 0.0001, "loss": 1.021, "step": 908 }, { "epoch": 0.04848, "grad_norm": 0.026926398814250813, "learning_rate": 0.0001, "loss": 1.005, "step": 909 }, { "epoch": 0.04853333333333333, "grad_norm": 0.027068166487552038, "learning_rate": 0.0001, "loss": 1.0681, "step": 910 }, { "epoch": 0.04858666666666667, "grad_norm": 0.028936813190210933, "learning_rate": 0.0001, "loss": 1.0649, "step": 911 }, { "epoch": 0.04864, "grad_norm": 0.026876465152889058, "learning_rate": 0.0001, "loss": 1.0522, "step": 912 }, { "epoch": 0.04869333333333333, "grad_norm": 0.025860693424968707, "learning_rate": 0.0001, "loss": 1.0466, "step": 913 }, { "epoch": 0.04874666666666667, "grad_norm": 0.027172969127865813, "learning_rate": 0.0001, "loss": 0.9809, "step": 914 }, { "epoch": 0.0488, "grad_norm": 0.0304406822720065, "learning_rate": 0.0001, "loss": 1.0004, "step": 915 }, { "epoch": 0.04885333333333333, "grad_norm": 0.024412252530495844, "learning_rate": 0.0001, "loss": 1.0669, "step": 916 }, { "epoch": 0.04890666666666667, "grad_norm": 0.027523271470342073, "learning_rate": 0.0001, "loss": 1.0237, "step": 917 }, { "epoch": 0.04896, "grad_norm": 0.027066314860441, "learning_rate": 0.0001, "loss": 1.0109, "step": 918 }, { "epoch": 0.04901333333333333, "grad_norm": 0.027317828995139397, "learning_rate": 0.0001, "loss": 1.0114, "step": 919 }, { "epoch": 0.04906666666666667, "grad_norm": 0.025990364604618222, "learning_rate": 0.0001, "loss": 1.066, "step": 920 }, { "epoch": 0.04912, "grad_norm": 0.027079533660723725, "learning_rate": 0.0001, "loss": 1.0319, "step": 921 }, { "epoch": 0.04917333333333333, "grad_norm": 0.024080255184311845, "learning_rate": 0.0001, "loss": 1.04, "step": 922 }, { "epoch": 0.04922666666666667, "grad_norm": 0.02593109200355588, "learning_rate": 0.0001, "loss": 1.0275, "step": 923 }, { "epoch": 0.04928, "grad_norm": 0.02645199023580068, "learning_rate": 0.0001, "loss": 1.0204, "step": 924 }, { "epoch": 0.04933333333333333, "grad_norm": 0.025368483903947164, "learning_rate": 0.0001, "loss": 1.097, "step": 925 }, { "epoch": 0.04938666666666667, "grad_norm": 0.02478047998121872, "learning_rate": 0.0001, "loss": 1.0649, "step": 926 }, { "epoch": 0.04944, "grad_norm": 0.02591348378320989, "learning_rate": 0.0001, "loss": 1.0287, "step": 927 }, { "epoch": 0.049493333333333334, "grad_norm": 0.02569723491190671, "learning_rate": 0.0001, "loss": 1.0277, "step": 928 }, { "epoch": 0.04954666666666667, "grad_norm": 0.024865093791188467, "learning_rate": 0.0001, "loss": 1.0524, "step": 929 }, { "epoch": 0.0496, "grad_norm": 0.030038278118051875, "learning_rate": 0.0001, "loss": 1.015, "step": 930 }, { "epoch": 0.049653333333333334, "grad_norm": 0.026371312851266843, "learning_rate": 0.0001, "loss": 1.026, "step": 931 }, { "epoch": 0.04970666666666667, "grad_norm": 0.03144426885514294, "learning_rate": 0.0001, "loss": 1.0813, "step": 932 }, { "epoch": 0.04976, "grad_norm": 0.0265786517902255, "learning_rate": 0.0001, "loss": 0.987, "step": 933 }, { "epoch": 0.049813333333333334, "grad_norm": 0.024413710676982007, "learning_rate": 0.0001, "loss": 1.0723, "step": 934 }, { "epoch": 0.04986666666666666, "grad_norm": 0.02904755195288663, "learning_rate": 0.0001, "loss": 1.0788, "step": 935 }, { "epoch": 0.04992, "grad_norm": 0.02734009419719898, "learning_rate": 0.0001, "loss": 0.9957, "step": 936 }, { "epoch": 0.049973333333333335, "grad_norm": 0.02646274786062384, "learning_rate": 0.0001, "loss": 1.0135, "step": 937 }, { "epoch": 0.050026666666666664, "grad_norm": 0.026412713213344766, "learning_rate": 0.0001, "loss": 1.0732, "step": 938 }, { "epoch": 0.05008, "grad_norm": 0.027264523122307607, "learning_rate": 0.0001, "loss": 1.0503, "step": 939 }, { "epoch": 0.050133333333333335, "grad_norm": 0.025345845129705905, "learning_rate": 0.0001, "loss": 1.0251, "step": 940 }, { "epoch": 0.050186666666666664, "grad_norm": 0.027965398766579438, "learning_rate": 0.0001, "loss": 0.9635, "step": 941 }, { "epoch": 0.05024, "grad_norm": 0.027435233247793758, "learning_rate": 0.0001, "loss": 1.0559, "step": 942 }, { "epoch": 0.050293333333333336, "grad_norm": 0.02582942963464495, "learning_rate": 0.0001, "loss": 1.0598, "step": 943 }, { "epoch": 0.050346666666666665, "grad_norm": 0.025823728286010116, "learning_rate": 0.0001, "loss": 1.0678, "step": 944 }, { "epoch": 0.0504, "grad_norm": 0.025016110287567075, "learning_rate": 0.0001, "loss": 1.052, "step": 945 }, { "epoch": 0.050453333333333336, "grad_norm": 0.027570944011150574, "learning_rate": 0.0001, "loss": 1.0595, "step": 946 }, { "epoch": 0.050506666666666665, "grad_norm": 0.024839988020182096, "learning_rate": 0.0001, "loss": 1.0486, "step": 947 }, { "epoch": 0.05056, "grad_norm": 0.027533709631797812, "learning_rate": 0.0001, "loss": 0.9896, "step": 948 }, { "epoch": 0.05061333333333334, "grad_norm": 0.02899469275876491, "learning_rate": 0.0001, "loss": 1.0419, "step": 949 }, { "epoch": 0.050666666666666665, "grad_norm": 0.02896434589284753, "learning_rate": 0.0001, "loss": 1.026, "step": 950 }, { "epoch": 0.05072, "grad_norm": 0.028188084863381774, "learning_rate": 0.0001, "loss": 0.9577, "step": 951 }, { "epoch": 0.05077333333333333, "grad_norm": 0.028748892035582663, "learning_rate": 0.0001, "loss": 1.0425, "step": 952 }, { "epoch": 0.050826666666666666, "grad_norm": 0.025433672299958885, "learning_rate": 0.0001, "loss": 1.0228, "step": 953 }, { "epoch": 0.05088, "grad_norm": 0.029959377039149325, "learning_rate": 0.0001, "loss": 1.101, "step": 954 }, { "epoch": 0.05093333333333333, "grad_norm": 0.02682554949601614, "learning_rate": 0.0001, "loss": 1.0058, "step": 955 }, { "epoch": 0.050986666666666666, "grad_norm": 0.027120290332370355, "learning_rate": 0.0001, "loss": 1.0357, "step": 956 }, { "epoch": 0.05104, "grad_norm": 0.02690236478496663, "learning_rate": 0.0001, "loss": 0.9753, "step": 957 }, { "epoch": 0.05109333333333333, "grad_norm": 0.026675812874743455, "learning_rate": 0.0001, "loss": 1.0273, "step": 958 }, { "epoch": 0.05114666666666667, "grad_norm": 0.026364405774591797, "learning_rate": 0.0001, "loss": 0.9537, "step": 959 }, { "epoch": 0.0512, "grad_norm": 0.027814352258148815, "learning_rate": 0.0001, "loss": 1.0844, "step": 960 }, { "epoch": 0.05125333333333333, "grad_norm": 0.027738221405318647, "learning_rate": 0.0001, "loss": 1.0193, "step": 961 }, { "epoch": 0.05130666666666667, "grad_norm": 0.027369845499384125, "learning_rate": 0.0001, "loss": 1.0471, "step": 962 }, { "epoch": 0.05136, "grad_norm": 0.025132221193387694, "learning_rate": 0.0001, "loss": 1.0099, "step": 963 }, { "epoch": 0.05141333333333333, "grad_norm": 0.030297032526235963, "learning_rate": 0.0001, "loss": 1.0406, "step": 964 }, { "epoch": 0.05146666666666667, "grad_norm": 0.02644867889376138, "learning_rate": 0.0001, "loss": 1.0693, "step": 965 }, { "epoch": 0.05152, "grad_norm": 0.03049722617314322, "learning_rate": 0.0001, "loss": 0.9935, "step": 966 }, { "epoch": 0.05157333333333333, "grad_norm": 0.028141916645024353, "learning_rate": 0.0001, "loss": 0.9529, "step": 967 }, { "epoch": 0.05162666666666667, "grad_norm": 0.030003585043015302, "learning_rate": 0.0001, "loss": 1.0041, "step": 968 }, { "epoch": 0.05168, "grad_norm": 0.02500327513306962, "learning_rate": 0.0001, "loss": 1.0436, "step": 969 }, { "epoch": 0.05173333333333333, "grad_norm": 0.02990281455380819, "learning_rate": 0.0001, "loss": 1.0354, "step": 970 }, { "epoch": 0.05178666666666667, "grad_norm": 0.026333817100010478, "learning_rate": 0.0001, "loss": 1.0299, "step": 971 }, { "epoch": 0.05184, "grad_norm": 0.028524374297923222, "learning_rate": 0.0001, "loss": 1.0527, "step": 972 }, { "epoch": 0.05189333333333333, "grad_norm": 0.027317215329043767, "learning_rate": 0.0001, "loss": 0.9765, "step": 973 }, { "epoch": 0.05194666666666667, "grad_norm": 0.030435227042540237, "learning_rate": 0.0001, "loss": 1.0221, "step": 974 }, { "epoch": 0.052, "grad_norm": 0.025082776008801544, "learning_rate": 0.0001, "loss": 0.9899, "step": 975 }, { "epoch": 0.05205333333333333, "grad_norm": 0.02893818436583638, "learning_rate": 0.0001, "loss": 1.0711, "step": 976 }, { "epoch": 0.05210666666666667, "grad_norm": 0.02612253334341159, "learning_rate": 0.0001, "loss": 1.0268, "step": 977 }, { "epoch": 0.05216, "grad_norm": 0.026092979692290217, "learning_rate": 0.0001, "loss": 1.0829, "step": 978 }, { "epoch": 0.052213333333333334, "grad_norm": 0.025524365116835358, "learning_rate": 0.0001, "loss": 1.005, "step": 979 }, { "epoch": 0.05226666666666667, "grad_norm": 0.027720041655663448, "learning_rate": 0.0001, "loss": 1.01, "step": 980 }, { "epoch": 0.05232, "grad_norm": 0.024973777971759016, "learning_rate": 0.0001, "loss": 1.0616, "step": 981 }, { "epoch": 0.052373333333333334, "grad_norm": 0.029835791611434046, "learning_rate": 0.0001, "loss": 1.0245, "step": 982 }, { "epoch": 0.05242666666666667, "grad_norm": 0.028518983156906114, "learning_rate": 0.0001, "loss": 0.9584, "step": 983 }, { "epoch": 0.05248, "grad_norm": 0.039967544616223406, "learning_rate": 0.0001, "loss": 1.042, "step": 984 }, { "epoch": 0.052533333333333335, "grad_norm": 0.024999511244421534, "learning_rate": 0.0001, "loss": 1.0493, "step": 985 }, { "epoch": 0.052586666666666664, "grad_norm": 0.028192180814693775, "learning_rate": 0.0001, "loss": 1.0206, "step": 986 }, { "epoch": 0.05264, "grad_norm": 0.02968235006879617, "learning_rate": 0.0001, "loss": 0.9883, "step": 987 }, { "epoch": 0.052693333333333335, "grad_norm": 0.026646665214108932, "learning_rate": 0.0001, "loss": 1.02, "step": 988 }, { "epoch": 0.052746666666666664, "grad_norm": 0.026930742779090234, "learning_rate": 0.0001, "loss": 0.9344, "step": 989 }, { "epoch": 0.0528, "grad_norm": 0.028004656983621683, "learning_rate": 0.0001, "loss": 1.0525, "step": 990 }, { "epoch": 0.052853333333333335, "grad_norm": 0.028004316974029577, "learning_rate": 0.0001, "loss": 1.0885, "step": 991 }, { "epoch": 0.052906666666666664, "grad_norm": 0.030172617982809555, "learning_rate": 0.0001, "loss": 1.089, "step": 992 }, { "epoch": 0.05296, "grad_norm": 0.026748883940639064, "learning_rate": 0.0001, "loss": 1.1072, "step": 993 }, { "epoch": 0.053013333333333336, "grad_norm": 0.02642645750061407, "learning_rate": 0.0001, "loss": 1.0312, "step": 994 }, { "epoch": 0.053066666666666665, "grad_norm": 0.026932331471971573, "learning_rate": 0.0001, "loss": 1.0759, "step": 995 }, { "epoch": 0.05312, "grad_norm": 0.029597573500736288, "learning_rate": 0.0001, "loss": 1.0693, "step": 996 }, { "epoch": 0.053173333333333336, "grad_norm": 0.028665005103213174, "learning_rate": 0.0001, "loss": 1.0174, "step": 997 }, { "epoch": 0.053226666666666665, "grad_norm": 0.02879866280813181, "learning_rate": 0.0001, "loss": 0.9744, "step": 998 }, { "epoch": 0.05328, "grad_norm": 0.028666575589889665, "learning_rate": 0.0001, "loss": 1.0686, "step": 999 }, { "epoch": 0.05333333333333334, "grad_norm": 0.025823360118417495, "learning_rate": 0.0001, "loss": 0.9781, "step": 1000 }, { "epoch": 0.05333333333333334, "eval_accuracy": 0.608425892609353, "eval_loss": 1.42054283618927, "eval_runtime": 63.1939, "eval_samples_per_second": 15.824, "eval_steps_per_second": 0.506, "step": 1000 }, { "epoch": 0.053386666666666666, "grad_norm": 0.0265499324664092, "learning_rate": 0.0001, "loss": 1.0313, "step": 1001 }, { "epoch": 0.05344, "grad_norm": 0.02669196878349345, "learning_rate": 0.0001, "loss": 1.0241, "step": 1002 }, { "epoch": 0.05349333333333333, "grad_norm": 0.02633389128540039, "learning_rate": 0.0001, "loss": 1.0372, "step": 1003 }, { "epoch": 0.053546666666666666, "grad_norm": 0.025691553483379422, "learning_rate": 0.0001, "loss": 1.0204, "step": 1004 }, { "epoch": 0.0536, "grad_norm": 0.030641399926046524, "learning_rate": 0.0001, "loss": 1.0322, "step": 1005 }, { "epoch": 0.05365333333333333, "grad_norm": 0.02874273411762921, "learning_rate": 0.0001, "loss": 1.0677, "step": 1006 }, { "epoch": 0.053706666666666666, "grad_norm": 0.026649641596944832, "learning_rate": 0.0001, "loss": 1.0382, "step": 1007 }, { "epoch": 0.05376, "grad_norm": 0.029790176804929958, "learning_rate": 0.0001, "loss": 1.0063, "step": 1008 }, { "epoch": 0.05381333333333333, "grad_norm": 0.02987051523481069, "learning_rate": 0.0001, "loss": 1.0317, "step": 1009 }, { "epoch": 0.05386666666666667, "grad_norm": 0.02586195979942284, "learning_rate": 0.0001, "loss": 1.0297, "step": 1010 }, { "epoch": 0.05392, "grad_norm": 0.030974482984548607, "learning_rate": 0.0001, "loss": 0.9882, "step": 1011 }, { "epoch": 0.05397333333333333, "grad_norm": 0.025383014598281916, "learning_rate": 0.0001, "loss": 1.0196, "step": 1012 }, { "epoch": 0.05402666666666667, "grad_norm": 0.028852803538615905, "learning_rate": 0.0001, "loss": 1.0666, "step": 1013 }, { "epoch": 0.05408, "grad_norm": 0.025985020574556903, "learning_rate": 0.0001, "loss": 1.0345, "step": 1014 }, { "epoch": 0.05413333333333333, "grad_norm": 0.026622781078273695, "learning_rate": 0.0001, "loss": 1.044, "step": 1015 }, { "epoch": 0.05418666666666667, "grad_norm": 0.024312560144085713, "learning_rate": 0.0001, "loss": 1.0009, "step": 1016 }, { "epoch": 0.05424, "grad_norm": 0.024780255838161975, "learning_rate": 0.0001, "loss": 1.0222, "step": 1017 }, { "epoch": 0.05429333333333333, "grad_norm": 0.024313611120055204, "learning_rate": 0.0001, "loss": 1.03, "step": 1018 }, { "epoch": 0.05434666666666667, "grad_norm": 0.02503470083032177, "learning_rate": 0.0001, "loss": 1.0139, "step": 1019 }, { "epoch": 0.0544, "grad_norm": 0.026291185891508057, "learning_rate": 0.0001, "loss": 1.0075, "step": 1020 }, { "epoch": 0.05445333333333333, "grad_norm": 0.024841459527093816, "learning_rate": 0.0001, "loss": 1.0418, "step": 1021 }, { "epoch": 0.05450666666666667, "grad_norm": 0.0273833451042017, "learning_rate": 0.0001, "loss": 0.9484, "step": 1022 }, { "epoch": 0.05456, "grad_norm": 0.027282764025504495, "learning_rate": 0.0001, "loss": 1.0904, "step": 1023 }, { "epoch": 0.05461333333333333, "grad_norm": 0.027433998803467727, "learning_rate": 0.0001, "loss": 0.9521, "step": 1024 }, { "epoch": 0.05466666666666667, "grad_norm": 0.02502238653544039, "learning_rate": 0.0001, "loss": 0.941, "step": 1025 }, { "epoch": 0.05472, "grad_norm": 0.0324382307143064, "learning_rate": 0.0001, "loss": 1.0814, "step": 1026 }, { "epoch": 0.054773333333333334, "grad_norm": 0.027098034815702776, "learning_rate": 0.0001, "loss": 0.9915, "step": 1027 }, { "epoch": 0.05482666666666667, "grad_norm": 0.03012494377718488, "learning_rate": 0.0001, "loss": 1.0194, "step": 1028 }, { "epoch": 0.05488, "grad_norm": 0.027790913024391458, "learning_rate": 0.0001, "loss": 0.9959, "step": 1029 }, { "epoch": 0.054933333333333334, "grad_norm": 0.026201153847054896, "learning_rate": 0.0001, "loss": 1.0611, "step": 1030 }, { "epoch": 0.05498666666666667, "grad_norm": 0.0311184229227619, "learning_rate": 0.0001, "loss": 1.0493, "step": 1031 }, { "epoch": 0.05504, "grad_norm": 0.025576190666408274, "learning_rate": 0.0001, "loss": 1.0344, "step": 1032 }, { "epoch": 0.055093333333333334, "grad_norm": 0.02802484699145669, "learning_rate": 0.0001, "loss": 1.0485, "step": 1033 }, { "epoch": 0.05514666666666666, "grad_norm": 0.025620756089379464, "learning_rate": 0.0001, "loss": 1.0622, "step": 1034 }, { "epoch": 0.0552, "grad_norm": 0.025800276805562898, "learning_rate": 0.0001, "loss": 1.0653, "step": 1035 }, { "epoch": 0.055253333333333335, "grad_norm": 0.0286019510853285, "learning_rate": 0.0001, "loss": 1.0037, "step": 1036 }, { "epoch": 0.055306666666666664, "grad_norm": 0.02481896753390645, "learning_rate": 0.0001, "loss": 1.013, "step": 1037 }, { "epoch": 0.05536, "grad_norm": 0.028088407209215516, "learning_rate": 0.0001, "loss": 1.0244, "step": 1038 }, { "epoch": 0.055413333333333335, "grad_norm": 0.026390332649408484, "learning_rate": 0.0001, "loss": 0.9882, "step": 1039 }, { "epoch": 0.055466666666666664, "grad_norm": 0.02953481986232811, "learning_rate": 0.0001, "loss": 1.0448, "step": 1040 }, { "epoch": 0.05552, "grad_norm": 0.025380485281236136, "learning_rate": 0.0001, "loss": 1.054, "step": 1041 }, { "epoch": 0.055573333333333336, "grad_norm": 0.027863228723082493, "learning_rate": 0.0001, "loss": 1.0376, "step": 1042 }, { "epoch": 0.055626666666666665, "grad_norm": 0.02912162318309667, "learning_rate": 0.0001, "loss": 1.0024, "step": 1043 }, { "epoch": 0.05568, "grad_norm": 0.025534780035975754, "learning_rate": 0.0001, "loss": 1.0098, "step": 1044 }, { "epoch": 0.055733333333333336, "grad_norm": 0.029677697705012992, "learning_rate": 0.0001, "loss": 1.0215, "step": 1045 }, { "epoch": 0.055786666666666665, "grad_norm": 0.028630547969815873, "learning_rate": 0.0001, "loss": 1.0601, "step": 1046 }, { "epoch": 0.05584, "grad_norm": 0.027775349510290512, "learning_rate": 0.0001, "loss": 1.0494, "step": 1047 }, { "epoch": 0.05589333333333334, "grad_norm": 0.026579624209351282, "learning_rate": 0.0001, "loss": 1.0486, "step": 1048 }, { "epoch": 0.055946666666666665, "grad_norm": 0.027111562344977972, "learning_rate": 0.0001, "loss": 1.0069, "step": 1049 }, { "epoch": 0.056, "grad_norm": 0.026788967583012777, "learning_rate": 0.0001, "loss": 0.9899, "step": 1050 }, { "epoch": 0.05605333333333333, "grad_norm": 0.026400936585694892, "learning_rate": 0.0001, "loss": 0.9729, "step": 1051 }, { "epoch": 0.056106666666666666, "grad_norm": 0.024894716279123798, "learning_rate": 0.0001, "loss": 1.0135, "step": 1052 }, { "epoch": 0.05616, "grad_norm": 0.02769241643827714, "learning_rate": 0.0001, "loss": 1.0869, "step": 1053 }, { "epoch": 0.05621333333333333, "grad_norm": 0.026192410976461095, "learning_rate": 0.0001, "loss": 1.0137, "step": 1054 }, { "epoch": 0.056266666666666666, "grad_norm": 0.027738684442750707, "learning_rate": 0.0001, "loss": 1.0167, "step": 1055 }, { "epoch": 0.05632, "grad_norm": 0.025270659526073384, "learning_rate": 0.0001, "loss": 1.0417, "step": 1056 }, { "epoch": 0.05637333333333333, "grad_norm": 0.029409145090161994, "learning_rate": 0.0001, "loss": 1.0858, "step": 1057 }, { "epoch": 0.05642666666666667, "grad_norm": 0.028362951697167245, "learning_rate": 0.0001, "loss": 1.07, "step": 1058 }, { "epoch": 0.05648, "grad_norm": 0.0356889094796731, "learning_rate": 0.0001, "loss": 1.0158, "step": 1059 }, { "epoch": 0.05653333333333333, "grad_norm": 0.029232598984724342, "learning_rate": 0.0001, "loss": 1.0152, "step": 1060 }, { "epoch": 0.05658666666666667, "grad_norm": 0.03031924641523104, "learning_rate": 0.0001, "loss": 1.0922, "step": 1061 }, { "epoch": 0.05664, "grad_norm": 0.031272174301218744, "learning_rate": 0.0001, "loss": 1.0726, "step": 1062 }, { "epoch": 0.05669333333333333, "grad_norm": 0.030804814803784927, "learning_rate": 0.0001, "loss": 1.0453, "step": 1063 }, { "epoch": 0.05674666666666667, "grad_norm": 0.03017300637579168, "learning_rate": 0.0001, "loss": 1.0782, "step": 1064 }, { "epoch": 0.0568, "grad_norm": 0.031175082600882413, "learning_rate": 0.0001, "loss": 1.0281, "step": 1065 }, { "epoch": 0.05685333333333333, "grad_norm": 0.029838643738389715, "learning_rate": 0.0001, "loss": 0.9991, "step": 1066 }, { "epoch": 0.05690666666666667, "grad_norm": 0.0269718053542977, "learning_rate": 0.0001, "loss": 1.0418, "step": 1067 }, { "epoch": 0.05696, "grad_norm": 0.028444237460184898, "learning_rate": 0.0001, "loss": 1.0047, "step": 1068 }, { "epoch": 0.05701333333333333, "grad_norm": 0.026897019330090706, "learning_rate": 0.0001, "loss": 1.0286, "step": 1069 }, { "epoch": 0.05706666666666667, "grad_norm": 0.02556935096272631, "learning_rate": 0.0001, "loss": 1.056, "step": 1070 }, { "epoch": 0.05712, "grad_norm": 0.025627567252700868, "learning_rate": 0.0001, "loss": 1.0413, "step": 1071 }, { "epoch": 0.05717333333333333, "grad_norm": 0.02478527813045131, "learning_rate": 0.0001, "loss": 0.9983, "step": 1072 }, { "epoch": 0.05722666666666667, "grad_norm": 0.0270730864924882, "learning_rate": 0.0001, "loss": 1.0298, "step": 1073 }, { "epoch": 0.05728, "grad_norm": 0.0229439485973904, "learning_rate": 0.0001, "loss": 0.9964, "step": 1074 }, { "epoch": 0.05733333333333333, "grad_norm": 0.031395004834123136, "learning_rate": 0.0001, "loss": 1.0704, "step": 1075 }, { "epoch": 0.05738666666666667, "grad_norm": 0.024281516341736056, "learning_rate": 0.0001, "loss": 1.0286, "step": 1076 }, { "epoch": 0.05744, "grad_norm": 0.025026572582949002, "learning_rate": 0.0001, "loss": 1.0026, "step": 1077 }, { "epoch": 0.057493333333333334, "grad_norm": 0.0248173535341957, "learning_rate": 0.0001, "loss": 1.0331, "step": 1078 }, { "epoch": 0.05754666666666667, "grad_norm": 0.02451710653263882, "learning_rate": 0.0001, "loss": 1.0241, "step": 1079 }, { "epoch": 0.0576, "grad_norm": 0.027150106416602225, "learning_rate": 0.0001, "loss": 0.9912, "step": 1080 }, { "epoch": 0.057653333333333334, "grad_norm": 0.02785309655471986, "learning_rate": 0.0001, "loss": 0.9943, "step": 1081 }, { "epoch": 0.05770666666666667, "grad_norm": 0.029147381719421342, "learning_rate": 0.0001, "loss": 0.9555, "step": 1082 }, { "epoch": 0.05776, "grad_norm": 0.027222301983349947, "learning_rate": 0.0001, "loss": 1.0045, "step": 1083 }, { "epoch": 0.057813333333333335, "grad_norm": 0.027304377366049768, "learning_rate": 0.0001, "loss": 1.012, "step": 1084 }, { "epoch": 0.057866666666666663, "grad_norm": 0.030649248280361373, "learning_rate": 0.0001, "loss": 0.9996, "step": 1085 }, { "epoch": 0.05792, "grad_norm": 0.02616413118101414, "learning_rate": 0.0001, "loss": 1.0401, "step": 1086 }, { "epoch": 0.057973333333333335, "grad_norm": 0.03240203697268141, "learning_rate": 0.0001, "loss": 0.9905, "step": 1087 }, { "epoch": 0.058026666666666664, "grad_norm": 0.02656319140839796, "learning_rate": 0.0001, "loss": 1.0136, "step": 1088 }, { "epoch": 0.05808, "grad_norm": 0.029804261858774217, "learning_rate": 0.0001, "loss": 1.0011, "step": 1089 }, { "epoch": 0.058133333333333335, "grad_norm": 0.024507745405010783, "learning_rate": 0.0001, "loss": 1.0138, "step": 1090 }, { "epoch": 0.058186666666666664, "grad_norm": 0.028614677645995804, "learning_rate": 0.0001, "loss": 1.0061, "step": 1091 }, { "epoch": 0.05824, "grad_norm": 0.02730141133831606, "learning_rate": 0.0001, "loss": 1.0816, "step": 1092 }, { "epoch": 0.058293333333333336, "grad_norm": 0.026856559929422676, "learning_rate": 0.0001, "loss": 1.0596, "step": 1093 }, { "epoch": 0.058346666666666665, "grad_norm": 0.030125000009188028, "learning_rate": 0.0001, "loss": 0.9693, "step": 1094 }, { "epoch": 0.0584, "grad_norm": 0.02822822681316328, "learning_rate": 0.0001, "loss": 1.0273, "step": 1095 }, { "epoch": 0.058453333333333336, "grad_norm": 0.028726550084903695, "learning_rate": 0.0001, "loss": 1.007, "step": 1096 }, { "epoch": 0.058506666666666665, "grad_norm": 0.03311596232827745, "learning_rate": 0.0001, "loss": 0.9917, "step": 1097 }, { "epoch": 0.05856, "grad_norm": 0.02558660030061805, "learning_rate": 0.0001, "loss": 1.0247, "step": 1098 }, { "epoch": 0.05861333333333334, "grad_norm": 0.029214945157847817, "learning_rate": 0.0001, "loss": 0.9834, "step": 1099 }, { "epoch": 0.058666666666666666, "grad_norm": 0.034859276356250565, "learning_rate": 0.0001, "loss": 1.0408, "step": 1100 }, { "epoch": 0.05872, "grad_norm": 0.024499089519218722, "learning_rate": 0.0001, "loss": 1.0517, "step": 1101 }, { "epoch": 0.05877333333333333, "grad_norm": 0.03917125008043877, "learning_rate": 0.0001, "loss": 1.0392, "step": 1102 }, { "epoch": 0.058826666666666666, "grad_norm": 0.030070951639903278, "learning_rate": 0.0001, "loss": 0.9912, "step": 1103 }, { "epoch": 0.05888, "grad_norm": 0.02841266292481491, "learning_rate": 0.0001, "loss": 0.9946, "step": 1104 }, { "epoch": 0.05893333333333333, "grad_norm": 0.035030533751566964, "learning_rate": 0.0001, "loss": 1.0334, "step": 1105 }, { "epoch": 0.058986666666666666, "grad_norm": 0.03161746500403546, "learning_rate": 0.0001, "loss": 1.0161, "step": 1106 }, { "epoch": 0.05904, "grad_norm": 0.026892338958252895, "learning_rate": 0.0001, "loss": 0.9843, "step": 1107 }, { "epoch": 0.05909333333333333, "grad_norm": 0.027618371847000913, "learning_rate": 0.0001, "loss": 1.0355, "step": 1108 }, { "epoch": 0.05914666666666667, "grad_norm": 0.03038083148378131, "learning_rate": 0.0001, "loss": 1.1225, "step": 1109 }, { "epoch": 0.0592, "grad_norm": 0.02678803561226073, "learning_rate": 0.0001, "loss": 1.0147, "step": 1110 }, { "epoch": 0.05925333333333333, "grad_norm": 0.02941165053959532, "learning_rate": 0.0001, "loss": 1.0103, "step": 1111 }, { "epoch": 0.05930666666666667, "grad_norm": 0.026039696968818218, "learning_rate": 0.0001, "loss": 1.059, "step": 1112 }, { "epoch": 0.05936, "grad_norm": 0.024966229115687452, "learning_rate": 0.0001, "loss": 0.9823, "step": 1113 }, { "epoch": 0.05941333333333333, "grad_norm": 0.025852763802697066, "learning_rate": 0.0001, "loss": 0.958, "step": 1114 }, { "epoch": 0.05946666666666667, "grad_norm": 0.026193296828074208, "learning_rate": 0.0001, "loss": 1.0615, "step": 1115 }, { "epoch": 0.05952, "grad_norm": 0.028442111438614758, "learning_rate": 0.0001, "loss": 1.0182, "step": 1116 }, { "epoch": 0.05957333333333333, "grad_norm": 0.024106801229830086, "learning_rate": 0.0001, "loss": 1.0276, "step": 1117 }, { "epoch": 0.05962666666666667, "grad_norm": 0.02667480954901167, "learning_rate": 0.0001, "loss": 0.997, "step": 1118 }, { "epoch": 0.05968, "grad_norm": 0.026080305550090874, "learning_rate": 0.0001, "loss": 1.0096, "step": 1119 }, { "epoch": 0.05973333333333333, "grad_norm": 0.026856299161321578, "learning_rate": 0.0001, "loss": 1.0515, "step": 1120 }, { "epoch": 0.05978666666666667, "grad_norm": 0.023798886367481526, "learning_rate": 0.0001, "loss": 0.9948, "step": 1121 }, { "epoch": 0.05984, "grad_norm": 0.026579711979091748, "learning_rate": 0.0001, "loss": 1.0079, "step": 1122 }, { "epoch": 0.05989333333333333, "grad_norm": 0.027325433016494333, "learning_rate": 0.0001, "loss": 1.0122, "step": 1123 }, { "epoch": 0.05994666666666667, "grad_norm": 0.027229007789417052, "learning_rate": 0.0001, "loss": 1.0126, "step": 1124 }, { "epoch": 0.06, "grad_norm": 0.02452497501818222, "learning_rate": 0.0001, "loss": 1.0052, "step": 1125 }, { "epoch": 0.060053333333333334, "grad_norm": 0.027053944168461047, "learning_rate": 0.0001, "loss": 1.0207, "step": 1126 }, { "epoch": 0.06010666666666667, "grad_norm": 0.02395684098263132, "learning_rate": 0.0001, "loss": 1.0353, "step": 1127 }, { "epoch": 0.06016, "grad_norm": 0.025402690119086888, "learning_rate": 0.0001, "loss": 1.0338, "step": 1128 }, { "epoch": 0.060213333333333334, "grad_norm": 0.028298265596709754, "learning_rate": 0.0001, "loss": 1.0359, "step": 1129 }, { "epoch": 0.06026666666666667, "grad_norm": 0.02550116730976038, "learning_rate": 0.0001, "loss": 1.0083, "step": 1130 }, { "epoch": 0.06032, "grad_norm": 0.02957446803272572, "learning_rate": 0.0001, "loss": 1.095, "step": 1131 }, { "epoch": 0.060373333333333334, "grad_norm": 0.028210377376644825, "learning_rate": 0.0001, "loss": 0.9983, "step": 1132 }, { "epoch": 0.06042666666666666, "grad_norm": 0.029877364005796735, "learning_rate": 0.0001, "loss": 1.0032, "step": 1133 }, { "epoch": 0.06048, "grad_norm": 0.026917806460731122, "learning_rate": 0.0001, "loss": 1.0279, "step": 1134 }, { "epoch": 0.060533333333333335, "grad_norm": 0.028789528574731486, "learning_rate": 0.0001, "loss": 1.0219, "step": 1135 }, { "epoch": 0.060586666666666664, "grad_norm": 0.02563949503825346, "learning_rate": 0.0001, "loss": 1.0391, "step": 1136 }, { "epoch": 0.06064, "grad_norm": 0.026870868341438408, "learning_rate": 0.0001, "loss": 1.0992, "step": 1137 }, { "epoch": 0.060693333333333335, "grad_norm": 0.0286721545731373, "learning_rate": 0.0001, "loss": 1.0075, "step": 1138 }, { "epoch": 0.060746666666666664, "grad_norm": 0.025824123895936503, "learning_rate": 0.0001, "loss": 0.9941, "step": 1139 }, { "epoch": 0.0608, "grad_norm": 0.026495456712234123, "learning_rate": 0.0001, "loss": 0.9913, "step": 1140 }, { "epoch": 0.060853333333333336, "grad_norm": 0.027742756716972624, "learning_rate": 0.0001, "loss": 1.0166, "step": 1141 }, { "epoch": 0.060906666666666665, "grad_norm": 0.026476499149065198, "learning_rate": 0.0001, "loss": 0.9947, "step": 1142 }, { "epoch": 0.06096, "grad_norm": 0.029998708291151383, "learning_rate": 0.0001, "loss": 0.9806, "step": 1143 }, { "epoch": 0.061013333333333336, "grad_norm": 0.033285392215665434, "learning_rate": 0.0001, "loss": 1.0125, "step": 1144 }, { "epoch": 0.061066666666666665, "grad_norm": 0.027757102614244113, "learning_rate": 0.0001, "loss": 1.0469, "step": 1145 }, { "epoch": 0.06112, "grad_norm": 0.030629655629175002, "learning_rate": 0.0001, "loss": 0.9896, "step": 1146 }, { "epoch": 0.061173333333333337, "grad_norm": 0.02824585376490924, "learning_rate": 0.0001, "loss": 1.0215, "step": 1147 }, { "epoch": 0.061226666666666665, "grad_norm": 0.027738822094293097, "learning_rate": 0.0001, "loss": 1.0738, "step": 1148 }, { "epoch": 0.06128, "grad_norm": 0.03007159983648022, "learning_rate": 0.0001, "loss": 1.0294, "step": 1149 }, { "epoch": 0.06133333333333333, "grad_norm": 0.02633425287765423, "learning_rate": 0.0001, "loss": 1.0261, "step": 1150 }, { "epoch": 0.061386666666666666, "grad_norm": 0.02631452059151884, "learning_rate": 0.0001, "loss": 0.9939, "step": 1151 }, { "epoch": 0.06144, "grad_norm": 0.03182396939436865, "learning_rate": 0.0001, "loss": 1.0249, "step": 1152 }, { "epoch": 0.06149333333333333, "grad_norm": 0.025714005127244432, "learning_rate": 0.0001, "loss": 1.0482, "step": 1153 }, { "epoch": 0.061546666666666666, "grad_norm": 0.0271639086332221, "learning_rate": 0.0001, "loss": 0.9808, "step": 1154 }, { "epoch": 0.0616, "grad_norm": 0.028352709585798243, "learning_rate": 0.0001, "loss": 0.9321, "step": 1155 }, { "epoch": 0.06165333333333333, "grad_norm": 0.024135919470443454, "learning_rate": 0.0001, "loss": 1.0134, "step": 1156 }, { "epoch": 0.06170666666666667, "grad_norm": 0.02417877110993241, "learning_rate": 0.0001, "loss": 0.9435, "step": 1157 }, { "epoch": 0.06176, "grad_norm": 0.02912100814541876, "learning_rate": 0.0001, "loss": 1.0353, "step": 1158 }, { "epoch": 0.06181333333333333, "grad_norm": 0.02465972183830763, "learning_rate": 0.0001, "loss": 0.9774, "step": 1159 }, { "epoch": 0.06186666666666667, "grad_norm": 0.029824622774776315, "learning_rate": 0.0001, "loss": 0.9739, "step": 1160 }, { "epoch": 0.06192, "grad_norm": 0.02783668221315413, "learning_rate": 0.0001, "loss": 0.9941, "step": 1161 }, { "epoch": 0.06197333333333333, "grad_norm": 0.02426248245170162, "learning_rate": 0.0001, "loss": 1.0289, "step": 1162 }, { "epoch": 0.06202666666666667, "grad_norm": 0.027765981870981938, "learning_rate": 0.0001, "loss": 1.0036, "step": 1163 }, { "epoch": 0.06208, "grad_norm": 0.02904792175175561, "learning_rate": 0.0001, "loss": 1.0185, "step": 1164 }, { "epoch": 0.06213333333333333, "grad_norm": 0.0256322440775795, "learning_rate": 0.0001, "loss": 1.0419, "step": 1165 }, { "epoch": 0.06218666666666667, "grad_norm": 0.026933365681143143, "learning_rate": 0.0001, "loss": 1.0275, "step": 1166 }, { "epoch": 0.06224, "grad_norm": 0.025639519959545408, "learning_rate": 0.0001, "loss": 1.0039, "step": 1167 }, { "epoch": 0.06229333333333333, "grad_norm": 0.02512172278499975, "learning_rate": 0.0001, "loss": 1.0157, "step": 1168 }, { "epoch": 0.06234666666666667, "grad_norm": 0.03087493026653598, "learning_rate": 0.0001, "loss": 1.0197, "step": 1169 }, { "epoch": 0.0624, "grad_norm": 0.024808629333722874, "learning_rate": 0.0001, "loss": 1.0441, "step": 1170 }, { "epoch": 0.06245333333333333, "grad_norm": 0.02587395315160505, "learning_rate": 0.0001, "loss": 1.0083, "step": 1171 }, { "epoch": 0.06250666666666667, "grad_norm": 0.025298769274184393, "learning_rate": 0.0001, "loss": 0.9923, "step": 1172 }, { "epoch": 0.06256, "grad_norm": 0.02882868832032538, "learning_rate": 0.0001, "loss": 0.9766, "step": 1173 }, { "epoch": 0.06261333333333333, "grad_norm": 0.027071893651391597, "learning_rate": 0.0001, "loss": 0.9744, "step": 1174 }, { "epoch": 0.06266666666666666, "grad_norm": 0.024495988188868296, "learning_rate": 0.0001, "loss": 1.0272, "step": 1175 }, { "epoch": 0.06272, "grad_norm": 0.02694021361055139, "learning_rate": 0.0001, "loss": 1.0502, "step": 1176 }, { "epoch": 0.06277333333333333, "grad_norm": 0.029333687784020807, "learning_rate": 0.0001, "loss": 1.0712, "step": 1177 }, { "epoch": 0.06282666666666667, "grad_norm": 0.02740913163321832, "learning_rate": 0.0001, "loss": 1.0303, "step": 1178 }, { "epoch": 0.06288, "grad_norm": 0.025442113783102384, "learning_rate": 0.0001, "loss": 0.9621, "step": 1179 }, { "epoch": 0.06293333333333333, "grad_norm": 0.02929807524297121, "learning_rate": 0.0001, "loss": 0.9295, "step": 1180 }, { "epoch": 0.06298666666666666, "grad_norm": 0.026332639082518032, "learning_rate": 0.0001, "loss": 1.0637, "step": 1181 }, { "epoch": 0.06304, "grad_norm": 0.027297019514507175, "learning_rate": 0.0001, "loss": 1.0059, "step": 1182 }, { "epoch": 0.06309333333333333, "grad_norm": 0.02864463911416425, "learning_rate": 0.0001, "loss": 1.0345, "step": 1183 }, { "epoch": 0.06314666666666667, "grad_norm": 0.025312377764215712, "learning_rate": 0.0001, "loss": 1.0258, "step": 1184 }, { "epoch": 0.0632, "grad_norm": 0.026637189946072205, "learning_rate": 0.0001, "loss": 1.0134, "step": 1185 }, { "epoch": 0.06325333333333333, "grad_norm": 0.027417509468840896, "learning_rate": 0.0001, "loss": 1.0274, "step": 1186 }, { "epoch": 0.06330666666666666, "grad_norm": 0.026560854514583662, "learning_rate": 0.0001, "loss": 1.0023, "step": 1187 }, { "epoch": 0.06336, "grad_norm": 0.0258769665229114, "learning_rate": 0.0001, "loss": 0.983, "step": 1188 }, { "epoch": 0.06341333333333334, "grad_norm": 0.025811046353212606, "learning_rate": 0.0001, "loss": 0.9933, "step": 1189 }, { "epoch": 0.06346666666666667, "grad_norm": 0.02738878545484558, "learning_rate": 0.0001, "loss": 1.0741, "step": 1190 }, { "epoch": 0.06352, "grad_norm": 0.029174192579285132, "learning_rate": 0.0001, "loss": 1.0203, "step": 1191 }, { "epoch": 0.06357333333333333, "grad_norm": 0.02854182097090182, "learning_rate": 0.0001, "loss": 1.0241, "step": 1192 }, { "epoch": 0.06362666666666666, "grad_norm": 0.027424624452766267, "learning_rate": 0.0001, "loss": 0.9814, "step": 1193 }, { "epoch": 0.06368, "grad_norm": 0.026235611455217522, "learning_rate": 0.0001, "loss": 0.9917, "step": 1194 }, { "epoch": 0.06373333333333334, "grad_norm": 0.028870647569580306, "learning_rate": 0.0001, "loss": 1.0555, "step": 1195 }, { "epoch": 0.06378666666666667, "grad_norm": 0.02528805845584082, "learning_rate": 0.0001, "loss": 1.0322, "step": 1196 }, { "epoch": 0.06384, "grad_norm": 0.025494601187859355, "learning_rate": 0.0001, "loss": 1.1178, "step": 1197 }, { "epoch": 0.06389333333333333, "grad_norm": 0.0286342065350762, "learning_rate": 0.0001, "loss": 1.0349, "step": 1198 }, { "epoch": 0.06394666666666667, "grad_norm": 0.024922047986647326, "learning_rate": 0.0001, "loss": 1.0358, "step": 1199 }, { "epoch": 0.064, "grad_norm": 0.02595703889463048, "learning_rate": 0.0001, "loss": 1.0123, "step": 1200 }, { "epoch": 0.064, "eval_accuracy": 0.6094079701488295, "eval_loss": 1.4146265983581543, "eval_runtime": 62.6049, "eval_samples_per_second": 15.973, "eval_steps_per_second": 0.511, "step": 1200 }, { "epoch": 0.06405333333333334, "grad_norm": 0.025006146105032, "learning_rate": 0.0001, "loss": 0.9756, "step": 1201 }, { "epoch": 0.06410666666666667, "grad_norm": 0.023302451693381493, "learning_rate": 0.0001, "loss": 0.9987, "step": 1202 }, { "epoch": 0.06416, "grad_norm": 0.02756625751186389, "learning_rate": 0.0001, "loss": 0.9846, "step": 1203 }, { "epoch": 0.06421333333333333, "grad_norm": 0.028889553311601937, "learning_rate": 0.0001, "loss": 1.0444, "step": 1204 }, { "epoch": 0.06426666666666667, "grad_norm": 0.0258553390249828, "learning_rate": 0.0001, "loss": 1.0208, "step": 1205 }, { "epoch": 0.06432, "grad_norm": 0.027885402443482556, "learning_rate": 0.0001, "loss": 1.0591, "step": 1206 }, { "epoch": 0.06437333333333334, "grad_norm": 0.02864132619478893, "learning_rate": 0.0001, "loss": 1.0782, "step": 1207 }, { "epoch": 0.06442666666666666, "grad_norm": 0.027856345190251184, "learning_rate": 0.0001, "loss": 1.0353, "step": 1208 }, { "epoch": 0.06448, "grad_norm": 0.028927463928279672, "learning_rate": 0.0001, "loss": 0.9859, "step": 1209 }, { "epoch": 0.06453333333333333, "grad_norm": 0.02619708377546426, "learning_rate": 0.0001, "loss": 0.9527, "step": 1210 }, { "epoch": 0.06458666666666667, "grad_norm": 0.02609704904526853, "learning_rate": 0.0001, "loss": 0.9822, "step": 1211 }, { "epoch": 0.06464, "grad_norm": 0.02508451037364046, "learning_rate": 0.0001, "loss": 1.0219, "step": 1212 }, { "epoch": 0.06469333333333334, "grad_norm": 0.029978631434535077, "learning_rate": 0.0001, "loss": 1.0217, "step": 1213 }, { "epoch": 0.06474666666666666, "grad_norm": 0.025455921952942592, "learning_rate": 0.0001, "loss": 1.0961, "step": 1214 }, { "epoch": 0.0648, "grad_norm": 0.025925635048354635, "learning_rate": 0.0001, "loss": 1.0429, "step": 1215 }, { "epoch": 0.06485333333333333, "grad_norm": 0.027555575223156097, "learning_rate": 0.0001, "loss": 1.0531, "step": 1216 }, { "epoch": 0.06490666666666667, "grad_norm": 0.02563121538808906, "learning_rate": 0.0001, "loss": 0.9891, "step": 1217 }, { "epoch": 0.06496, "grad_norm": 0.026839783159929968, "learning_rate": 0.0001, "loss": 1.0211, "step": 1218 }, { "epoch": 0.06501333333333334, "grad_norm": 0.027408562317606494, "learning_rate": 0.0001, "loss": 0.9827, "step": 1219 }, { "epoch": 0.06506666666666666, "grad_norm": 0.026846467879478128, "learning_rate": 0.0001, "loss": 1.03, "step": 1220 }, { "epoch": 0.06512, "grad_norm": 0.026434673262489827, "learning_rate": 0.0001, "loss": 0.9965, "step": 1221 }, { "epoch": 0.06517333333333333, "grad_norm": 0.03046924188185476, "learning_rate": 0.0001, "loss": 0.98, "step": 1222 }, { "epoch": 0.06522666666666667, "grad_norm": 0.02878832248631362, "learning_rate": 0.0001, "loss": 1.0283, "step": 1223 }, { "epoch": 0.06528, "grad_norm": 0.02915463656577247, "learning_rate": 0.0001, "loss": 1.0508, "step": 1224 }, { "epoch": 0.06533333333333333, "grad_norm": 0.026974753797952805, "learning_rate": 0.0001, "loss": 0.9767, "step": 1225 }, { "epoch": 0.06538666666666666, "grad_norm": 0.031014277128188127, "learning_rate": 0.0001, "loss": 0.9998, "step": 1226 }, { "epoch": 0.06544, "grad_norm": 0.026926747968858744, "learning_rate": 0.0001, "loss": 1.0665, "step": 1227 }, { "epoch": 0.06549333333333333, "grad_norm": 0.030408435853748632, "learning_rate": 0.0001, "loss": 1.0446, "step": 1228 }, { "epoch": 0.06554666666666667, "grad_norm": 0.02766460018758552, "learning_rate": 0.0001, "loss": 1.1043, "step": 1229 }, { "epoch": 0.0656, "grad_norm": 0.0317122605999316, "learning_rate": 0.0001, "loss": 0.9888, "step": 1230 }, { "epoch": 0.06565333333333333, "grad_norm": 0.02681023907289104, "learning_rate": 0.0001, "loss": 1.062, "step": 1231 }, { "epoch": 0.06570666666666666, "grad_norm": 0.0256881770124526, "learning_rate": 0.0001, "loss": 1.0828, "step": 1232 }, { "epoch": 0.06576, "grad_norm": 0.026920603142038133, "learning_rate": 0.0001, "loss": 1.0527, "step": 1233 }, { "epoch": 0.06581333333333333, "grad_norm": 0.02596776927624475, "learning_rate": 0.0001, "loss": 0.9722, "step": 1234 }, { "epoch": 0.06586666666666667, "grad_norm": 0.024292401571502437, "learning_rate": 0.0001, "loss": 1.0284, "step": 1235 }, { "epoch": 0.06592, "grad_norm": 0.02635273388302963, "learning_rate": 0.0001, "loss": 1.1033, "step": 1236 }, { "epoch": 0.06597333333333333, "grad_norm": 0.02462399459492257, "learning_rate": 0.0001, "loss": 1.0314, "step": 1237 }, { "epoch": 0.06602666666666666, "grad_norm": 0.03161845079093626, "learning_rate": 0.0001, "loss": 1.0273, "step": 1238 }, { "epoch": 0.06608, "grad_norm": 0.025139767398414566, "learning_rate": 0.0001, "loss": 1.0575, "step": 1239 }, { "epoch": 0.06613333333333334, "grad_norm": 0.025024285423379537, "learning_rate": 0.0001, "loss": 0.9798, "step": 1240 }, { "epoch": 0.06618666666666667, "grad_norm": 0.028347531338522487, "learning_rate": 0.0001, "loss": 1.0088, "step": 1241 }, { "epoch": 0.06624, "grad_norm": 0.025977373158516563, "learning_rate": 0.0001, "loss": 1.016, "step": 1242 }, { "epoch": 0.06629333333333333, "grad_norm": 0.026784423462018946, "learning_rate": 0.0001, "loss": 0.9292, "step": 1243 }, { "epoch": 0.06634666666666666, "grad_norm": 0.02568457117414041, "learning_rate": 0.0001, "loss": 1.0056, "step": 1244 }, { "epoch": 0.0664, "grad_norm": 0.02616800466335011, "learning_rate": 0.0001, "loss": 1.0403, "step": 1245 }, { "epoch": 0.06645333333333334, "grad_norm": 0.025462786683873754, "learning_rate": 0.0001, "loss": 1.0512, "step": 1246 }, { "epoch": 0.06650666666666667, "grad_norm": 0.025872375314676004, "learning_rate": 0.0001, "loss": 1.0543, "step": 1247 }, { "epoch": 0.06656, "grad_norm": 0.02506994383474883, "learning_rate": 0.0001, "loss": 0.9955, "step": 1248 }, { "epoch": 0.06661333333333333, "grad_norm": 0.025847320638486885, "learning_rate": 0.0001, "loss": 1.0207, "step": 1249 }, { "epoch": 0.06666666666666667, "grad_norm": 0.026745081752356473, "learning_rate": 0.0001, "loss": 1.036, "step": 1250 }, { "epoch": 0.06672, "grad_norm": 0.027741835071670197, "learning_rate": 0.0001, "loss": 0.9877, "step": 1251 }, { "epoch": 0.06677333333333334, "grad_norm": 0.027644034574452348, "learning_rate": 0.0001, "loss": 1.021, "step": 1252 }, { "epoch": 0.06682666666666667, "grad_norm": 0.02544188879538882, "learning_rate": 0.0001, "loss": 1.0465, "step": 1253 }, { "epoch": 0.06688, "grad_norm": 0.027975085767387976, "learning_rate": 0.0001, "loss": 1.0611, "step": 1254 }, { "epoch": 0.06693333333333333, "grad_norm": 0.027255598042277746, "learning_rate": 0.0001, "loss": 0.984, "step": 1255 }, { "epoch": 0.06698666666666667, "grad_norm": 0.02842361237600284, "learning_rate": 0.0001, "loss": 1.0332, "step": 1256 }, { "epoch": 0.06704, "grad_norm": 0.028814577585038303, "learning_rate": 0.0001, "loss": 0.9972, "step": 1257 }, { "epoch": 0.06709333333333334, "grad_norm": 0.02814786406105282, "learning_rate": 0.0001, "loss": 0.9929, "step": 1258 }, { "epoch": 0.06714666666666666, "grad_norm": 0.02891141639711133, "learning_rate": 0.0001, "loss": 0.9938, "step": 1259 }, { "epoch": 0.0672, "grad_norm": 0.026794144506704035, "learning_rate": 0.0001, "loss": 0.9918, "step": 1260 }, { "epoch": 0.06725333333333333, "grad_norm": 0.02823908905551989, "learning_rate": 0.0001, "loss": 1.0032, "step": 1261 }, { "epoch": 0.06730666666666667, "grad_norm": 0.029270264026953416, "learning_rate": 0.0001, "loss": 1.0594, "step": 1262 }, { "epoch": 0.06736, "grad_norm": 0.02652632414381041, "learning_rate": 0.0001, "loss": 1.0438, "step": 1263 }, { "epoch": 0.06741333333333334, "grad_norm": 0.02430010332162236, "learning_rate": 0.0001, "loss": 1.0278, "step": 1264 }, { "epoch": 0.06746666666666666, "grad_norm": 0.02659779485584086, "learning_rate": 0.0001, "loss": 1.0182, "step": 1265 }, { "epoch": 0.06752, "grad_norm": 0.02531247834702308, "learning_rate": 0.0001, "loss": 1.0783, "step": 1266 }, { "epoch": 0.06757333333333333, "grad_norm": 0.02883933025521461, "learning_rate": 0.0001, "loss": 1.0119, "step": 1267 }, { "epoch": 0.06762666666666667, "grad_norm": 0.0274786243655685, "learning_rate": 0.0001, "loss": 0.9982, "step": 1268 }, { "epoch": 0.06768, "grad_norm": 0.02769640097334381, "learning_rate": 0.0001, "loss": 0.9722, "step": 1269 }, { "epoch": 0.06773333333333334, "grad_norm": 0.028649126031639265, "learning_rate": 0.0001, "loss": 0.9985, "step": 1270 }, { "epoch": 0.06778666666666666, "grad_norm": 0.027017088430006962, "learning_rate": 0.0001, "loss": 1.0197, "step": 1271 }, { "epoch": 0.06784, "grad_norm": 0.033991790414947425, "learning_rate": 0.0001, "loss": 1.0151, "step": 1272 }, { "epoch": 0.06789333333333333, "grad_norm": 0.024885722258324486, "learning_rate": 0.0001, "loss": 0.9904, "step": 1273 }, { "epoch": 0.06794666666666667, "grad_norm": 0.031204081484248865, "learning_rate": 0.0001, "loss": 0.9887, "step": 1274 }, { "epoch": 0.068, "grad_norm": 0.0280430843495176, "learning_rate": 0.0001, "loss": 1.0088, "step": 1275 }, { "epoch": 0.06805333333333333, "grad_norm": 0.029155153995824506, "learning_rate": 0.0001, "loss": 1.0106, "step": 1276 }, { "epoch": 0.06810666666666666, "grad_norm": 0.026424848643547362, "learning_rate": 0.0001, "loss": 1.0132, "step": 1277 }, { "epoch": 0.06816, "grad_norm": 0.02736100516122246, "learning_rate": 0.0001, "loss": 1.0583, "step": 1278 }, { "epoch": 0.06821333333333333, "grad_norm": 0.027128600656127707, "learning_rate": 0.0001, "loss": 1.0443, "step": 1279 }, { "epoch": 0.06826666666666667, "grad_norm": 0.02901267133914117, "learning_rate": 0.0001, "loss": 1.0684, "step": 1280 }, { "epoch": 0.06832, "grad_norm": 0.02662489798980497, "learning_rate": 0.0001, "loss": 1.0032, "step": 1281 }, { "epoch": 0.06837333333333333, "grad_norm": 0.028953221794727455, "learning_rate": 0.0001, "loss": 1.0266, "step": 1282 }, { "epoch": 0.06842666666666666, "grad_norm": 0.028360559984817325, "learning_rate": 0.0001, "loss": 1.0006, "step": 1283 }, { "epoch": 0.06848, "grad_norm": 0.024057346442448117, "learning_rate": 0.0001, "loss": 1.0668, "step": 1284 }, { "epoch": 0.06853333333333333, "grad_norm": 0.03060536481022083, "learning_rate": 0.0001, "loss": 1.0503, "step": 1285 }, { "epoch": 0.06858666666666667, "grad_norm": 0.027019990077935964, "learning_rate": 0.0001, "loss": 0.9962, "step": 1286 }, { "epoch": 0.06864, "grad_norm": 0.02749414070196188, "learning_rate": 0.0001, "loss": 0.9623, "step": 1287 }, { "epoch": 0.06869333333333333, "grad_norm": 0.026981357440273187, "learning_rate": 0.0001, "loss": 0.98, "step": 1288 }, { "epoch": 0.06874666666666666, "grad_norm": 0.027362719811891416, "learning_rate": 0.0001, "loss": 1.0079, "step": 1289 }, { "epoch": 0.0688, "grad_norm": 0.029889227051165968, "learning_rate": 0.0001, "loss": 1.0416, "step": 1290 }, { "epoch": 0.06885333333333334, "grad_norm": 0.026597553155036407, "learning_rate": 0.0001, "loss": 1.0765, "step": 1291 }, { "epoch": 0.06890666666666667, "grad_norm": 0.02972841625397455, "learning_rate": 0.0001, "loss": 0.9828, "step": 1292 }, { "epoch": 0.06896, "grad_norm": 0.025891266695906297, "learning_rate": 0.0001, "loss": 0.9963, "step": 1293 }, { "epoch": 0.06901333333333333, "grad_norm": 0.027378921112252794, "learning_rate": 0.0001, "loss": 0.9953, "step": 1294 }, { "epoch": 0.06906666666666667, "grad_norm": 0.028541802212397292, "learning_rate": 0.0001, "loss": 1.0314, "step": 1295 }, { "epoch": 0.06912, "grad_norm": 0.031651053512126326, "learning_rate": 0.0001, "loss": 1.0346, "step": 1296 }, { "epoch": 0.06917333333333334, "grad_norm": 0.030042875547908236, "learning_rate": 0.0001, "loss": 1.0389, "step": 1297 }, { "epoch": 0.06922666666666667, "grad_norm": 0.028816004913370854, "learning_rate": 0.0001, "loss": 0.9679, "step": 1298 }, { "epoch": 0.06928, "grad_norm": 0.03260465168484061, "learning_rate": 0.0001, "loss": 1.0011, "step": 1299 }, { "epoch": 0.06933333333333333, "grad_norm": 0.027843094738074038, "learning_rate": 0.0001, "loss": 1.0489, "step": 1300 }, { "epoch": 0.06938666666666667, "grad_norm": 0.032538847285893055, "learning_rate": 0.0001, "loss": 0.9967, "step": 1301 }, { "epoch": 0.06944, "grad_norm": 0.032759680324852804, "learning_rate": 0.0001, "loss": 1.0039, "step": 1302 }, { "epoch": 0.06949333333333334, "grad_norm": 0.026635415468196897, "learning_rate": 0.0001, "loss": 0.9816, "step": 1303 }, { "epoch": 0.06954666666666667, "grad_norm": 0.03187223320205728, "learning_rate": 0.0001, "loss": 1.0827, "step": 1304 }, { "epoch": 0.0696, "grad_norm": 0.030787004412473878, "learning_rate": 0.0001, "loss": 1.067, "step": 1305 }, { "epoch": 0.06965333333333333, "grad_norm": 0.026974504209705395, "learning_rate": 0.0001, "loss": 0.9914, "step": 1306 }, { "epoch": 0.06970666666666667, "grad_norm": 0.02906029502264328, "learning_rate": 0.0001, "loss": 1.0742, "step": 1307 }, { "epoch": 0.06976, "grad_norm": 0.029194325776091583, "learning_rate": 0.0001, "loss": 1.0266, "step": 1308 }, { "epoch": 0.06981333333333334, "grad_norm": 0.02820215517342032, "learning_rate": 0.0001, "loss": 0.9873, "step": 1309 }, { "epoch": 0.06986666666666666, "grad_norm": 0.027319034659265395, "learning_rate": 0.0001, "loss": 1.017, "step": 1310 }, { "epoch": 0.06992, "grad_norm": 0.028077075870165284, "learning_rate": 0.0001, "loss": 0.9982, "step": 1311 }, { "epoch": 0.06997333333333333, "grad_norm": 0.029509625027748284, "learning_rate": 0.0001, "loss": 1.0092, "step": 1312 }, { "epoch": 0.07002666666666667, "grad_norm": 0.030147768232247227, "learning_rate": 0.0001, "loss": 0.9937, "step": 1313 }, { "epoch": 0.07008, "grad_norm": 0.027285186534265114, "learning_rate": 0.0001, "loss": 1.0354, "step": 1314 }, { "epoch": 0.07013333333333334, "grad_norm": 0.025321646951779218, "learning_rate": 0.0001, "loss": 0.9966, "step": 1315 }, { "epoch": 0.07018666666666666, "grad_norm": 0.02691693402784399, "learning_rate": 0.0001, "loss": 1.1293, "step": 1316 }, { "epoch": 0.07024, "grad_norm": 0.025534594950626825, "learning_rate": 0.0001, "loss": 1.0091, "step": 1317 }, { "epoch": 0.07029333333333333, "grad_norm": 0.02649083149261357, "learning_rate": 0.0001, "loss": 1.057, "step": 1318 }, { "epoch": 0.07034666666666667, "grad_norm": 0.026277226768910755, "learning_rate": 0.0001, "loss": 1.0323, "step": 1319 }, { "epoch": 0.0704, "grad_norm": 0.027398607788365104, "learning_rate": 0.0001, "loss": 1.0554, "step": 1320 }, { "epoch": 0.07045333333333334, "grad_norm": 0.026428122377360943, "learning_rate": 0.0001, "loss": 1.0211, "step": 1321 }, { "epoch": 0.07050666666666666, "grad_norm": 0.02541721756398702, "learning_rate": 0.0001, "loss": 1.02, "step": 1322 }, { "epoch": 0.07056, "grad_norm": 0.02689101051312156, "learning_rate": 0.0001, "loss": 1.0055, "step": 1323 }, { "epoch": 0.07061333333333333, "grad_norm": 0.025945837105768497, "learning_rate": 0.0001, "loss": 0.9937, "step": 1324 }, { "epoch": 0.07066666666666667, "grad_norm": 0.026099896594061988, "learning_rate": 0.0001, "loss": 1.0494, "step": 1325 }, { "epoch": 0.07072, "grad_norm": 0.024062990827848723, "learning_rate": 0.0001, "loss": 1.0335, "step": 1326 }, { "epoch": 0.07077333333333333, "grad_norm": 0.026879534250893376, "learning_rate": 0.0001, "loss": 0.9801, "step": 1327 }, { "epoch": 0.07082666666666666, "grad_norm": 0.028099462759973038, "learning_rate": 0.0001, "loss": 0.993, "step": 1328 }, { "epoch": 0.07088, "grad_norm": 0.026544649630919546, "learning_rate": 0.0001, "loss": 0.9719, "step": 1329 }, { "epoch": 0.07093333333333333, "grad_norm": 0.02897181914255022, "learning_rate": 0.0001, "loss": 1.023, "step": 1330 }, { "epoch": 0.07098666666666667, "grad_norm": 0.023933883331079223, "learning_rate": 0.0001, "loss": 1.0358, "step": 1331 }, { "epoch": 0.07104, "grad_norm": 0.02538986160516313, "learning_rate": 0.0001, "loss": 1.0536, "step": 1332 }, { "epoch": 0.07109333333333333, "grad_norm": 0.0265663156710299, "learning_rate": 0.0001, "loss": 0.9639, "step": 1333 }, { "epoch": 0.07114666666666666, "grad_norm": 0.0239861447205062, "learning_rate": 0.0001, "loss": 0.9821, "step": 1334 }, { "epoch": 0.0712, "grad_norm": 0.02379961060855267, "learning_rate": 0.0001, "loss": 0.9596, "step": 1335 }, { "epoch": 0.07125333333333334, "grad_norm": 0.024009322968357425, "learning_rate": 0.0001, "loss": 0.9968, "step": 1336 }, { "epoch": 0.07130666666666667, "grad_norm": 0.02509195275163291, "learning_rate": 0.0001, "loss": 1.0301, "step": 1337 }, { "epoch": 0.07136, "grad_norm": 0.025893697700334097, "learning_rate": 0.0001, "loss": 1.0206, "step": 1338 }, { "epoch": 0.07141333333333333, "grad_norm": 0.02654644434040771, "learning_rate": 0.0001, "loss": 1.0324, "step": 1339 }, { "epoch": 0.07146666666666666, "grad_norm": 0.02809402951932729, "learning_rate": 0.0001, "loss": 0.9765, "step": 1340 }, { "epoch": 0.07152, "grad_norm": 0.02339045672910295, "learning_rate": 0.0001, "loss": 1.0758, "step": 1341 }, { "epoch": 0.07157333333333334, "grad_norm": 0.027063600676679136, "learning_rate": 0.0001, "loss": 1.0248, "step": 1342 }, { "epoch": 0.07162666666666667, "grad_norm": 0.025168153082569093, "learning_rate": 0.0001, "loss": 1.0441, "step": 1343 }, { "epoch": 0.07168, "grad_norm": 0.026026402405670057, "learning_rate": 0.0001, "loss": 0.9667, "step": 1344 }, { "epoch": 0.07173333333333333, "grad_norm": 0.025892084728334548, "learning_rate": 0.0001, "loss": 1.0105, "step": 1345 }, { "epoch": 0.07178666666666667, "grad_norm": 0.025489183773404266, "learning_rate": 0.0001, "loss": 1.0572, "step": 1346 }, { "epoch": 0.07184, "grad_norm": 0.024387102589902687, "learning_rate": 0.0001, "loss": 1.0484, "step": 1347 }, { "epoch": 0.07189333333333334, "grad_norm": 0.025667957552132463, "learning_rate": 0.0001, "loss": 1.0405, "step": 1348 }, { "epoch": 0.07194666666666667, "grad_norm": 0.02528838374054606, "learning_rate": 0.0001, "loss": 1.0485, "step": 1349 }, { "epoch": 0.072, "grad_norm": 0.024477210580103426, "learning_rate": 0.0001, "loss": 1.0428, "step": 1350 }, { "epoch": 0.07205333333333333, "grad_norm": 0.02454427566427297, "learning_rate": 0.0001, "loss": 0.975, "step": 1351 }, { "epoch": 0.07210666666666667, "grad_norm": 0.02493510621312888, "learning_rate": 0.0001, "loss": 0.9685, "step": 1352 }, { "epoch": 0.07216, "grad_norm": 0.025563205302989986, "learning_rate": 0.0001, "loss": 0.9922, "step": 1353 }, { "epoch": 0.07221333333333334, "grad_norm": 0.026555736001282422, "learning_rate": 0.0001, "loss": 0.9942, "step": 1354 }, { "epoch": 0.07226666666666667, "grad_norm": 0.027886715980864066, "learning_rate": 0.0001, "loss": 0.9668, "step": 1355 }, { "epoch": 0.07232, "grad_norm": 0.026862591958340374, "learning_rate": 0.0001, "loss": 1.0645, "step": 1356 }, { "epoch": 0.07237333333333333, "grad_norm": 0.02450102229785219, "learning_rate": 0.0001, "loss": 1.0261, "step": 1357 }, { "epoch": 0.07242666666666667, "grad_norm": 0.03017835114182462, "learning_rate": 0.0001, "loss": 1.011, "step": 1358 }, { "epoch": 0.07248, "grad_norm": 0.024396781209132395, "learning_rate": 0.0001, "loss": 1.0013, "step": 1359 }, { "epoch": 0.07253333333333334, "grad_norm": 0.03096770865771595, "learning_rate": 0.0001, "loss": 1.048, "step": 1360 }, { "epoch": 0.07258666666666666, "grad_norm": 0.025131864256425367, "learning_rate": 0.0001, "loss": 0.9839, "step": 1361 }, { "epoch": 0.07264, "grad_norm": 0.029576091811344383, "learning_rate": 0.0001, "loss": 1.0913, "step": 1362 }, { "epoch": 0.07269333333333333, "grad_norm": 0.02680199230351138, "learning_rate": 0.0001, "loss": 1.0011, "step": 1363 }, { "epoch": 0.07274666666666667, "grad_norm": 0.03076291724760087, "learning_rate": 0.0001, "loss": 0.9773, "step": 1364 }, { "epoch": 0.0728, "grad_norm": 0.027447185061334273, "learning_rate": 0.0001, "loss": 1.0173, "step": 1365 }, { "epoch": 0.07285333333333334, "grad_norm": 0.025651937082384075, "learning_rate": 0.0001, "loss": 0.9922, "step": 1366 }, { "epoch": 0.07290666666666666, "grad_norm": 0.028266820143522123, "learning_rate": 0.0001, "loss": 1.0693, "step": 1367 }, { "epoch": 0.07296, "grad_norm": 0.029851111110083737, "learning_rate": 0.0001, "loss": 1.0445, "step": 1368 }, { "epoch": 0.07301333333333333, "grad_norm": 0.027108955431101544, "learning_rate": 0.0001, "loss": 1.0179, "step": 1369 }, { "epoch": 0.07306666666666667, "grad_norm": 0.024594783784580555, "learning_rate": 0.0001, "loss": 1.0076, "step": 1370 }, { "epoch": 0.07312, "grad_norm": 0.03135498974097117, "learning_rate": 0.0001, "loss": 1.0062, "step": 1371 }, { "epoch": 0.07317333333333334, "grad_norm": 0.024414977381463615, "learning_rate": 0.0001, "loss": 1.0319, "step": 1372 }, { "epoch": 0.07322666666666666, "grad_norm": 0.026957727828609862, "learning_rate": 0.0001, "loss": 0.9862, "step": 1373 }, { "epoch": 0.07328, "grad_norm": 0.027665378230717186, "learning_rate": 0.0001, "loss": 1.0081, "step": 1374 }, { "epoch": 0.07333333333333333, "grad_norm": 0.0246563662375451, "learning_rate": 0.0001, "loss": 0.9823, "step": 1375 }, { "epoch": 0.07338666666666667, "grad_norm": 0.025401436666538456, "learning_rate": 0.0001, "loss": 1.0278, "step": 1376 }, { "epoch": 0.07344, "grad_norm": 0.027730107961576014, "learning_rate": 0.0001, "loss": 1.032, "step": 1377 }, { "epoch": 0.07349333333333333, "grad_norm": 0.026594856690591563, "learning_rate": 0.0001, "loss": 1.0027, "step": 1378 }, { "epoch": 0.07354666666666666, "grad_norm": 0.029101882243459404, "learning_rate": 0.0001, "loss": 1.0838, "step": 1379 }, { "epoch": 0.0736, "grad_norm": 0.02706048643050515, "learning_rate": 0.0001, "loss": 1.0021, "step": 1380 }, { "epoch": 0.07365333333333333, "grad_norm": 0.03435964672147377, "learning_rate": 0.0001, "loss": 1.0348, "step": 1381 }, { "epoch": 0.07370666666666667, "grad_norm": 0.02714609464766141, "learning_rate": 0.0001, "loss": 1.0032, "step": 1382 }, { "epoch": 0.07376, "grad_norm": 0.029611157348967725, "learning_rate": 0.0001, "loss": 1.0355, "step": 1383 }, { "epoch": 0.07381333333333333, "grad_norm": 0.032337982504664575, "learning_rate": 0.0001, "loss": 1.0303, "step": 1384 }, { "epoch": 0.07386666666666666, "grad_norm": 0.028218474796060152, "learning_rate": 0.0001, "loss": 1.0068, "step": 1385 }, { "epoch": 0.07392, "grad_norm": 0.032564381119096444, "learning_rate": 0.0001, "loss": 0.9846, "step": 1386 }, { "epoch": 0.07397333333333334, "grad_norm": 0.029059849146736663, "learning_rate": 0.0001, "loss": 1.0355, "step": 1387 }, { "epoch": 0.07402666666666667, "grad_norm": 0.02351801503151605, "learning_rate": 0.0001, "loss": 0.9927, "step": 1388 }, { "epoch": 0.07408, "grad_norm": 0.02846830098577435, "learning_rate": 0.0001, "loss": 1.0577, "step": 1389 }, { "epoch": 0.07413333333333333, "grad_norm": 0.02580114042583524, "learning_rate": 0.0001, "loss": 0.9868, "step": 1390 }, { "epoch": 0.07418666666666666, "grad_norm": 0.02445854163584432, "learning_rate": 0.0001, "loss": 0.9973, "step": 1391 }, { "epoch": 0.07424, "grad_norm": 0.030414908626434572, "learning_rate": 0.0001, "loss": 1.0046, "step": 1392 }, { "epoch": 0.07429333333333334, "grad_norm": 0.025382475624449848, "learning_rate": 0.0001, "loss": 1.0461, "step": 1393 }, { "epoch": 0.07434666666666667, "grad_norm": 0.026000771015036336, "learning_rate": 0.0001, "loss": 1.049, "step": 1394 }, { "epoch": 0.0744, "grad_norm": 0.02513105909117264, "learning_rate": 0.0001, "loss": 1.0067, "step": 1395 }, { "epoch": 0.07445333333333333, "grad_norm": 0.02475762404862143, "learning_rate": 0.0001, "loss": 0.971, "step": 1396 }, { "epoch": 0.07450666666666667, "grad_norm": 0.023635728950784002, "learning_rate": 0.0001, "loss": 1.0061, "step": 1397 }, { "epoch": 0.07456, "grad_norm": 0.025219994648708905, "learning_rate": 0.0001, "loss": 1.1169, "step": 1398 }, { "epoch": 0.07461333333333334, "grad_norm": 0.02491988761612225, "learning_rate": 0.0001, "loss": 0.9936, "step": 1399 }, { "epoch": 0.07466666666666667, "grad_norm": 0.02535005376728199, "learning_rate": 0.0001, "loss": 1.0154, "step": 1400 }, { "epoch": 0.07466666666666667, "eval_accuracy": 0.6103045881533959, "eval_loss": 1.4095321893692017, "eval_runtime": 62.6217, "eval_samples_per_second": 15.969, "eval_steps_per_second": 0.511, "step": 1400 }, { "epoch": 0.07472, "grad_norm": 0.026012314129310727, "learning_rate": 0.0001, "loss": 1.037, "step": 1401 }, { "epoch": 0.07477333333333333, "grad_norm": 0.025893976851029836, "learning_rate": 0.0001, "loss": 0.9855, "step": 1402 }, { "epoch": 0.07482666666666667, "grad_norm": 0.0240110593160091, "learning_rate": 0.0001, "loss": 1.002, "step": 1403 }, { "epoch": 0.07488, "grad_norm": 0.02635510786734542, "learning_rate": 0.0001, "loss": 1.0408, "step": 1404 }, { "epoch": 0.07493333333333334, "grad_norm": 0.02570373517723136, "learning_rate": 0.0001, "loss": 1.0116, "step": 1405 }, { "epoch": 0.07498666666666666, "grad_norm": 0.02807055488409623, "learning_rate": 0.0001, "loss": 0.9782, "step": 1406 }, { "epoch": 0.07504, "grad_norm": 0.027513771531304517, "learning_rate": 0.0001, "loss": 1.0178, "step": 1407 }, { "epoch": 0.07509333333333333, "grad_norm": 0.023814227361889467, "learning_rate": 0.0001, "loss": 1.0371, "step": 1408 }, { "epoch": 0.07514666666666667, "grad_norm": 0.02606023315631416, "learning_rate": 0.0001, "loss": 1.0387, "step": 1409 }, { "epoch": 0.0752, "grad_norm": 0.027546984043710514, "learning_rate": 0.0001, "loss": 1.0219, "step": 1410 }, { "epoch": 0.07525333333333334, "grad_norm": 0.024336004197795247, "learning_rate": 0.0001, "loss": 1.0797, "step": 1411 }, { "epoch": 0.07530666666666666, "grad_norm": 0.02732908658398586, "learning_rate": 0.0001, "loss": 1.0113, "step": 1412 }, { "epoch": 0.07536, "grad_norm": 0.029369861039019982, "learning_rate": 0.0001, "loss": 1.0147, "step": 1413 }, { "epoch": 0.07541333333333333, "grad_norm": 0.023923676279976172, "learning_rate": 0.0001, "loss": 0.9858, "step": 1414 }, { "epoch": 0.07546666666666667, "grad_norm": 0.025057306517821884, "learning_rate": 0.0001, "loss": 1.0305, "step": 1415 }, { "epoch": 0.07552, "grad_norm": 0.02505682546189634, "learning_rate": 0.0001, "loss": 0.9953, "step": 1416 }, { "epoch": 0.07557333333333334, "grad_norm": 0.028840599211460146, "learning_rate": 0.0001, "loss": 0.9481, "step": 1417 }, { "epoch": 0.07562666666666666, "grad_norm": 0.027448751401812473, "learning_rate": 0.0001, "loss": 1.0208, "step": 1418 }, { "epoch": 0.07568, "grad_norm": 0.02966017862930943, "learning_rate": 0.0001, "loss": 0.9963, "step": 1419 }, { "epoch": 0.07573333333333333, "grad_norm": 0.02492399847816971, "learning_rate": 0.0001, "loss": 1.0185, "step": 1420 }, { "epoch": 0.07578666666666667, "grad_norm": 0.03006725059252591, "learning_rate": 0.0001, "loss": 1.0441, "step": 1421 }, { "epoch": 0.07584, "grad_norm": 0.029537479497250448, "learning_rate": 0.0001, "loss": 1.0237, "step": 1422 }, { "epoch": 0.07589333333333333, "grad_norm": 0.02901613302495655, "learning_rate": 0.0001, "loss": 0.9903, "step": 1423 }, { "epoch": 0.07594666666666666, "grad_norm": 0.027508144351500705, "learning_rate": 0.0001, "loss": 1.0039, "step": 1424 }, { "epoch": 0.076, "grad_norm": 0.029702143386262387, "learning_rate": 0.0001, "loss": 1.053, "step": 1425 }, { "epoch": 0.07605333333333333, "grad_norm": 0.024736993225071932, "learning_rate": 0.0001, "loss": 0.9985, "step": 1426 }, { "epoch": 0.07610666666666667, "grad_norm": 0.028122174663138173, "learning_rate": 0.0001, "loss": 1.0268, "step": 1427 }, { "epoch": 0.07616, "grad_norm": 0.02450585206675225, "learning_rate": 0.0001, "loss": 1.0202, "step": 1428 }, { "epoch": 0.07621333333333333, "grad_norm": 0.028577388551303356, "learning_rate": 0.0001, "loss": 1.0424, "step": 1429 }, { "epoch": 0.07626666666666666, "grad_norm": 0.02768082714758481, "learning_rate": 0.0001, "loss": 1.03, "step": 1430 }, { "epoch": 0.07632, "grad_norm": 0.02655409131128702, "learning_rate": 0.0001, "loss": 1.0251, "step": 1431 }, { "epoch": 0.07637333333333333, "grad_norm": 0.024870560940262604, "learning_rate": 0.0001, "loss": 1.0009, "step": 1432 }, { "epoch": 0.07642666666666667, "grad_norm": 0.0260458776490873, "learning_rate": 0.0001, "loss": 1.0243, "step": 1433 }, { "epoch": 0.07648, "grad_norm": 0.02727453220768935, "learning_rate": 0.0001, "loss": 1.0024, "step": 1434 }, { "epoch": 0.07653333333333333, "grad_norm": 0.026650986431354766, "learning_rate": 0.0001, "loss": 1.0141, "step": 1435 }, { "epoch": 0.07658666666666666, "grad_norm": 0.024925818619230045, "learning_rate": 0.0001, "loss": 0.9445, "step": 1436 }, { "epoch": 0.07664, "grad_norm": 0.025676772012487956, "learning_rate": 0.0001, "loss": 0.9981, "step": 1437 }, { "epoch": 0.07669333333333334, "grad_norm": 0.0287086981294998, "learning_rate": 0.0001, "loss": 1.0298, "step": 1438 }, { "epoch": 0.07674666666666667, "grad_norm": 0.027871399354941827, "learning_rate": 0.0001, "loss": 1.0668, "step": 1439 }, { "epoch": 0.0768, "grad_norm": 0.027132265004396344, "learning_rate": 0.0001, "loss": 0.9929, "step": 1440 }, { "epoch": 0.07685333333333333, "grad_norm": 0.02605179277427003, "learning_rate": 0.0001, "loss": 1.0169, "step": 1441 }, { "epoch": 0.07690666666666666, "grad_norm": 0.025758097401796392, "learning_rate": 0.0001, "loss": 0.9875, "step": 1442 }, { "epoch": 0.07696, "grad_norm": 0.024996659133176984, "learning_rate": 0.0001, "loss": 1.0656, "step": 1443 }, { "epoch": 0.07701333333333334, "grad_norm": 0.02442899087787655, "learning_rate": 0.0001, "loss": 0.9489, "step": 1444 }, { "epoch": 0.07706666666666667, "grad_norm": 0.02443430176445531, "learning_rate": 0.0001, "loss": 0.9598, "step": 1445 }, { "epoch": 0.07712, "grad_norm": 0.025650934020766233, "learning_rate": 0.0001, "loss": 1.0197, "step": 1446 }, { "epoch": 0.07717333333333333, "grad_norm": 0.025306222577944112, "learning_rate": 0.0001, "loss": 1.0177, "step": 1447 }, { "epoch": 0.07722666666666667, "grad_norm": 0.0262292774417146, "learning_rate": 0.0001, "loss": 1.0197, "step": 1448 }, { "epoch": 0.07728, "grad_norm": 0.02423715147115418, "learning_rate": 0.0001, "loss": 1.0075, "step": 1449 }, { "epoch": 0.07733333333333334, "grad_norm": 0.0269984285530036, "learning_rate": 0.0001, "loss": 0.9424, "step": 1450 }, { "epoch": 0.07738666666666667, "grad_norm": 0.027126665281884288, "learning_rate": 0.0001, "loss": 0.9674, "step": 1451 }, { "epoch": 0.07744, "grad_norm": 0.03138624637334413, "learning_rate": 0.0001, "loss": 1.0467, "step": 1452 }, { "epoch": 0.07749333333333333, "grad_norm": 0.025883858553079165, "learning_rate": 0.0001, "loss": 1.0151, "step": 1453 }, { "epoch": 0.07754666666666667, "grad_norm": 0.026621442764872598, "learning_rate": 0.0001, "loss": 1.0041, "step": 1454 }, { "epoch": 0.0776, "grad_norm": 0.026600035609405836, "learning_rate": 0.0001, "loss": 0.9669, "step": 1455 }, { "epoch": 0.07765333333333334, "grad_norm": 0.026979302471470228, "learning_rate": 0.0001, "loss": 1.0647, "step": 1456 }, { "epoch": 0.07770666666666666, "grad_norm": 0.02832302052740779, "learning_rate": 0.0001, "loss": 0.9959, "step": 1457 }, { "epoch": 0.07776, "grad_norm": 0.025659184067769677, "learning_rate": 0.0001, "loss": 1.0264, "step": 1458 }, { "epoch": 0.07781333333333333, "grad_norm": 0.026696425896964915, "learning_rate": 0.0001, "loss": 1.0047, "step": 1459 }, { "epoch": 0.07786666666666667, "grad_norm": 0.033841330665127324, "learning_rate": 0.0001, "loss": 1.0042, "step": 1460 }, { "epoch": 0.07792, "grad_norm": 0.024588383268653955, "learning_rate": 0.0001, "loss": 1.0513, "step": 1461 }, { "epoch": 0.07797333333333334, "grad_norm": 0.026325632962495075, "learning_rate": 0.0001, "loss": 0.9982, "step": 1462 }, { "epoch": 0.07802666666666666, "grad_norm": 0.028131952107641987, "learning_rate": 0.0001, "loss": 0.8988, "step": 1463 }, { "epoch": 0.07808, "grad_norm": 0.026376107430261902, "learning_rate": 0.0001, "loss": 1.017, "step": 1464 }, { "epoch": 0.07813333333333333, "grad_norm": 0.027021427412766336, "learning_rate": 0.0001, "loss": 1.0823, "step": 1465 }, { "epoch": 0.07818666666666667, "grad_norm": 0.027418039478907977, "learning_rate": 0.0001, "loss": 1.0127, "step": 1466 }, { "epoch": 0.07824, "grad_norm": 0.027859472592700236, "learning_rate": 0.0001, "loss": 0.995, "step": 1467 }, { "epoch": 0.07829333333333334, "grad_norm": 0.03220011750691752, "learning_rate": 0.0001, "loss": 0.9895, "step": 1468 }, { "epoch": 0.07834666666666666, "grad_norm": 0.024319311801535546, "learning_rate": 0.0001, "loss": 0.9695, "step": 1469 }, { "epoch": 0.0784, "grad_norm": 0.030228615758626582, "learning_rate": 0.0001, "loss": 0.9871, "step": 1470 }, { "epoch": 0.07845333333333333, "grad_norm": 0.027359424539138564, "learning_rate": 0.0001, "loss": 1.0395, "step": 1471 }, { "epoch": 0.07850666666666667, "grad_norm": 0.024168730979594863, "learning_rate": 0.0001, "loss": 1.0692, "step": 1472 }, { "epoch": 0.07856, "grad_norm": 0.031135867672891226, "learning_rate": 0.0001, "loss": 1.0535, "step": 1473 }, { "epoch": 0.07861333333333333, "grad_norm": 0.026926637428491038, "learning_rate": 0.0001, "loss": 1.0062, "step": 1474 }, { "epoch": 0.07866666666666666, "grad_norm": 0.028662341515440545, "learning_rate": 0.0001, "loss": 1.0566, "step": 1475 }, { "epoch": 0.07872, "grad_norm": 0.02555852851103561, "learning_rate": 0.0001, "loss": 1.005, "step": 1476 }, { "epoch": 0.07877333333333333, "grad_norm": 0.02769242082125727, "learning_rate": 0.0001, "loss": 1.0038, "step": 1477 }, { "epoch": 0.07882666666666667, "grad_norm": 0.02592877474854719, "learning_rate": 0.0001, "loss": 1.0497, "step": 1478 }, { "epoch": 0.07888, "grad_norm": 0.028511490914730733, "learning_rate": 0.0001, "loss": 1.0497, "step": 1479 }, { "epoch": 0.07893333333333333, "grad_norm": 0.026296129709602985, "learning_rate": 0.0001, "loss": 0.974, "step": 1480 }, { "epoch": 0.07898666666666666, "grad_norm": 0.027506558456873793, "learning_rate": 0.0001, "loss": 1.0138, "step": 1481 }, { "epoch": 0.07904, "grad_norm": 0.026816889738867387, "learning_rate": 0.0001, "loss": 1.0429, "step": 1482 }, { "epoch": 0.07909333333333333, "grad_norm": 0.027649549516000096, "learning_rate": 0.0001, "loss": 1.0511, "step": 1483 }, { "epoch": 0.07914666666666667, "grad_norm": 0.024826594992913453, "learning_rate": 0.0001, "loss": 1.0643, "step": 1484 }, { "epoch": 0.0792, "grad_norm": 0.025550258031028415, "learning_rate": 0.0001, "loss": 1.0211, "step": 1485 }, { "epoch": 0.07925333333333333, "grad_norm": 0.026068139579292438, "learning_rate": 0.0001, "loss": 1.023, "step": 1486 }, { "epoch": 0.07930666666666666, "grad_norm": 0.027987411085139444, "learning_rate": 0.0001, "loss": 0.976, "step": 1487 }, { "epoch": 0.07936, "grad_norm": 0.025995164818431924, "learning_rate": 0.0001, "loss": 0.9762, "step": 1488 }, { "epoch": 0.07941333333333334, "grad_norm": 0.02833540118368808, "learning_rate": 0.0001, "loss": 1.0298, "step": 1489 }, { "epoch": 0.07946666666666667, "grad_norm": 0.024665815224698122, "learning_rate": 0.0001, "loss": 0.9892, "step": 1490 }, { "epoch": 0.07952, "grad_norm": 0.02639763830876645, "learning_rate": 0.0001, "loss": 0.9728, "step": 1491 }, { "epoch": 0.07957333333333333, "grad_norm": 0.027083752830472714, "learning_rate": 0.0001, "loss": 1.0421, "step": 1492 }, { "epoch": 0.07962666666666667, "grad_norm": 0.02655411754022525, "learning_rate": 0.0001, "loss": 0.9814, "step": 1493 }, { "epoch": 0.07968, "grad_norm": 0.02745146655196488, "learning_rate": 0.0001, "loss": 1.0033, "step": 1494 }, { "epoch": 0.07973333333333334, "grad_norm": 0.02445296371406402, "learning_rate": 0.0001, "loss": 1.0289, "step": 1495 }, { "epoch": 0.07978666666666667, "grad_norm": 0.028516743813376516, "learning_rate": 0.0001, "loss": 0.9617, "step": 1496 }, { "epoch": 0.07984, "grad_norm": 0.026085156464398792, "learning_rate": 0.0001, "loss": 0.9817, "step": 1497 }, { "epoch": 0.07989333333333333, "grad_norm": 0.025448896990108355, "learning_rate": 0.0001, "loss": 1.0075, "step": 1498 }, { "epoch": 0.07994666666666667, "grad_norm": 0.02560201252372325, "learning_rate": 0.0001, "loss": 1.0032, "step": 1499 }, { "epoch": 0.08, "grad_norm": 0.024802506952111763, "learning_rate": 0.0001, "loss": 1.0071, "step": 1500 }, { "epoch": 0.08005333333333334, "grad_norm": 0.025672595426071608, "learning_rate": 0.0001, "loss": 1.077, "step": 1501 }, { "epoch": 0.08010666666666667, "grad_norm": 0.028329502075389344, "learning_rate": 0.0001, "loss": 0.9638, "step": 1502 }, { "epoch": 0.08016, "grad_norm": 0.023923861830010384, "learning_rate": 0.0001, "loss": 1.0004, "step": 1503 }, { "epoch": 0.08021333333333333, "grad_norm": 0.024630270212932286, "learning_rate": 0.0001, "loss": 0.9656, "step": 1504 }, { "epoch": 0.08026666666666667, "grad_norm": 0.02704844848805633, "learning_rate": 0.0001, "loss": 1.0289, "step": 1505 }, { "epoch": 0.08032, "grad_norm": 0.02428959008146988, "learning_rate": 0.0001, "loss": 1.0621, "step": 1506 }, { "epoch": 0.08037333333333334, "grad_norm": 0.025446428535003868, "learning_rate": 0.0001, "loss": 1.0303, "step": 1507 }, { "epoch": 0.08042666666666666, "grad_norm": 0.02839200885346731, "learning_rate": 0.0001, "loss": 1.0285, "step": 1508 }, { "epoch": 0.08048, "grad_norm": 0.028788849504164264, "learning_rate": 0.0001, "loss": 1.0599, "step": 1509 }, { "epoch": 0.08053333333333333, "grad_norm": 0.025207757095997815, "learning_rate": 0.0001, "loss": 1.016, "step": 1510 }, { "epoch": 0.08058666666666667, "grad_norm": 0.02677842090881838, "learning_rate": 0.0001, "loss": 1.0219, "step": 1511 }, { "epoch": 0.08064, "grad_norm": 0.02565301183102452, "learning_rate": 0.0001, "loss": 0.9566, "step": 1512 }, { "epoch": 0.08069333333333334, "grad_norm": 0.026226111553809998, "learning_rate": 0.0001, "loss": 0.9885, "step": 1513 }, { "epoch": 0.08074666666666666, "grad_norm": 0.024709652161331516, "learning_rate": 0.0001, "loss": 1.0323, "step": 1514 }, { "epoch": 0.0808, "grad_norm": 0.025894945681426577, "learning_rate": 0.0001, "loss": 1.1411, "step": 1515 }, { "epoch": 0.08085333333333333, "grad_norm": 0.024529750482093982, "learning_rate": 0.0001, "loss": 1.0636, "step": 1516 }, { "epoch": 0.08090666666666667, "grad_norm": 0.02589059582040195, "learning_rate": 0.0001, "loss": 0.9808, "step": 1517 }, { "epoch": 0.08096, "grad_norm": 0.02702135080489518, "learning_rate": 0.0001, "loss": 0.9766, "step": 1518 }, { "epoch": 0.08101333333333334, "grad_norm": 0.026967181331547917, "learning_rate": 0.0001, "loss": 0.993, "step": 1519 }, { "epoch": 0.08106666666666666, "grad_norm": 0.025877032261151345, "learning_rate": 0.0001, "loss": 1.0639, "step": 1520 }, { "epoch": 0.08112, "grad_norm": 0.027165801429333742, "learning_rate": 0.0001, "loss": 0.974, "step": 1521 }, { "epoch": 0.08117333333333333, "grad_norm": 0.027568306939459185, "learning_rate": 0.0001, "loss": 0.9603, "step": 1522 }, { "epoch": 0.08122666666666667, "grad_norm": 0.025450710661348158, "learning_rate": 0.0001, "loss": 1.0379, "step": 1523 }, { "epoch": 0.08128, "grad_norm": 0.02512198460412537, "learning_rate": 0.0001, "loss": 1.037, "step": 1524 }, { "epoch": 0.08133333333333333, "grad_norm": 0.028772551346375894, "learning_rate": 0.0001, "loss": 1.0438, "step": 1525 }, { "epoch": 0.08138666666666666, "grad_norm": 0.026460648715757405, "learning_rate": 0.0001, "loss": 1.0365, "step": 1526 }, { "epoch": 0.08144, "grad_norm": 0.031349379049980426, "learning_rate": 0.0001, "loss": 1.0278, "step": 1527 }, { "epoch": 0.08149333333333333, "grad_norm": 0.02852689662496742, "learning_rate": 0.0001, "loss": 1.0098, "step": 1528 }, { "epoch": 0.08154666666666667, "grad_norm": 0.03016885115287303, "learning_rate": 0.0001, "loss": 1.0338, "step": 1529 }, { "epoch": 0.0816, "grad_norm": 0.02881736964158352, "learning_rate": 0.0001, "loss": 1.0535, "step": 1530 }, { "epoch": 0.08165333333333333, "grad_norm": 0.03129168134587699, "learning_rate": 0.0001, "loss": 1.0309, "step": 1531 }, { "epoch": 0.08170666666666666, "grad_norm": 0.03395029571148873, "learning_rate": 0.0001, "loss": 0.9953, "step": 1532 }, { "epoch": 0.08176, "grad_norm": 0.0284696254799978, "learning_rate": 0.0001, "loss": 1.0066, "step": 1533 }, { "epoch": 0.08181333333333334, "grad_norm": 0.031141181179036713, "learning_rate": 0.0001, "loss": 1.0188, "step": 1534 }, { "epoch": 0.08186666666666667, "grad_norm": 0.028889959278568304, "learning_rate": 0.0001, "loss": 1.013, "step": 1535 }, { "epoch": 0.08192, "grad_norm": 0.02923687668874673, "learning_rate": 0.0001, "loss": 1.0117, "step": 1536 }, { "epoch": 0.08197333333333333, "grad_norm": 0.03243264624480576, "learning_rate": 0.0001, "loss": 1.0265, "step": 1537 }, { "epoch": 0.08202666666666666, "grad_norm": 0.031751486896107274, "learning_rate": 0.0001, "loss": 1.0302, "step": 1538 }, { "epoch": 0.08208, "grad_norm": 0.026908536628659552, "learning_rate": 0.0001, "loss": 1.0122, "step": 1539 }, { "epoch": 0.08213333333333334, "grad_norm": 0.026452865475235277, "learning_rate": 0.0001, "loss": 1.0276, "step": 1540 }, { "epoch": 0.08218666666666667, "grad_norm": 0.02634122758876933, "learning_rate": 0.0001, "loss": 1.0399, "step": 1541 }, { "epoch": 0.08224, "grad_norm": 0.024462032214949813, "learning_rate": 0.0001, "loss": 1.042, "step": 1542 }, { "epoch": 0.08229333333333333, "grad_norm": 0.02886855025762443, "learning_rate": 0.0001, "loss": 1.0143, "step": 1543 }, { "epoch": 0.08234666666666667, "grad_norm": 0.024844432162052593, "learning_rate": 0.0001, "loss": 0.9774, "step": 1544 }, { "epoch": 0.0824, "grad_norm": 0.02667694241083205, "learning_rate": 0.0001, "loss": 1.0122, "step": 1545 }, { "epoch": 0.08245333333333334, "grad_norm": 0.027217021282552198, "learning_rate": 0.0001, "loss": 0.9581, "step": 1546 }, { "epoch": 0.08250666666666667, "grad_norm": 0.027402348497841726, "learning_rate": 0.0001, "loss": 1.004, "step": 1547 }, { "epoch": 0.08256, "grad_norm": 0.025271742904781912, "learning_rate": 0.0001, "loss": 1.0422, "step": 1548 }, { "epoch": 0.08261333333333333, "grad_norm": 0.028853498860755052, "learning_rate": 0.0001, "loss": 1.0393, "step": 1549 }, { "epoch": 0.08266666666666667, "grad_norm": 0.02637818554629524, "learning_rate": 0.0001, "loss": 0.9892, "step": 1550 }, { "epoch": 0.08272, "grad_norm": 0.027152391497240597, "learning_rate": 0.0001, "loss": 1.0197, "step": 1551 }, { "epoch": 0.08277333333333334, "grad_norm": 0.030990156635862773, "learning_rate": 0.0001, "loss": 0.9979, "step": 1552 }, { "epoch": 0.08282666666666667, "grad_norm": 0.027535614654092034, "learning_rate": 0.0001, "loss": 0.9746, "step": 1553 }, { "epoch": 0.08288, "grad_norm": 0.02923735550935302, "learning_rate": 0.0001, "loss": 1.0031, "step": 1554 }, { "epoch": 0.08293333333333333, "grad_norm": 0.02625690829483926, "learning_rate": 0.0001, "loss": 1.0894, "step": 1555 }, { "epoch": 0.08298666666666667, "grad_norm": 0.025239970946088996, "learning_rate": 0.0001, "loss": 1.0199, "step": 1556 }, { "epoch": 0.08304, "grad_norm": 0.02633667201976562, "learning_rate": 0.0001, "loss": 0.9639, "step": 1557 }, { "epoch": 0.08309333333333334, "grad_norm": 0.02729809787232353, "learning_rate": 0.0001, "loss": 1.0513, "step": 1558 }, { "epoch": 0.08314666666666666, "grad_norm": 0.029699752635502195, "learning_rate": 0.0001, "loss": 0.9995, "step": 1559 }, { "epoch": 0.0832, "grad_norm": 0.02481791339729372, "learning_rate": 0.0001, "loss": 1.0139, "step": 1560 }, { "epoch": 0.08325333333333333, "grad_norm": 0.027365490445984048, "learning_rate": 0.0001, "loss": 0.9835, "step": 1561 }, { "epoch": 0.08330666666666667, "grad_norm": 0.02472597973698374, "learning_rate": 0.0001, "loss": 1.0375, "step": 1562 }, { "epoch": 0.08336, "grad_norm": 0.027768346048782602, "learning_rate": 0.0001, "loss": 1.0305, "step": 1563 }, { "epoch": 0.08341333333333334, "grad_norm": 0.025728658318964568, "learning_rate": 0.0001, "loss": 0.9488, "step": 1564 }, { "epoch": 0.08346666666666666, "grad_norm": 0.02586553781614546, "learning_rate": 0.0001, "loss": 0.979, "step": 1565 }, { "epoch": 0.08352, "grad_norm": 0.02553693242261939, "learning_rate": 0.0001, "loss": 1.0683, "step": 1566 }, { "epoch": 0.08357333333333333, "grad_norm": 0.026735360596725873, "learning_rate": 0.0001, "loss": 0.9717, "step": 1567 }, { "epoch": 0.08362666666666667, "grad_norm": 0.026995346702144832, "learning_rate": 0.0001, "loss": 0.9823, "step": 1568 }, { "epoch": 0.08368, "grad_norm": 0.02578036468245732, "learning_rate": 0.0001, "loss": 1.1003, "step": 1569 }, { "epoch": 0.08373333333333334, "grad_norm": 0.02664008019348427, "learning_rate": 0.0001, "loss": 0.9939, "step": 1570 }, { "epoch": 0.08378666666666666, "grad_norm": 0.029823983044379082, "learning_rate": 0.0001, "loss": 1.0035, "step": 1571 }, { "epoch": 0.08384, "grad_norm": 0.023818900662485383, "learning_rate": 0.0001, "loss": 1.0078, "step": 1572 }, { "epoch": 0.08389333333333333, "grad_norm": 0.02435022822384678, "learning_rate": 0.0001, "loss": 1.0192, "step": 1573 }, { "epoch": 0.08394666666666667, "grad_norm": 0.02507708371610949, "learning_rate": 0.0001, "loss": 1.0177, "step": 1574 }, { "epoch": 0.084, "grad_norm": 0.023913553638367026, "learning_rate": 0.0001, "loss": 0.9483, "step": 1575 }, { "epoch": 0.08405333333333333, "grad_norm": 0.02568587703158502, "learning_rate": 0.0001, "loss": 1.0717, "step": 1576 }, { "epoch": 0.08410666666666666, "grad_norm": 0.025944895421864032, "learning_rate": 0.0001, "loss": 1.0526, "step": 1577 }, { "epoch": 0.08416, "grad_norm": 0.02646828619855901, "learning_rate": 0.0001, "loss": 0.9812, "step": 1578 }, { "epoch": 0.08421333333333333, "grad_norm": 0.025017327459500173, "learning_rate": 0.0001, "loss": 1.0247, "step": 1579 }, { "epoch": 0.08426666666666667, "grad_norm": 0.025283419385447873, "learning_rate": 0.0001, "loss": 1.0028, "step": 1580 }, { "epoch": 0.08432, "grad_norm": 0.027223075998950373, "learning_rate": 0.0001, "loss": 1.0855, "step": 1581 }, { "epoch": 0.08437333333333333, "grad_norm": 0.023793914633807686, "learning_rate": 0.0001, "loss": 1.0072, "step": 1582 }, { "epoch": 0.08442666666666666, "grad_norm": 0.02710413380255237, "learning_rate": 0.0001, "loss": 1.0395, "step": 1583 }, { "epoch": 0.08448, "grad_norm": 0.025049181167726087, "learning_rate": 0.0001, "loss": 0.97, "step": 1584 }, { "epoch": 0.08453333333333334, "grad_norm": 0.02629292705725318, "learning_rate": 0.0001, "loss": 1.0031, "step": 1585 }, { "epoch": 0.08458666666666667, "grad_norm": 0.02520748871995693, "learning_rate": 0.0001, "loss": 1.0103, "step": 1586 }, { "epoch": 0.08464, "grad_norm": 0.02843349929480919, "learning_rate": 0.0001, "loss": 1.0619, "step": 1587 }, { "epoch": 0.08469333333333333, "grad_norm": 0.026836174255504115, "learning_rate": 0.0001, "loss": 1.0073, "step": 1588 }, { "epoch": 0.08474666666666666, "grad_norm": 0.024843639483892115, "learning_rate": 0.0001, "loss": 1.0837, "step": 1589 }, { "epoch": 0.0848, "grad_norm": 0.030244325504555757, "learning_rate": 0.0001, "loss": 0.9761, "step": 1590 }, { "epoch": 0.08485333333333334, "grad_norm": 0.02657709651189101, "learning_rate": 0.0001, "loss": 1.0237, "step": 1591 }, { "epoch": 0.08490666666666667, "grad_norm": 0.02763528265193033, "learning_rate": 0.0001, "loss": 0.9971, "step": 1592 }, { "epoch": 0.08496, "grad_norm": 0.02706134080795604, "learning_rate": 0.0001, "loss": 1.0058, "step": 1593 }, { "epoch": 0.08501333333333333, "grad_norm": 0.026873050487400754, "learning_rate": 0.0001, "loss": 1.0049, "step": 1594 }, { "epoch": 0.08506666666666667, "grad_norm": 0.02625830900610149, "learning_rate": 0.0001, "loss": 1.0174, "step": 1595 }, { "epoch": 0.08512, "grad_norm": 0.025403924046330264, "learning_rate": 0.0001, "loss": 1.0057, "step": 1596 }, { "epoch": 0.08517333333333334, "grad_norm": 0.027074432906036717, "learning_rate": 0.0001, "loss": 0.9804, "step": 1597 }, { "epoch": 0.08522666666666667, "grad_norm": 0.02364806341704116, "learning_rate": 0.0001, "loss": 0.9883, "step": 1598 }, { "epoch": 0.08528, "grad_norm": 0.02643864527379029, "learning_rate": 0.0001, "loss": 1.0002, "step": 1599 }, { "epoch": 0.08533333333333333, "grad_norm": 0.027524541238944548, "learning_rate": 0.0001, "loss": 1.0438, "step": 1600 }, { "epoch": 0.08533333333333333, "eval_accuracy": 0.6111164200630435, "eval_loss": 1.4051686525344849, "eval_runtime": 62.3124, "eval_samples_per_second": 16.048, "eval_steps_per_second": 0.514, "step": 1600 }, { "epoch": 0.08538666666666667, "grad_norm": 0.024333860457797122, "learning_rate": 0.0001, "loss": 1.0056, "step": 1601 }, { "epoch": 0.08544, "grad_norm": 0.028871405646871996, "learning_rate": 0.0001, "loss": 0.996, "step": 1602 }, { "epoch": 0.08549333333333334, "grad_norm": 0.025524074282346144, "learning_rate": 0.0001, "loss": 1.0397, "step": 1603 }, { "epoch": 0.08554666666666666, "grad_norm": 0.027338458430915938, "learning_rate": 0.0001, "loss": 1.0328, "step": 1604 }, { "epoch": 0.0856, "grad_norm": 0.02718197945014735, "learning_rate": 0.0001, "loss": 1.0049, "step": 1605 }, { "epoch": 0.08565333333333333, "grad_norm": 0.027048704369950827, "learning_rate": 0.0001, "loss": 1.0459, "step": 1606 }, { "epoch": 0.08570666666666667, "grad_norm": 0.02761106787873851, "learning_rate": 0.0001, "loss": 1.0458, "step": 1607 }, { "epoch": 0.08576, "grad_norm": 0.02878431664877957, "learning_rate": 0.0001, "loss": 0.9668, "step": 1608 }, { "epoch": 0.08581333333333334, "grad_norm": 0.026939563731929548, "learning_rate": 0.0001, "loss": 1.0254, "step": 1609 }, { "epoch": 0.08586666666666666, "grad_norm": 0.025351258581296547, "learning_rate": 0.0001, "loss": 0.982, "step": 1610 }, { "epoch": 0.08592, "grad_norm": 0.025921022097349863, "learning_rate": 0.0001, "loss": 1.074, "step": 1611 }, { "epoch": 0.08597333333333333, "grad_norm": 0.026906411444533228, "learning_rate": 0.0001, "loss": 1.0487, "step": 1612 }, { "epoch": 0.08602666666666667, "grad_norm": 0.027938239313429567, "learning_rate": 0.0001, "loss": 1.0296, "step": 1613 }, { "epoch": 0.08608, "grad_norm": 0.03104342664970851, "learning_rate": 0.0001, "loss": 1.0354, "step": 1614 }, { "epoch": 0.08613333333333334, "grad_norm": 0.023911488479491448, "learning_rate": 0.0001, "loss": 1.0023, "step": 1615 }, { "epoch": 0.08618666666666666, "grad_norm": 0.02748881469877469, "learning_rate": 0.0001, "loss": 1.0316, "step": 1616 }, { "epoch": 0.08624, "grad_norm": 0.027981382134354804, "learning_rate": 0.0001, "loss": 0.9672, "step": 1617 }, { "epoch": 0.08629333333333333, "grad_norm": 0.02384819178907592, "learning_rate": 0.0001, "loss": 1.0193, "step": 1618 }, { "epoch": 0.08634666666666667, "grad_norm": 0.02682580440277934, "learning_rate": 0.0001, "loss": 1.058, "step": 1619 }, { "epoch": 0.0864, "grad_norm": 0.027393850021443702, "learning_rate": 0.0001, "loss": 1.0155, "step": 1620 }, { "epoch": 0.08645333333333333, "grad_norm": 0.025514055877307703, "learning_rate": 0.0001, "loss": 1.0987, "step": 1621 }, { "epoch": 0.08650666666666666, "grad_norm": 0.03246291050599303, "learning_rate": 0.0001, "loss": 0.9447, "step": 1622 }, { "epoch": 0.08656, "grad_norm": 0.03116930717625424, "learning_rate": 0.0001, "loss": 0.9727, "step": 1623 }, { "epoch": 0.08661333333333333, "grad_norm": 0.027942244165248268, "learning_rate": 0.0001, "loss": 0.994, "step": 1624 }, { "epoch": 0.08666666666666667, "grad_norm": 0.029544866859618355, "learning_rate": 0.0001, "loss": 0.9821, "step": 1625 }, { "epoch": 0.08672, "grad_norm": 0.027719445613050512, "learning_rate": 0.0001, "loss": 0.9928, "step": 1626 }, { "epoch": 0.08677333333333333, "grad_norm": 0.029063922189782414, "learning_rate": 0.0001, "loss": 0.9914, "step": 1627 }, { "epoch": 0.08682666666666666, "grad_norm": 0.026125284237836527, "learning_rate": 0.0001, "loss": 1.0221, "step": 1628 }, { "epoch": 0.08688, "grad_norm": 0.028649155519534477, "learning_rate": 0.0001, "loss": 0.9485, "step": 1629 }, { "epoch": 0.08693333333333333, "grad_norm": 0.02514183244715916, "learning_rate": 0.0001, "loss": 1.0246, "step": 1630 }, { "epoch": 0.08698666666666667, "grad_norm": 0.026914914148138295, "learning_rate": 0.0001, "loss": 1.0659, "step": 1631 }, { "epoch": 0.08704, "grad_norm": 0.026892289746215037, "learning_rate": 0.0001, "loss": 1.0238, "step": 1632 }, { "epoch": 0.08709333333333333, "grad_norm": 0.02780507037563323, "learning_rate": 0.0001, "loss": 1.0442, "step": 1633 }, { "epoch": 0.08714666666666666, "grad_norm": 0.02725497993423547, "learning_rate": 0.0001, "loss": 1.0028, "step": 1634 }, { "epoch": 0.0872, "grad_norm": 0.02454640770351659, "learning_rate": 0.0001, "loss": 1.0028, "step": 1635 }, { "epoch": 0.08725333333333334, "grad_norm": 0.02873437278170768, "learning_rate": 0.0001, "loss": 1.015, "step": 1636 }, { "epoch": 0.08730666666666667, "grad_norm": 0.02428603185801352, "learning_rate": 0.0001, "loss": 1.0086, "step": 1637 }, { "epoch": 0.08736, "grad_norm": 0.02395485818679434, "learning_rate": 0.0001, "loss": 1.0654, "step": 1638 }, { "epoch": 0.08741333333333333, "grad_norm": 0.025068727051273523, "learning_rate": 0.0001, "loss": 0.995, "step": 1639 }, { "epoch": 0.08746666666666666, "grad_norm": 0.02764220420059766, "learning_rate": 0.0001, "loss": 1.0253, "step": 1640 }, { "epoch": 0.08752, "grad_norm": 0.027516404586483915, "learning_rate": 0.0001, "loss": 1.0075, "step": 1641 }, { "epoch": 0.08757333333333334, "grad_norm": 0.027620191736511365, "learning_rate": 0.0001, "loss": 1.0056, "step": 1642 }, { "epoch": 0.08762666666666667, "grad_norm": 0.024105948224103578, "learning_rate": 0.0001, "loss": 1.025, "step": 1643 }, { "epoch": 0.08768, "grad_norm": 0.024704928453450233, "learning_rate": 0.0001, "loss": 0.9796, "step": 1644 }, { "epoch": 0.08773333333333333, "grad_norm": 0.02587444906541705, "learning_rate": 0.0001, "loss": 1.0034, "step": 1645 }, { "epoch": 0.08778666666666667, "grad_norm": 0.029882130682068617, "learning_rate": 0.0001, "loss": 1.0498, "step": 1646 }, { "epoch": 0.08784, "grad_norm": 0.023523680702732513, "learning_rate": 0.0001, "loss": 1.0134, "step": 1647 }, { "epoch": 0.08789333333333334, "grad_norm": 0.03161279412790102, "learning_rate": 0.0001, "loss": 0.9855, "step": 1648 }, { "epoch": 0.08794666666666667, "grad_norm": 0.026111464804400124, "learning_rate": 0.0001, "loss": 0.9874, "step": 1649 }, { "epoch": 0.088, "grad_norm": 0.02369524085610575, "learning_rate": 0.0001, "loss": 0.9638, "step": 1650 }, { "epoch": 0.08805333333333333, "grad_norm": 0.026724448795401586, "learning_rate": 0.0001, "loss": 0.993, "step": 1651 }, { "epoch": 0.08810666666666667, "grad_norm": 0.02434652811431213, "learning_rate": 0.0001, "loss": 1.0375, "step": 1652 }, { "epoch": 0.08816, "grad_norm": 0.02641802642256993, "learning_rate": 0.0001, "loss": 0.9669, "step": 1653 }, { "epoch": 0.08821333333333334, "grad_norm": 0.02704088025815972, "learning_rate": 0.0001, "loss": 1.0674, "step": 1654 }, { "epoch": 0.08826666666666666, "grad_norm": 0.026580655933756088, "learning_rate": 0.0001, "loss": 1.0324, "step": 1655 }, { "epoch": 0.08832, "grad_norm": 0.025541002932235494, "learning_rate": 0.0001, "loss": 0.9957, "step": 1656 }, { "epoch": 0.08837333333333333, "grad_norm": 0.02425335744978024, "learning_rate": 0.0001, "loss": 1.0396, "step": 1657 }, { "epoch": 0.08842666666666667, "grad_norm": 0.025029864562193624, "learning_rate": 0.0001, "loss": 0.9733, "step": 1658 }, { "epoch": 0.08848, "grad_norm": 0.0258564929170752, "learning_rate": 0.0001, "loss": 0.9763, "step": 1659 }, { "epoch": 0.08853333333333334, "grad_norm": 0.02532436277157024, "learning_rate": 0.0001, "loss": 1.0376, "step": 1660 }, { "epoch": 0.08858666666666666, "grad_norm": 0.02331636109425414, "learning_rate": 0.0001, "loss": 1.0454, "step": 1661 }, { "epoch": 0.08864, "grad_norm": 0.026312235223190022, "learning_rate": 0.0001, "loss": 1.0128, "step": 1662 }, { "epoch": 0.08869333333333333, "grad_norm": 0.02491033015725192, "learning_rate": 0.0001, "loss": 0.9808, "step": 1663 }, { "epoch": 0.08874666666666667, "grad_norm": 0.02454194957278418, "learning_rate": 0.0001, "loss": 1.0142, "step": 1664 }, { "epoch": 0.0888, "grad_norm": 0.02576786164535435, "learning_rate": 0.0001, "loss": 1.0284, "step": 1665 }, { "epoch": 0.08885333333333334, "grad_norm": 0.024897808986337595, "learning_rate": 0.0001, "loss": 1.0102, "step": 1666 }, { "epoch": 0.08890666666666666, "grad_norm": 0.027395751137081897, "learning_rate": 0.0001, "loss": 0.9939, "step": 1667 }, { "epoch": 0.08896, "grad_norm": 0.023969278879351286, "learning_rate": 0.0001, "loss": 0.9943, "step": 1668 }, { "epoch": 0.08901333333333333, "grad_norm": 0.028213584504482914, "learning_rate": 0.0001, "loss": 1.0293, "step": 1669 }, { "epoch": 0.08906666666666667, "grad_norm": 0.0262724947876903, "learning_rate": 0.0001, "loss": 0.9801, "step": 1670 }, { "epoch": 0.08912, "grad_norm": 0.02819361528058505, "learning_rate": 0.0001, "loss": 1.0, "step": 1671 }, { "epoch": 0.08917333333333333, "grad_norm": 0.026433207744932123, "learning_rate": 0.0001, "loss": 1.0716, "step": 1672 }, { "epoch": 0.08922666666666666, "grad_norm": 0.027583189213461916, "learning_rate": 0.0001, "loss": 0.9633, "step": 1673 }, { "epoch": 0.08928, "grad_norm": 0.03334037978148873, "learning_rate": 0.0001, "loss": 1.0258, "step": 1674 }, { "epoch": 0.08933333333333333, "grad_norm": 0.025799672207011414, "learning_rate": 0.0001, "loss": 0.9964, "step": 1675 }, { "epoch": 0.08938666666666667, "grad_norm": 0.030178915478207755, "learning_rate": 0.0001, "loss": 1.0152, "step": 1676 }, { "epoch": 0.08944, "grad_norm": 0.031286293077241574, "learning_rate": 0.0001, "loss": 1.0411, "step": 1677 }, { "epoch": 0.08949333333333333, "grad_norm": 0.026584444541368858, "learning_rate": 0.0001, "loss": 0.9999, "step": 1678 }, { "epoch": 0.08954666666666666, "grad_norm": 0.026960636323574913, "learning_rate": 0.0001, "loss": 0.9764, "step": 1679 }, { "epoch": 0.0896, "grad_norm": 0.027705183975991404, "learning_rate": 0.0001, "loss": 1.0469, "step": 1680 }, { "epoch": 0.08965333333333333, "grad_norm": 0.025136739959075987, "learning_rate": 0.0001, "loss": 1.0311, "step": 1681 }, { "epoch": 0.08970666666666667, "grad_norm": 0.026736461705802014, "learning_rate": 0.0001, "loss": 1.0173, "step": 1682 }, { "epoch": 0.08976, "grad_norm": 0.028525250848681818, "learning_rate": 0.0001, "loss": 1.0228, "step": 1683 }, { "epoch": 0.08981333333333333, "grad_norm": 0.02676341902486581, "learning_rate": 0.0001, "loss": 1.047, "step": 1684 }, { "epoch": 0.08986666666666666, "grad_norm": 0.024986884908375157, "learning_rate": 0.0001, "loss": 1.0229, "step": 1685 }, { "epoch": 0.08992, "grad_norm": 0.0271127230468846, "learning_rate": 0.0001, "loss": 0.9274, "step": 1686 }, { "epoch": 0.08997333333333334, "grad_norm": 0.02432142211509463, "learning_rate": 0.0001, "loss": 0.9596, "step": 1687 }, { "epoch": 0.09002666666666667, "grad_norm": 0.023718455176784132, "learning_rate": 0.0001, "loss": 1.0163, "step": 1688 }, { "epoch": 0.09008, "grad_norm": 0.025190807199383432, "learning_rate": 0.0001, "loss": 1.0467, "step": 1689 }, { "epoch": 0.09013333333333333, "grad_norm": 0.02679934260588532, "learning_rate": 0.0001, "loss": 1.0625, "step": 1690 }, { "epoch": 0.09018666666666666, "grad_norm": 0.02499328437889648, "learning_rate": 0.0001, "loss": 0.9813, "step": 1691 }, { "epoch": 0.09024, "grad_norm": 0.026114553358626526, "learning_rate": 0.0001, "loss": 0.9858, "step": 1692 }, { "epoch": 0.09029333333333334, "grad_norm": 0.02759223264635291, "learning_rate": 0.0001, "loss": 1.0597, "step": 1693 }, { "epoch": 0.09034666666666667, "grad_norm": 0.02477337762464771, "learning_rate": 0.0001, "loss": 0.9722, "step": 1694 }, { "epoch": 0.0904, "grad_norm": 0.030597370145696044, "learning_rate": 0.0001, "loss": 1.0009, "step": 1695 }, { "epoch": 0.09045333333333333, "grad_norm": 0.0269802342504588, "learning_rate": 0.0001, "loss": 1.0182, "step": 1696 }, { "epoch": 0.09050666666666667, "grad_norm": 0.028398027754227593, "learning_rate": 0.0001, "loss": 0.9681, "step": 1697 }, { "epoch": 0.09056, "grad_norm": 0.02632898383592627, "learning_rate": 0.0001, "loss": 1.0317, "step": 1698 }, { "epoch": 0.09061333333333334, "grad_norm": 0.026515849132896733, "learning_rate": 0.0001, "loss": 0.9844, "step": 1699 }, { "epoch": 0.09066666666666667, "grad_norm": 0.025155368958244148, "learning_rate": 0.0001, "loss": 1.0638, "step": 1700 }, { "epoch": 0.09072, "grad_norm": 0.027698319155554787, "learning_rate": 0.0001, "loss": 1.0095, "step": 1701 }, { "epoch": 0.09077333333333333, "grad_norm": 0.02797775958278094, "learning_rate": 0.0001, "loss": 1.0786, "step": 1702 }, { "epoch": 0.09082666666666667, "grad_norm": 0.024382992456232475, "learning_rate": 0.0001, "loss": 0.9912, "step": 1703 }, { "epoch": 0.09088, "grad_norm": 0.02952066494495971, "learning_rate": 0.0001, "loss": 0.9821, "step": 1704 }, { "epoch": 0.09093333333333334, "grad_norm": 0.02899875864966753, "learning_rate": 0.0001, "loss": 1.0077, "step": 1705 }, { "epoch": 0.09098666666666666, "grad_norm": 0.026592968723358867, "learning_rate": 0.0001, "loss": 1.0005, "step": 1706 }, { "epoch": 0.09104, "grad_norm": 0.030095527237822748, "learning_rate": 0.0001, "loss": 1.0524, "step": 1707 }, { "epoch": 0.09109333333333333, "grad_norm": 0.02715821974390595, "learning_rate": 0.0001, "loss": 1.0011, "step": 1708 }, { "epoch": 0.09114666666666667, "grad_norm": 0.027274376064868367, "learning_rate": 0.0001, "loss": 1.0054, "step": 1709 }, { "epoch": 0.0912, "grad_norm": 0.030510571714560775, "learning_rate": 0.0001, "loss": 0.9756, "step": 1710 }, { "epoch": 0.09125333333333334, "grad_norm": 0.026075248117775816, "learning_rate": 0.0001, "loss": 0.9185, "step": 1711 }, { "epoch": 0.09130666666666666, "grad_norm": 0.02689173076707366, "learning_rate": 0.0001, "loss": 1.0624, "step": 1712 }, { "epoch": 0.09136, "grad_norm": 0.024428361835030922, "learning_rate": 0.0001, "loss": 0.9844, "step": 1713 }, { "epoch": 0.09141333333333333, "grad_norm": 0.02846834767866163, "learning_rate": 0.0001, "loss": 0.9807, "step": 1714 }, { "epoch": 0.09146666666666667, "grad_norm": 0.027712228909874643, "learning_rate": 0.0001, "loss": 0.9749, "step": 1715 }, { "epoch": 0.09152, "grad_norm": 0.029249827378259485, "learning_rate": 0.0001, "loss": 0.9665, "step": 1716 }, { "epoch": 0.09157333333333334, "grad_norm": 0.02676265195772794, "learning_rate": 0.0001, "loss": 1.0787, "step": 1717 }, { "epoch": 0.09162666666666666, "grad_norm": 0.026417364972317784, "learning_rate": 0.0001, "loss": 1.0017, "step": 1718 }, { "epoch": 0.09168, "grad_norm": 0.02616057926094756, "learning_rate": 0.0001, "loss": 1.0432, "step": 1719 }, { "epoch": 0.09173333333333333, "grad_norm": 0.026234734860853134, "learning_rate": 0.0001, "loss": 0.9905, "step": 1720 }, { "epoch": 0.09178666666666667, "grad_norm": 0.02740101369343298, "learning_rate": 0.0001, "loss": 0.982, "step": 1721 }, { "epoch": 0.09184, "grad_norm": 0.024539701504416735, "learning_rate": 0.0001, "loss": 0.9917, "step": 1722 }, { "epoch": 0.09189333333333333, "grad_norm": 0.026474563542769735, "learning_rate": 0.0001, "loss": 0.9442, "step": 1723 }, { "epoch": 0.09194666666666666, "grad_norm": 0.024552329386387097, "learning_rate": 0.0001, "loss": 0.9935, "step": 1724 }, { "epoch": 0.092, "grad_norm": 0.023491981119751097, "learning_rate": 0.0001, "loss": 1.0291, "step": 1725 }, { "epoch": 0.09205333333333333, "grad_norm": 0.025442738392128725, "learning_rate": 0.0001, "loss": 1.0475, "step": 1726 }, { "epoch": 0.09210666666666667, "grad_norm": 0.02894522853190607, "learning_rate": 0.0001, "loss": 1.0067, "step": 1727 }, { "epoch": 0.09216, "grad_norm": 0.02563683882378615, "learning_rate": 0.0001, "loss": 1.0071, "step": 1728 }, { "epoch": 0.09221333333333333, "grad_norm": 0.025999817213072776, "learning_rate": 0.0001, "loss": 0.9715, "step": 1729 }, { "epoch": 0.09226666666666666, "grad_norm": 0.028409682757899516, "learning_rate": 0.0001, "loss": 1.0014, "step": 1730 }, { "epoch": 0.09232, "grad_norm": 0.025394641858095045, "learning_rate": 0.0001, "loss": 0.9869, "step": 1731 }, { "epoch": 0.09237333333333334, "grad_norm": 0.02526101493891038, "learning_rate": 0.0001, "loss": 0.9533, "step": 1732 }, { "epoch": 0.09242666666666667, "grad_norm": 0.028404987165490607, "learning_rate": 0.0001, "loss": 0.9978, "step": 1733 }, { "epoch": 0.09248, "grad_norm": 0.025651584142426888, "learning_rate": 0.0001, "loss": 1.0245, "step": 1734 }, { "epoch": 0.09253333333333333, "grad_norm": 0.02437145064307925, "learning_rate": 0.0001, "loss": 0.9909, "step": 1735 }, { "epoch": 0.09258666666666666, "grad_norm": 0.026212105608985792, "learning_rate": 0.0001, "loss": 1.0524, "step": 1736 }, { "epoch": 0.09264, "grad_norm": 0.027990822097352142, "learning_rate": 0.0001, "loss": 1.0271, "step": 1737 }, { "epoch": 0.09269333333333334, "grad_norm": 0.024368786657260787, "learning_rate": 0.0001, "loss": 1.033, "step": 1738 }, { "epoch": 0.09274666666666667, "grad_norm": 0.026037695697492907, "learning_rate": 0.0001, "loss": 0.9692, "step": 1739 }, { "epoch": 0.0928, "grad_norm": 0.027122951737729564, "learning_rate": 0.0001, "loss": 1.0466, "step": 1740 }, { "epoch": 0.09285333333333333, "grad_norm": 0.023528733016336824, "learning_rate": 0.0001, "loss": 1.0546, "step": 1741 }, { "epoch": 0.09290666666666667, "grad_norm": 0.02716075871002687, "learning_rate": 0.0001, "loss": 0.9757, "step": 1742 }, { "epoch": 0.09296, "grad_norm": 0.026061910702890774, "learning_rate": 0.0001, "loss": 1.0185, "step": 1743 }, { "epoch": 0.09301333333333334, "grad_norm": 0.025498591143851043, "learning_rate": 0.0001, "loss": 1.0075, "step": 1744 }, { "epoch": 0.09306666666666667, "grad_norm": 0.02753189620518896, "learning_rate": 0.0001, "loss": 0.9778, "step": 1745 }, { "epoch": 0.09312, "grad_norm": 0.026410139711493787, "learning_rate": 0.0001, "loss": 0.9939, "step": 1746 }, { "epoch": 0.09317333333333333, "grad_norm": 0.02352162010348392, "learning_rate": 0.0001, "loss": 0.9638, "step": 1747 }, { "epoch": 0.09322666666666667, "grad_norm": 0.025293605198432895, "learning_rate": 0.0001, "loss": 1.0098, "step": 1748 }, { "epoch": 0.09328, "grad_norm": 0.026499699243056417, "learning_rate": 0.0001, "loss": 0.9988, "step": 1749 }, { "epoch": 0.09333333333333334, "grad_norm": 0.024018577571171568, "learning_rate": 0.0001, "loss": 0.9883, "step": 1750 }, { "epoch": 0.09338666666666667, "grad_norm": 0.0258354690331234, "learning_rate": 0.0001, "loss": 0.9998, "step": 1751 }, { "epoch": 0.09344, "grad_norm": 0.027881464814561805, "learning_rate": 0.0001, "loss": 1.0046, "step": 1752 }, { "epoch": 0.09349333333333333, "grad_norm": 0.02734276690280944, "learning_rate": 0.0001, "loss": 0.9858, "step": 1753 }, { "epoch": 0.09354666666666667, "grad_norm": 0.023597517684438688, "learning_rate": 0.0001, "loss": 1.0529, "step": 1754 }, { "epoch": 0.0936, "grad_norm": 0.02523499115527569, "learning_rate": 0.0001, "loss": 0.9891, "step": 1755 }, { "epoch": 0.09365333333333334, "grad_norm": 0.026698421265167332, "learning_rate": 0.0001, "loss": 1.0022, "step": 1756 }, { "epoch": 0.09370666666666666, "grad_norm": 0.02572376629924787, "learning_rate": 0.0001, "loss": 1.0202, "step": 1757 }, { "epoch": 0.09376, "grad_norm": 0.026939146007016586, "learning_rate": 0.0001, "loss": 0.9981, "step": 1758 }, { "epoch": 0.09381333333333333, "grad_norm": 0.02469809148471521, "learning_rate": 0.0001, "loss": 1.0729, "step": 1759 }, { "epoch": 0.09386666666666667, "grad_norm": 0.024083144609128162, "learning_rate": 0.0001, "loss": 0.9581, "step": 1760 }, { "epoch": 0.09392, "grad_norm": 0.03286444010305604, "learning_rate": 0.0001, "loss": 0.9607, "step": 1761 }, { "epoch": 0.09397333333333334, "grad_norm": 0.02535318325816316, "learning_rate": 0.0001, "loss": 1.0391, "step": 1762 }, { "epoch": 0.09402666666666666, "grad_norm": 0.02609278320812464, "learning_rate": 0.0001, "loss": 0.9832, "step": 1763 }, { "epoch": 0.09408, "grad_norm": 0.0301802693528634, "learning_rate": 0.0001, "loss": 0.9418, "step": 1764 }, { "epoch": 0.09413333333333333, "grad_norm": 0.02674836627990494, "learning_rate": 0.0001, "loss": 0.9741, "step": 1765 }, { "epoch": 0.09418666666666667, "grad_norm": 0.02862390419340115, "learning_rate": 0.0001, "loss": 1.0038, "step": 1766 }, { "epoch": 0.09424, "grad_norm": 0.032028635798749795, "learning_rate": 0.0001, "loss": 1.0522, "step": 1767 }, { "epoch": 0.09429333333333334, "grad_norm": 0.02919962683289195, "learning_rate": 0.0001, "loss": 1.0422, "step": 1768 }, { "epoch": 0.09434666666666666, "grad_norm": 0.029720593006157026, "learning_rate": 0.0001, "loss": 0.9749, "step": 1769 }, { "epoch": 0.0944, "grad_norm": 0.028929824526491132, "learning_rate": 0.0001, "loss": 1.0072, "step": 1770 }, { "epoch": 0.09445333333333333, "grad_norm": 0.02551252284860104, "learning_rate": 0.0001, "loss": 0.9661, "step": 1771 }, { "epoch": 0.09450666666666667, "grad_norm": 0.02791962427811782, "learning_rate": 0.0001, "loss": 1.0586, "step": 1772 }, { "epoch": 0.09456, "grad_norm": 0.026555815047303703, "learning_rate": 0.0001, "loss": 0.9625, "step": 1773 }, { "epoch": 0.09461333333333333, "grad_norm": 0.029418712513713204, "learning_rate": 0.0001, "loss": 0.9615, "step": 1774 }, { "epoch": 0.09466666666666666, "grad_norm": 0.03439212182632328, "learning_rate": 0.0001, "loss": 1.0457, "step": 1775 }, { "epoch": 0.09472, "grad_norm": 0.027321044234176778, "learning_rate": 0.0001, "loss": 1.078, "step": 1776 }, { "epoch": 0.09477333333333333, "grad_norm": 0.030670738780217758, "learning_rate": 0.0001, "loss": 1.1129, "step": 1777 }, { "epoch": 0.09482666666666667, "grad_norm": 0.029383832265691454, "learning_rate": 0.0001, "loss": 0.9938, "step": 1778 }, { "epoch": 0.09488, "grad_norm": 0.02720325300478246, "learning_rate": 0.0001, "loss": 1.0402, "step": 1779 }, { "epoch": 0.09493333333333333, "grad_norm": 0.028869254098936505, "learning_rate": 0.0001, "loss": 0.9943, "step": 1780 }, { "epoch": 0.09498666666666666, "grad_norm": 0.031482732271876396, "learning_rate": 0.0001, "loss": 1.043, "step": 1781 }, { "epoch": 0.09504, "grad_norm": 0.027812352464561867, "learning_rate": 0.0001, "loss": 1.0623, "step": 1782 }, { "epoch": 0.09509333333333334, "grad_norm": 0.02795522155764562, "learning_rate": 0.0001, "loss": 0.9707, "step": 1783 }, { "epoch": 0.09514666666666667, "grad_norm": 0.027468503020127197, "learning_rate": 0.0001, "loss": 0.9858, "step": 1784 }, { "epoch": 0.0952, "grad_norm": 0.024921094476944523, "learning_rate": 0.0001, "loss": 0.9838, "step": 1785 }, { "epoch": 0.09525333333333333, "grad_norm": 0.027751712130999067, "learning_rate": 0.0001, "loss": 1.0585, "step": 1786 }, { "epoch": 0.09530666666666666, "grad_norm": 0.02837704226553712, "learning_rate": 0.0001, "loss": 0.9754, "step": 1787 }, { "epoch": 0.09536, "grad_norm": 0.02693760585726541, "learning_rate": 0.0001, "loss": 1.0319, "step": 1788 }, { "epoch": 0.09541333333333334, "grad_norm": 0.024990361247057558, "learning_rate": 0.0001, "loss": 1.0216, "step": 1789 }, { "epoch": 0.09546666666666667, "grad_norm": 0.028547143362786735, "learning_rate": 0.0001, "loss": 1.0228, "step": 1790 }, { "epoch": 0.09552, "grad_norm": 0.025239653871196078, "learning_rate": 0.0001, "loss": 0.9934, "step": 1791 }, { "epoch": 0.09557333333333333, "grad_norm": 0.03229651057235325, "learning_rate": 0.0001, "loss": 1.0224, "step": 1792 }, { "epoch": 0.09562666666666667, "grad_norm": 0.02750077221088778, "learning_rate": 0.0001, "loss": 1.0267, "step": 1793 }, { "epoch": 0.09568, "grad_norm": 0.02558573558556958, "learning_rate": 0.0001, "loss": 1.0002, "step": 1794 }, { "epoch": 0.09573333333333334, "grad_norm": 0.028222107457715147, "learning_rate": 0.0001, "loss": 0.9911, "step": 1795 }, { "epoch": 0.09578666666666667, "grad_norm": 0.027468523254279027, "learning_rate": 0.0001, "loss": 0.9948, "step": 1796 }, { "epoch": 0.09584, "grad_norm": 0.025223288196050308, "learning_rate": 0.0001, "loss": 1.0172, "step": 1797 }, { "epoch": 0.09589333333333333, "grad_norm": 0.026517673595087225, "learning_rate": 0.0001, "loss": 1.0282, "step": 1798 }, { "epoch": 0.09594666666666667, "grad_norm": 0.02647175800062843, "learning_rate": 0.0001, "loss": 0.9687, "step": 1799 }, { "epoch": 0.096, "grad_norm": 0.02717602330948198, "learning_rate": 0.0001, "loss": 1.0288, "step": 1800 }, { "epoch": 0.096, "eval_accuracy": 0.6117149061834115, "eval_loss": 1.4017579555511475, "eval_runtime": 63.9275, "eval_samples_per_second": 15.643, "eval_steps_per_second": 0.501, "step": 1800 }, { "epoch": 0.09605333333333334, "grad_norm": 0.026474170603097015, "learning_rate": 0.0001, "loss": 1.0126, "step": 1801 }, { "epoch": 0.09610666666666667, "grad_norm": 0.024332581358247896, "learning_rate": 0.0001, "loss": 0.9759, "step": 1802 }, { "epoch": 0.09616, "grad_norm": 0.027823690981710756, "learning_rate": 0.0001, "loss": 0.9734, "step": 1803 }, { "epoch": 0.09621333333333333, "grad_norm": 0.025689156649572973, "learning_rate": 0.0001, "loss": 1.0184, "step": 1804 }, { "epoch": 0.09626666666666667, "grad_norm": 0.028318192894736794, "learning_rate": 0.0001, "loss": 1.0668, "step": 1805 }, { "epoch": 0.09632, "grad_norm": 0.024948618317884128, "learning_rate": 0.0001, "loss": 0.9993, "step": 1806 }, { "epoch": 0.09637333333333334, "grad_norm": 0.025092836099335887, "learning_rate": 0.0001, "loss": 1.0153, "step": 1807 }, { "epoch": 0.09642666666666666, "grad_norm": 0.02868225498337703, "learning_rate": 0.0001, "loss": 1.059, "step": 1808 }, { "epoch": 0.09648, "grad_norm": 0.027579504013672918, "learning_rate": 0.0001, "loss": 1.0522, "step": 1809 }, { "epoch": 0.09653333333333333, "grad_norm": 0.023955397764145323, "learning_rate": 0.0001, "loss": 1.0164, "step": 1810 }, { "epoch": 0.09658666666666667, "grad_norm": 0.027131767205174347, "learning_rate": 0.0001, "loss": 1.0027, "step": 1811 }, { "epoch": 0.09664, "grad_norm": 0.02637946898112252, "learning_rate": 0.0001, "loss": 0.9864, "step": 1812 }, { "epoch": 0.09669333333333334, "grad_norm": 0.0249877761111989, "learning_rate": 0.0001, "loss": 0.9751, "step": 1813 }, { "epoch": 0.09674666666666666, "grad_norm": 0.02435569218021375, "learning_rate": 0.0001, "loss": 1.0086, "step": 1814 }, { "epoch": 0.0968, "grad_norm": 0.026471375545286908, "learning_rate": 0.0001, "loss": 0.9889, "step": 1815 }, { "epoch": 0.09685333333333333, "grad_norm": 0.02705057781996632, "learning_rate": 0.0001, "loss": 1.0217, "step": 1816 }, { "epoch": 0.09690666666666667, "grad_norm": 0.024508447914617214, "learning_rate": 0.0001, "loss": 1.0135, "step": 1817 }, { "epoch": 0.09696, "grad_norm": 0.02471515119382699, "learning_rate": 0.0001, "loss": 1.0235, "step": 1818 }, { "epoch": 0.09701333333333333, "grad_norm": 0.02519809349355615, "learning_rate": 0.0001, "loss": 0.9898, "step": 1819 }, { "epoch": 0.09706666666666666, "grad_norm": 0.027894246158050605, "learning_rate": 0.0001, "loss": 1.0288, "step": 1820 }, { "epoch": 0.09712, "grad_norm": 0.02650671061756029, "learning_rate": 0.0001, "loss": 1.0679, "step": 1821 }, { "epoch": 0.09717333333333333, "grad_norm": 0.026982299988329017, "learning_rate": 0.0001, "loss": 1.0334, "step": 1822 }, { "epoch": 0.09722666666666667, "grad_norm": 0.027720655944704537, "learning_rate": 0.0001, "loss": 1.04, "step": 1823 }, { "epoch": 0.09728, "grad_norm": 0.028951348718284337, "learning_rate": 0.0001, "loss": 1.0055, "step": 1824 }, { "epoch": 0.09733333333333333, "grad_norm": 0.026756757646060433, "learning_rate": 0.0001, "loss": 1.0684, "step": 1825 }, { "epoch": 0.09738666666666666, "grad_norm": 0.028343509352317667, "learning_rate": 0.0001, "loss": 0.9862, "step": 1826 }, { "epoch": 0.09744, "grad_norm": 0.028011296921425913, "learning_rate": 0.0001, "loss": 0.9897, "step": 1827 }, { "epoch": 0.09749333333333333, "grad_norm": 0.02820925690620987, "learning_rate": 0.0001, "loss": 0.9548, "step": 1828 }, { "epoch": 0.09754666666666667, "grad_norm": 0.029122488372928138, "learning_rate": 0.0001, "loss": 1.0019, "step": 1829 }, { "epoch": 0.0976, "grad_norm": 0.029938284161811022, "learning_rate": 0.0001, "loss": 1.0387, "step": 1830 }, { "epoch": 0.09765333333333333, "grad_norm": 0.026110081154672758, "learning_rate": 0.0001, "loss": 1.0171, "step": 1831 }, { "epoch": 0.09770666666666666, "grad_norm": 0.03180641510840036, "learning_rate": 0.0001, "loss": 1.0626, "step": 1832 }, { "epoch": 0.09776, "grad_norm": 0.031391791359206146, "learning_rate": 0.0001, "loss": 0.9944, "step": 1833 }, { "epoch": 0.09781333333333334, "grad_norm": 0.03036022022416799, "learning_rate": 0.0001, "loss": 1.0262, "step": 1834 }, { "epoch": 0.09786666666666667, "grad_norm": 0.030569257426462083, "learning_rate": 0.0001, "loss": 1.0132, "step": 1835 }, { "epoch": 0.09792, "grad_norm": 0.029279558116151655, "learning_rate": 0.0001, "loss": 1.0221, "step": 1836 }, { "epoch": 0.09797333333333333, "grad_norm": 0.025776614016403392, "learning_rate": 0.0001, "loss": 0.978, "step": 1837 }, { "epoch": 0.09802666666666666, "grad_norm": 0.027116568659026848, "learning_rate": 0.0001, "loss": 1.0044, "step": 1838 }, { "epoch": 0.09808, "grad_norm": 0.02862946957222765, "learning_rate": 0.0001, "loss": 1.0068, "step": 1839 }, { "epoch": 0.09813333333333334, "grad_norm": 0.026582030847286064, "learning_rate": 0.0001, "loss": 1.0898, "step": 1840 }, { "epoch": 0.09818666666666667, "grad_norm": 0.027558736708423723, "learning_rate": 0.0001, "loss": 0.9958, "step": 1841 }, { "epoch": 0.09824, "grad_norm": 0.026918146332382112, "learning_rate": 0.0001, "loss": 1.0365, "step": 1842 }, { "epoch": 0.09829333333333333, "grad_norm": 0.026220423836761764, "learning_rate": 0.0001, "loss": 1.0427, "step": 1843 }, { "epoch": 0.09834666666666667, "grad_norm": 0.027341757737839867, "learning_rate": 0.0001, "loss": 1.0327, "step": 1844 }, { "epoch": 0.0984, "grad_norm": 0.03077203941912083, "learning_rate": 0.0001, "loss": 1.0647, "step": 1845 }, { "epoch": 0.09845333333333334, "grad_norm": 0.024721607580795137, "learning_rate": 0.0001, "loss": 0.9791, "step": 1846 }, { "epoch": 0.09850666666666667, "grad_norm": 0.026722780123306807, "learning_rate": 0.0001, "loss": 0.9718, "step": 1847 }, { "epoch": 0.09856, "grad_norm": 0.02822684111347732, "learning_rate": 0.0001, "loss": 1.0117, "step": 1848 }, { "epoch": 0.09861333333333333, "grad_norm": 0.02546732186006609, "learning_rate": 0.0001, "loss": 0.9597, "step": 1849 }, { "epoch": 0.09866666666666667, "grad_norm": 0.02769913557590931, "learning_rate": 0.0001, "loss": 1.0134, "step": 1850 }, { "epoch": 0.09872, "grad_norm": 0.025367627036535854, "learning_rate": 0.0001, "loss": 1.0284, "step": 1851 }, { "epoch": 0.09877333333333334, "grad_norm": 0.025516870154589193, "learning_rate": 0.0001, "loss": 1.0267, "step": 1852 }, { "epoch": 0.09882666666666666, "grad_norm": 0.02850170173129112, "learning_rate": 0.0001, "loss": 1.0197, "step": 1853 }, { "epoch": 0.09888, "grad_norm": 0.024316710862384343, "learning_rate": 0.0001, "loss": 0.9934, "step": 1854 }, { "epoch": 0.09893333333333333, "grad_norm": 0.027704142445614345, "learning_rate": 0.0001, "loss": 1.0285, "step": 1855 }, { "epoch": 0.09898666666666667, "grad_norm": 0.026212797075420326, "learning_rate": 0.0001, "loss": 1.0365, "step": 1856 }, { "epoch": 0.09904, "grad_norm": 0.02655944895114864, "learning_rate": 0.0001, "loss": 0.9826, "step": 1857 }, { "epoch": 0.09909333333333334, "grad_norm": 0.024671669543793826, "learning_rate": 0.0001, "loss": 0.9688, "step": 1858 }, { "epoch": 0.09914666666666666, "grad_norm": 0.024421498576460532, "learning_rate": 0.0001, "loss": 0.9964, "step": 1859 }, { "epoch": 0.0992, "grad_norm": 0.023854420082805937, "learning_rate": 0.0001, "loss": 1.0023, "step": 1860 }, { "epoch": 0.09925333333333333, "grad_norm": 0.02428955736881184, "learning_rate": 0.0001, "loss": 0.9708, "step": 1861 }, { "epoch": 0.09930666666666667, "grad_norm": 0.026649005740785735, "learning_rate": 0.0001, "loss": 0.9576, "step": 1862 }, { "epoch": 0.09936, "grad_norm": 0.027735739310567723, "learning_rate": 0.0001, "loss": 1.0374, "step": 1863 }, { "epoch": 0.09941333333333334, "grad_norm": 0.024455062062683542, "learning_rate": 0.0001, "loss": 1.0154, "step": 1864 }, { "epoch": 0.09946666666666666, "grad_norm": 0.024040579326079864, "learning_rate": 0.0001, "loss": 1.0439, "step": 1865 }, { "epoch": 0.09952, "grad_norm": 0.026970134807268998, "learning_rate": 0.0001, "loss": 1.0242, "step": 1866 }, { "epoch": 0.09957333333333333, "grad_norm": 0.025892452018809558, "learning_rate": 0.0001, "loss": 0.9627, "step": 1867 }, { "epoch": 0.09962666666666667, "grad_norm": 0.027867194156961827, "learning_rate": 0.0001, "loss": 1.0216, "step": 1868 }, { "epoch": 0.09968, "grad_norm": 0.0243704870711029, "learning_rate": 0.0001, "loss": 0.9606, "step": 1869 }, { "epoch": 0.09973333333333333, "grad_norm": 0.028308412592797896, "learning_rate": 0.0001, "loss": 1.0777, "step": 1870 }, { "epoch": 0.09978666666666666, "grad_norm": 0.027009309904881117, "learning_rate": 0.0001, "loss": 1.0945, "step": 1871 }, { "epoch": 0.09984, "grad_norm": 0.02863369094801097, "learning_rate": 0.0001, "loss": 0.9993, "step": 1872 }, { "epoch": 0.09989333333333333, "grad_norm": 0.025717993922258098, "learning_rate": 0.0001, "loss": 1.0429, "step": 1873 }, { "epoch": 0.09994666666666667, "grad_norm": 0.026863420998601537, "learning_rate": 0.0001, "loss": 1.0125, "step": 1874 }, { "epoch": 0.1, "grad_norm": 0.02583073216285001, "learning_rate": 0.0001, "loss": 0.9977, "step": 1875 }, { "epoch": 0.10005333333333333, "grad_norm": 0.0276424618591933, "learning_rate": 0.0001, "loss": 1.0497, "step": 1876 }, { "epoch": 0.10010666666666666, "grad_norm": 0.024954585680697965, "learning_rate": 0.0001, "loss": 0.9936, "step": 1877 }, { "epoch": 0.10016, "grad_norm": 0.025946171754408123, "learning_rate": 0.0001, "loss": 1.0016, "step": 1878 }, { "epoch": 0.10021333333333333, "grad_norm": 0.02709503114111363, "learning_rate": 0.0001, "loss": 1.0261, "step": 1879 }, { "epoch": 0.10026666666666667, "grad_norm": 0.02563694793596819, "learning_rate": 0.0001, "loss": 1.0654, "step": 1880 }, { "epoch": 0.10032, "grad_norm": 0.02477156782106925, "learning_rate": 0.0001, "loss": 1.0201, "step": 1881 }, { "epoch": 0.10037333333333333, "grad_norm": 0.02551557701433031, "learning_rate": 0.0001, "loss": 0.9832, "step": 1882 }, { "epoch": 0.10042666666666666, "grad_norm": 0.02570531366445619, "learning_rate": 0.0001, "loss": 1.0165, "step": 1883 }, { "epoch": 0.10048, "grad_norm": 0.02399273575370972, "learning_rate": 0.0001, "loss": 1.0362, "step": 1884 }, { "epoch": 0.10053333333333334, "grad_norm": 0.024072758475031313, "learning_rate": 0.0001, "loss": 0.9879, "step": 1885 }, { "epoch": 0.10058666666666667, "grad_norm": 0.02433747128627947, "learning_rate": 0.0001, "loss": 1.1223, "step": 1886 }, { "epoch": 0.10064, "grad_norm": 0.03303525614659945, "learning_rate": 0.0001, "loss": 1.0714, "step": 1887 }, { "epoch": 0.10069333333333333, "grad_norm": 0.02332029137483146, "learning_rate": 0.0001, "loss": 1.0364, "step": 1888 }, { "epoch": 0.10074666666666666, "grad_norm": 0.02777416592039625, "learning_rate": 0.0001, "loss": 0.9786, "step": 1889 }, { "epoch": 0.1008, "grad_norm": 0.025270277818516276, "learning_rate": 0.0001, "loss": 1.0121, "step": 1890 }, { "epoch": 0.10085333333333334, "grad_norm": 0.025404611992190868, "learning_rate": 0.0001, "loss": 0.9427, "step": 1891 }, { "epoch": 0.10090666666666667, "grad_norm": 0.026128368207249158, "learning_rate": 0.0001, "loss": 0.9763, "step": 1892 }, { "epoch": 0.10096, "grad_norm": 0.02442779372121171, "learning_rate": 0.0001, "loss": 0.9795, "step": 1893 }, { "epoch": 0.10101333333333333, "grad_norm": 0.02487319894098852, "learning_rate": 0.0001, "loss": 1.0199, "step": 1894 }, { "epoch": 0.10106666666666667, "grad_norm": 0.023395152764658922, "learning_rate": 0.0001, "loss": 0.9748, "step": 1895 }, { "epoch": 0.10112, "grad_norm": 0.02510831742104269, "learning_rate": 0.0001, "loss": 1.0951, "step": 1896 }, { "epoch": 0.10117333333333334, "grad_norm": 0.024851943473627423, "learning_rate": 0.0001, "loss": 0.9566, "step": 1897 }, { "epoch": 0.10122666666666667, "grad_norm": 0.024322109316710198, "learning_rate": 0.0001, "loss": 1.028, "step": 1898 }, { "epoch": 0.10128, "grad_norm": 0.02333669161288907, "learning_rate": 0.0001, "loss": 1.0325, "step": 1899 }, { "epoch": 0.10133333333333333, "grad_norm": 0.024147932672948177, "learning_rate": 0.0001, "loss": 0.9924, "step": 1900 }, { "epoch": 0.10138666666666667, "grad_norm": 0.024903475437280883, "learning_rate": 0.0001, "loss": 0.9794, "step": 1901 }, { "epoch": 0.10144, "grad_norm": 0.026711218139195605, "learning_rate": 0.0001, "loss": 1.0366, "step": 1902 }, { "epoch": 0.10149333333333334, "grad_norm": 0.02484719580986286, "learning_rate": 0.0001, "loss": 1.0002, "step": 1903 }, { "epoch": 0.10154666666666666, "grad_norm": 0.02906016147654106, "learning_rate": 0.0001, "loss": 1.0155, "step": 1904 }, { "epoch": 0.1016, "grad_norm": 0.02614413787796812, "learning_rate": 0.0001, "loss": 1.0569, "step": 1905 }, { "epoch": 0.10165333333333333, "grad_norm": 0.027502067753524612, "learning_rate": 0.0001, "loss": 1.0825, "step": 1906 }, { "epoch": 0.10170666666666667, "grad_norm": 0.025413807720129338, "learning_rate": 0.0001, "loss": 1.0558, "step": 1907 }, { "epoch": 0.10176, "grad_norm": 0.026141474564551452, "learning_rate": 0.0001, "loss": 0.9856, "step": 1908 }, { "epoch": 0.10181333333333334, "grad_norm": 0.024715573803985463, "learning_rate": 0.0001, "loss": 1.0171, "step": 1909 }, { "epoch": 0.10186666666666666, "grad_norm": 0.029804406447989595, "learning_rate": 0.0001, "loss": 1.0213, "step": 1910 }, { "epoch": 0.10192, "grad_norm": 0.027504463726386142, "learning_rate": 0.0001, "loss": 0.9805, "step": 1911 }, { "epoch": 0.10197333333333333, "grad_norm": 0.025145610773627345, "learning_rate": 0.0001, "loss": 1.0126, "step": 1912 }, { "epoch": 0.10202666666666667, "grad_norm": 0.03093082703882014, "learning_rate": 0.0001, "loss": 1.0231, "step": 1913 }, { "epoch": 0.10208, "grad_norm": 0.02851026308543958, "learning_rate": 0.0001, "loss": 1.053, "step": 1914 }, { "epoch": 0.10213333333333334, "grad_norm": 0.027187190166202586, "learning_rate": 0.0001, "loss": 0.972, "step": 1915 }, { "epoch": 0.10218666666666666, "grad_norm": 0.02791952218613602, "learning_rate": 0.0001, "loss": 0.9744, "step": 1916 }, { "epoch": 0.10224, "grad_norm": 0.031260068552164115, "learning_rate": 0.0001, "loss": 1.0133, "step": 1917 }, { "epoch": 0.10229333333333333, "grad_norm": 0.024601403397165423, "learning_rate": 0.0001, "loss": 1.014, "step": 1918 }, { "epoch": 0.10234666666666667, "grad_norm": 0.029228849255080486, "learning_rate": 0.0001, "loss": 0.9682, "step": 1919 }, { "epoch": 0.1024, "grad_norm": 0.029265121470891196, "learning_rate": 0.0001, "loss": 1.0137, "step": 1920 }, { "epoch": 0.10245333333333333, "grad_norm": 0.026853127011340867, "learning_rate": 0.0001, "loss": 0.9647, "step": 1921 }, { "epoch": 0.10250666666666666, "grad_norm": 0.029246142836743927, "learning_rate": 0.0001, "loss": 1.0383, "step": 1922 }, { "epoch": 0.10256, "grad_norm": 0.025856190939471526, "learning_rate": 0.0001, "loss": 1.0007, "step": 1923 }, { "epoch": 0.10261333333333333, "grad_norm": 0.0267755548079927, "learning_rate": 0.0001, "loss": 0.9806, "step": 1924 }, { "epoch": 0.10266666666666667, "grad_norm": 0.026690684977771387, "learning_rate": 0.0001, "loss": 1.038, "step": 1925 }, { "epoch": 0.10272, "grad_norm": 0.026618639866638587, "learning_rate": 0.0001, "loss": 0.9954, "step": 1926 }, { "epoch": 0.10277333333333333, "grad_norm": 0.02596768822875572, "learning_rate": 0.0001, "loss": 0.9701, "step": 1927 }, { "epoch": 0.10282666666666666, "grad_norm": 0.028649441489260408, "learning_rate": 0.0001, "loss": 0.9695, "step": 1928 }, { "epoch": 0.10288, "grad_norm": 0.026475914507270742, "learning_rate": 0.0001, "loss": 1.0406, "step": 1929 }, { "epoch": 0.10293333333333334, "grad_norm": 0.027746107603944192, "learning_rate": 0.0001, "loss": 1.001, "step": 1930 }, { "epoch": 0.10298666666666667, "grad_norm": 0.02657877018326379, "learning_rate": 0.0001, "loss": 1.0202, "step": 1931 }, { "epoch": 0.10304, "grad_norm": 0.02999225571761472, "learning_rate": 0.0001, "loss": 0.9689, "step": 1932 }, { "epoch": 0.10309333333333333, "grad_norm": 0.02461548146482592, "learning_rate": 0.0001, "loss": 1.0252, "step": 1933 }, { "epoch": 0.10314666666666666, "grad_norm": 0.025478776721493405, "learning_rate": 0.0001, "loss": 1.0344, "step": 1934 }, { "epoch": 0.1032, "grad_norm": 0.027208605498652963, "learning_rate": 0.0001, "loss": 0.9965, "step": 1935 }, { "epoch": 0.10325333333333334, "grad_norm": 0.02392304188911514, "learning_rate": 0.0001, "loss": 1.0177, "step": 1936 }, { "epoch": 0.10330666666666667, "grad_norm": 0.026268404338796923, "learning_rate": 0.0001, "loss": 0.9459, "step": 1937 }, { "epoch": 0.10336, "grad_norm": 0.026412222358779425, "learning_rate": 0.0001, "loss": 1.0084, "step": 1938 }, { "epoch": 0.10341333333333333, "grad_norm": 0.025308864875314037, "learning_rate": 0.0001, "loss": 0.9879, "step": 1939 }, { "epoch": 0.10346666666666667, "grad_norm": 0.02683519855809526, "learning_rate": 0.0001, "loss": 0.9522, "step": 1940 }, { "epoch": 0.10352, "grad_norm": 0.02487007182962759, "learning_rate": 0.0001, "loss": 0.9756, "step": 1941 }, { "epoch": 0.10357333333333334, "grad_norm": 0.02548284013803566, "learning_rate": 0.0001, "loss": 1.0293, "step": 1942 }, { "epoch": 0.10362666666666667, "grad_norm": 0.027483480805573564, "learning_rate": 0.0001, "loss": 0.9829, "step": 1943 }, { "epoch": 0.10368, "grad_norm": 0.025357852215251633, "learning_rate": 0.0001, "loss": 1.02, "step": 1944 }, { "epoch": 0.10373333333333333, "grad_norm": 0.024417443712794525, "learning_rate": 0.0001, "loss": 1.0342, "step": 1945 }, { "epoch": 0.10378666666666667, "grad_norm": 0.025212515050863245, "learning_rate": 0.0001, "loss": 1.0261, "step": 1946 }, { "epoch": 0.10384, "grad_norm": 0.02715287927450849, "learning_rate": 0.0001, "loss": 1.0888, "step": 1947 }, { "epoch": 0.10389333333333334, "grad_norm": 0.02464481080682214, "learning_rate": 0.0001, "loss": 0.9871, "step": 1948 }, { "epoch": 0.10394666666666667, "grad_norm": 0.025267557867188442, "learning_rate": 0.0001, "loss": 1.0083, "step": 1949 }, { "epoch": 0.104, "grad_norm": 0.026403671552678303, "learning_rate": 0.0001, "loss": 0.9942, "step": 1950 }, { "epoch": 0.10405333333333333, "grad_norm": 0.02660930428931585, "learning_rate": 0.0001, "loss": 0.993, "step": 1951 }, { "epoch": 0.10410666666666667, "grad_norm": 0.02559204134810665, "learning_rate": 0.0001, "loss": 0.9865, "step": 1952 }, { "epoch": 0.10416, "grad_norm": 0.02833656163479924, "learning_rate": 0.0001, "loss": 0.9698, "step": 1953 }, { "epoch": 0.10421333333333334, "grad_norm": 0.025026132686761626, "learning_rate": 0.0001, "loss": 1.0321, "step": 1954 }, { "epoch": 0.10426666666666666, "grad_norm": 0.027099366214257754, "learning_rate": 0.0001, "loss": 1.0077, "step": 1955 }, { "epoch": 0.10432, "grad_norm": 0.026555571292262853, "learning_rate": 0.0001, "loss": 0.975, "step": 1956 }, { "epoch": 0.10437333333333333, "grad_norm": 0.02766922898797857, "learning_rate": 0.0001, "loss": 0.9683, "step": 1957 }, { "epoch": 0.10442666666666667, "grad_norm": 0.027884693599386702, "learning_rate": 0.0001, "loss": 1.0072, "step": 1958 }, { "epoch": 0.10448, "grad_norm": 0.02750964309412206, "learning_rate": 0.0001, "loss": 1.0463, "step": 1959 }, { "epoch": 0.10453333333333334, "grad_norm": 0.027391580582628857, "learning_rate": 0.0001, "loss": 1.0194, "step": 1960 }, { "epoch": 0.10458666666666666, "grad_norm": 0.028291123470079015, "learning_rate": 0.0001, "loss": 1.0661, "step": 1961 }, { "epoch": 0.10464, "grad_norm": 0.024367357579490802, "learning_rate": 0.0001, "loss": 1.0243, "step": 1962 }, { "epoch": 0.10469333333333333, "grad_norm": 0.026896705245996903, "learning_rate": 0.0001, "loss": 1.048, "step": 1963 }, { "epoch": 0.10474666666666667, "grad_norm": 0.024014784925605673, "learning_rate": 0.0001, "loss": 0.9792, "step": 1964 }, { "epoch": 0.1048, "grad_norm": 0.02624009237364406, "learning_rate": 0.0001, "loss": 0.9993, "step": 1965 }, { "epoch": 0.10485333333333334, "grad_norm": 0.026485778716663005, "learning_rate": 0.0001, "loss": 1.0184, "step": 1966 }, { "epoch": 0.10490666666666666, "grad_norm": 0.02696097436545561, "learning_rate": 0.0001, "loss": 0.9764, "step": 1967 }, { "epoch": 0.10496, "grad_norm": 0.025456156688193687, "learning_rate": 0.0001, "loss": 1.0692, "step": 1968 }, { "epoch": 0.10501333333333333, "grad_norm": 0.025841252224660004, "learning_rate": 0.0001, "loss": 0.9954, "step": 1969 }, { "epoch": 0.10506666666666667, "grad_norm": 0.026600776297318815, "learning_rate": 0.0001, "loss": 1.03, "step": 1970 }, { "epoch": 0.10512, "grad_norm": 0.024445464919730178, "learning_rate": 0.0001, "loss": 1.0116, "step": 1971 }, { "epoch": 0.10517333333333333, "grad_norm": 0.027320711199589585, "learning_rate": 0.0001, "loss": 1.0304, "step": 1972 }, { "epoch": 0.10522666666666666, "grad_norm": 0.0271909061216866, "learning_rate": 0.0001, "loss": 0.9916, "step": 1973 }, { "epoch": 0.10528, "grad_norm": 0.02668642502060246, "learning_rate": 0.0001, "loss": 0.9963, "step": 1974 }, { "epoch": 0.10533333333333333, "grad_norm": 0.02692076832247553, "learning_rate": 0.0001, "loss": 1.0576, "step": 1975 }, { "epoch": 0.10538666666666667, "grad_norm": 0.02911911198221922, "learning_rate": 0.0001, "loss": 0.9963, "step": 1976 }, { "epoch": 0.10544, "grad_norm": 0.026305641868667337, "learning_rate": 0.0001, "loss": 1.0539, "step": 1977 }, { "epoch": 0.10549333333333333, "grad_norm": 0.027819519887910694, "learning_rate": 0.0001, "loss": 1.0299, "step": 1978 }, { "epoch": 0.10554666666666666, "grad_norm": 0.028878339990009338, "learning_rate": 0.0001, "loss": 1.0267, "step": 1979 }, { "epoch": 0.1056, "grad_norm": 0.024715884763626402, "learning_rate": 0.0001, "loss": 0.9883, "step": 1980 }, { "epoch": 0.10565333333333334, "grad_norm": 0.026698224581276256, "learning_rate": 0.0001, "loss": 1.0324, "step": 1981 }, { "epoch": 0.10570666666666667, "grad_norm": 0.026797746759935723, "learning_rate": 0.0001, "loss": 1.0273, "step": 1982 }, { "epoch": 0.10576, "grad_norm": 0.02637697289529258, "learning_rate": 0.0001, "loss": 1.036, "step": 1983 }, { "epoch": 0.10581333333333333, "grad_norm": 0.027490889894038525, "learning_rate": 0.0001, "loss": 1.0662, "step": 1984 }, { "epoch": 0.10586666666666666, "grad_norm": 0.028784755916305305, "learning_rate": 0.0001, "loss": 1.0738, "step": 1985 }, { "epoch": 0.10592, "grad_norm": 0.026430533461847344, "learning_rate": 0.0001, "loss": 1.0255, "step": 1986 }, { "epoch": 0.10597333333333334, "grad_norm": 0.02771385361866348, "learning_rate": 0.0001, "loss": 0.9523, "step": 1987 }, { "epoch": 0.10602666666666667, "grad_norm": 0.025820626387133817, "learning_rate": 0.0001, "loss": 1.0057, "step": 1988 }, { "epoch": 0.10608, "grad_norm": 0.02501093499965385, "learning_rate": 0.0001, "loss": 0.956, "step": 1989 }, { "epoch": 0.10613333333333333, "grad_norm": 0.025393065878287234, "learning_rate": 0.0001, "loss": 0.9771, "step": 1990 }, { "epoch": 0.10618666666666667, "grad_norm": 0.02433525861005163, "learning_rate": 0.0001, "loss": 1.0222, "step": 1991 }, { "epoch": 0.10624, "grad_norm": 0.025743988477036673, "learning_rate": 0.0001, "loss": 1.0, "step": 1992 }, { "epoch": 0.10629333333333334, "grad_norm": 0.024186730462006176, "learning_rate": 0.0001, "loss": 1.0019, "step": 1993 }, { "epoch": 0.10634666666666667, "grad_norm": 0.024408849496376284, "learning_rate": 0.0001, "loss": 0.9596, "step": 1994 }, { "epoch": 0.1064, "grad_norm": 0.02531392651852765, "learning_rate": 0.0001, "loss": 1.0181, "step": 1995 }, { "epoch": 0.10645333333333333, "grad_norm": 0.02397712578046048, "learning_rate": 0.0001, "loss": 0.9416, "step": 1996 }, { "epoch": 0.10650666666666667, "grad_norm": 0.0249083873345864, "learning_rate": 0.0001, "loss": 0.9916, "step": 1997 }, { "epoch": 0.10656, "grad_norm": 0.02596409446287122, "learning_rate": 0.0001, "loss": 0.9965, "step": 1998 }, { "epoch": 0.10661333333333334, "grad_norm": 0.02387360256428351, "learning_rate": 0.0001, "loss": 0.9894, "step": 1999 }, { "epoch": 0.10666666666666667, "grad_norm": 0.027009784346743636, "learning_rate": 0.0001, "loss": 0.9834, "step": 2000 }, { "epoch": 0.10666666666666667, "eval_accuracy": 0.6123432930393983, "eval_loss": 1.3981534242630005, "eval_runtime": 63.8076, "eval_samples_per_second": 15.672, "eval_steps_per_second": 0.502, "step": 2000 }, { "epoch": 0.10672, "grad_norm": 0.027742784353426045, "learning_rate": 0.0001, "loss": 1.0317, "step": 2001 }, { "epoch": 0.10677333333333333, "grad_norm": 0.027769249333219316, "learning_rate": 0.0001, "loss": 1.0201, "step": 2002 }, { "epoch": 0.10682666666666667, "grad_norm": 0.026781943052861093, "learning_rate": 0.0001, "loss": 1.055, "step": 2003 }, { "epoch": 0.10688, "grad_norm": 0.02779960157225846, "learning_rate": 0.0001, "loss": 1.0161, "step": 2004 }, { "epoch": 0.10693333333333334, "grad_norm": 0.025469473704442438, "learning_rate": 0.0001, "loss": 0.9938, "step": 2005 }, { "epoch": 0.10698666666666666, "grad_norm": 0.023461746510397025, "learning_rate": 0.0001, "loss": 0.9738, "step": 2006 }, { "epoch": 0.10704, "grad_norm": 0.02535358148092865, "learning_rate": 0.0001, "loss": 1.0215, "step": 2007 }, { "epoch": 0.10709333333333333, "grad_norm": 0.024463807766439652, "learning_rate": 0.0001, "loss": 0.9905, "step": 2008 }, { "epoch": 0.10714666666666667, "grad_norm": 0.025121991933841827, "learning_rate": 0.0001, "loss": 1.0117, "step": 2009 }, { "epoch": 0.1072, "grad_norm": 0.025142435222194854, "learning_rate": 0.0001, "loss": 0.9703, "step": 2010 }, { "epoch": 0.10725333333333334, "grad_norm": 0.026532337434997024, "learning_rate": 0.0001, "loss": 0.9579, "step": 2011 }, { "epoch": 0.10730666666666666, "grad_norm": 0.025678967032873416, "learning_rate": 0.0001, "loss": 1.0187, "step": 2012 }, { "epoch": 0.10736, "grad_norm": 0.02638969883814826, "learning_rate": 0.0001, "loss": 1.0282, "step": 2013 }, { "epoch": 0.10741333333333333, "grad_norm": 0.027287102957817756, "learning_rate": 0.0001, "loss": 1.0369, "step": 2014 }, { "epoch": 0.10746666666666667, "grad_norm": 0.02433789329818884, "learning_rate": 0.0001, "loss": 1.0052, "step": 2015 }, { "epoch": 0.10752, "grad_norm": 0.026432855369620846, "learning_rate": 0.0001, "loss": 0.9944, "step": 2016 }, { "epoch": 0.10757333333333334, "grad_norm": 0.0250285047702418, "learning_rate": 0.0001, "loss": 1.0139, "step": 2017 }, { "epoch": 0.10762666666666666, "grad_norm": 0.025969295652722393, "learning_rate": 0.0001, "loss": 1.0158, "step": 2018 }, { "epoch": 0.10768, "grad_norm": 0.026765351775885002, "learning_rate": 0.0001, "loss": 0.9992, "step": 2019 }, { "epoch": 0.10773333333333333, "grad_norm": 0.028706935050714335, "learning_rate": 0.0001, "loss": 1.0171, "step": 2020 }, { "epoch": 0.10778666666666667, "grad_norm": 0.02514746546500298, "learning_rate": 0.0001, "loss": 1.0394, "step": 2021 }, { "epoch": 0.10784, "grad_norm": 0.0276558051163848, "learning_rate": 0.0001, "loss": 1.0834, "step": 2022 }, { "epoch": 0.10789333333333333, "grad_norm": 0.029356735832268208, "learning_rate": 0.0001, "loss": 1.0651, "step": 2023 }, { "epoch": 0.10794666666666666, "grad_norm": 0.02426845761695361, "learning_rate": 0.0001, "loss": 0.9704, "step": 2024 }, { "epoch": 0.108, "grad_norm": 0.025014991705868496, "learning_rate": 0.0001, "loss": 0.9445, "step": 2025 }, { "epoch": 0.10805333333333333, "grad_norm": 0.024023155685142905, "learning_rate": 0.0001, "loss": 1.0757, "step": 2026 }, { "epoch": 0.10810666666666667, "grad_norm": 0.023053028889462587, "learning_rate": 0.0001, "loss": 0.9697, "step": 2027 }, { "epoch": 0.10816, "grad_norm": 0.025082387792870926, "learning_rate": 0.0001, "loss": 1.0642, "step": 2028 }, { "epoch": 0.10821333333333333, "grad_norm": 0.024912207721723933, "learning_rate": 0.0001, "loss": 1.0268, "step": 2029 }, { "epoch": 0.10826666666666666, "grad_norm": 0.027902969002500187, "learning_rate": 0.0001, "loss": 1.0534, "step": 2030 }, { "epoch": 0.10832, "grad_norm": 0.025225899202238954, "learning_rate": 0.0001, "loss": 1.0273, "step": 2031 }, { "epoch": 0.10837333333333334, "grad_norm": 0.028384338649014844, "learning_rate": 0.0001, "loss": 1.0325, "step": 2032 }, { "epoch": 0.10842666666666667, "grad_norm": 0.02722072073030891, "learning_rate": 0.0001, "loss": 0.9999, "step": 2033 }, { "epoch": 0.10848, "grad_norm": 0.02491788083447504, "learning_rate": 0.0001, "loss": 1.0347, "step": 2034 }, { "epoch": 0.10853333333333333, "grad_norm": 0.027438717639746334, "learning_rate": 0.0001, "loss": 0.9803, "step": 2035 }, { "epoch": 0.10858666666666666, "grad_norm": 0.027217281258194913, "learning_rate": 0.0001, "loss": 0.9943, "step": 2036 }, { "epoch": 0.10864, "grad_norm": 0.02860720024638957, "learning_rate": 0.0001, "loss": 1.0149, "step": 2037 }, { "epoch": 0.10869333333333334, "grad_norm": 0.028686436736618588, "learning_rate": 0.0001, "loss": 1.0185, "step": 2038 }, { "epoch": 0.10874666666666667, "grad_norm": 0.027651875297500104, "learning_rate": 0.0001, "loss": 1.0512, "step": 2039 }, { "epoch": 0.1088, "grad_norm": 0.029419184242827155, "learning_rate": 0.0001, "loss": 0.9836, "step": 2040 }, { "epoch": 0.10885333333333333, "grad_norm": 0.028633842914572116, "learning_rate": 0.0001, "loss": 0.9793, "step": 2041 }, { "epoch": 0.10890666666666667, "grad_norm": 0.02608425873008601, "learning_rate": 0.0001, "loss": 1.0022, "step": 2042 }, { "epoch": 0.10896, "grad_norm": 0.02848020612327443, "learning_rate": 0.0001, "loss": 0.9612, "step": 2043 }, { "epoch": 0.10901333333333334, "grad_norm": 0.025439913900451142, "learning_rate": 0.0001, "loss": 1.0482, "step": 2044 }, { "epoch": 0.10906666666666667, "grad_norm": 0.027209960957807634, "learning_rate": 0.0001, "loss": 0.9895, "step": 2045 }, { "epoch": 0.10912, "grad_norm": 0.02957948621369767, "learning_rate": 0.0001, "loss": 0.9869, "step": 2046 }, { "epoch": 0.10917333333333333, "grad_norm": 0.02719346865932927, "learning_rate": 0.0001, "loss": 0.9945, "step": 2047 }, { "epoch": 0.10922666666666667, "grad_norm": 0.026246616476969225, "learning_rate": 0.0001, "loss": 0.9828, "step": 2048 }, { "epoch": 0.10928, "grad_norm": 0.030369343364549398, "learning_rate": 0.0001, "loss": 1.0008, "step": 2049 }, { "epoch": 0.10933333333333334, "grad_norm": 0.027175235093055555, "learning_rate": 0.0001, "loss": 1.071, "step": 2050 }, { "epoch": 0.10938666666666666, "grad_norm": 0.026846670429355204, "learning_rate": 0.0001, "loss": 1.0316, "step": 2051 }, { "epoch": 0.10944, "grad_norm": 0.026511130866680003, "learning_rate": 0.0001, "loss": 1.0199, "step": 2052 }, { "epoch": 0.10949333333333333, "grad_norm": 0.031949039533228495, "learning_rate": 0.0001, "loss": 1.0403, "step": 2053 }, { "epoch": 0.10954666666666667, "grad_norm": 0.02557427169446271, "learning_rate": 0.0001, "loss": 0.9929, "step": 2054 }, { "epoch": 0.1096, "grad_norm": 0.02604242031391767, "learning_rate": 0.0001, "loss": 0.9868, "step": 2055 }, { "epoch": 0.10965333333333334, "grad_norm": 0.028615658723816117, "learning_rate": 0.0001, "loss": 1.0614, "step": 2056 }, { "epoch": 0.10970666666666666, "grad_norm": 0.024816087769466352, "learning_rate": 0.0001, "loss": 0.964, "step": 2057 }, { "epoch": 0.10976, "grad_norm": 0.026815582701237864, "learning_rate": 0.0001, "loss": 0.9889, "step": 2058 }, { "epoch": 0.10981333333333333, "grad_norm": 0.0262103891548872, "learning_rate": 0.0001, "loss": 1.064, "step": 2059 }, { "epoch": 0.10986666666666667, "grad_norm": 0.025708121771794955, "learning_rate": 0.0001, "loss": 1.021, "step": 2060 }, { "epoch": 0.10992, "grad_norm": 0.027747267004105354, "learning_rate": 0.0001, "loss": 1.0043, "step": 2061 }, { "epoch": 0.10997333333333334, "grad_norm": 0.02484047787658274, "learning_rate": 0.0001, "loss": 1.0267, "step": 2062 }, { "epoch": 0.11002666666666666, "grad_norm": 0.027922309626286668, "learning_rate": 0.0001, "loss": 1.0056, "step": 2063 }, { "epoch": 0.11008, "grad_norm": 0.025017010434681238, "learning_rate": 0.0001, "loss": 0.9845, "step": 2064 }, { "epoch": 0.11013333333333333, "grad_norm": 0.0248505692191287, "learning_rate": 0.0001, "loss": 0.9815, "step": 2065 }, { "epoch": 0.11018666666666667, "grad_norm": 0.029069271241668932, "learning_rate": 0.0001, "loss": 0.9557, "step": 2066 }, { "epoch": 0.11024, "grad_norm": 0.02548443556454319, "learning_rate": 0.0001, "loss": 1.0262, "step": 2067 }, { "epoch": 0.11029333333333333, "grad_norm": 0.028869277951330336, "learning_rate": 0.0001, "loss": 1.0355, "step": 2068 }, { "epoch": 0.11034666666666666, "grad_norm": 0.02637719041733675, "learning_rate": 0.0001, "loss": 0.9955, "step": 2069 }, { "epoch": 0.1104, "grad_norm": 0.025214657186896777, "learning_rate": 0.0001, "loss": 1.0306, "step": 2070 }, { "epoch": 0.11045333333333333, "grad_norm": 0.0275084818588604, "learning_rate": 0.0001, "loss": 1.0145, "step": 2071 }, { "epoch": 0.11050666666666667, "grad_norm": 0.025966631301063817, "learning_rate": 0.0001, "loss": 1.0139, "step": 2072 }, { "epoch": 0.11056, "grad_norm": 0.024043813656554454, "learning_rate": 0.0001, "loss": 1.0357, "step": 2073 }, { "epoch": 0.11061333333333333, "grad_norm": 0.026358396195291314, "learning_rate": 0.0001, "loss": 1.0868, "step": 2074 }, { "epoch": 0.11066666666666666, "grad_norm": 0.02733722459492818, "learning_rate": 0.0001, "loss": 1.0452, "step": 2075 }, { "epoch": 0.11072, "grad_norm": 0.026535197720730642, "learning_rate": 0.0001, "loss": 1.0739, "step": 2076 }, { "epoch": 0.11077333333333333, "grad_norm": 0.02685990440864437, "learning_rate": 0.0001, "loss": 1.0622, "step": 2077 }, { "epoch": 0.11082666666666667, "grad_norm": 0.026634582996653902, "learning_rate": 0.0001, "loss": 0.9661, "step": 2078 }, { "epoch": 0.11088, "grad_norm": 0.027176844352423287, "learning_rate": 0.0001, "loss": 1.0066, "step": 2079 }, { "epoch": 0.11093333333333333, "grad_norm": 0.02575597278270332, "learning_rate": 0.0001, "loss": 1.043, "step": 2080 }, { "epoch": 0.11098666666666666, "grad_norm": 0.024559954273952165, "learning_rate": 0.0001, "loss": 0.9954, "step": 2081 }, { "epoch": 0.11104, "grad_norm": 0.024950386761133706, "learning_rate": 0.0001, "loss": 1.0307, "step": 2082 }, { "epoch": 0.11109333333333334, "grad_norm": 0.023868522128561987, "learning_rate": 0.0001, "loss": 1.0059, "step": 2083 }, { "epoch": 0.11114666666666667, "grad_norm": 0.026421875590016245, "learning_rate": 0.0001, "loss": 0.991, "step": 2084 }, { "epoch": 0.1112, "grad_norm": 0.023669395488374222, "learning_rate": 0.0001, "loss": 1.0959, "step": 2085 }, { "epoch": 0.11125333333333333, "grad_norm": 0.024661938863483116, "learning_rate": 0.0001, "loss": 0.9973, "step": 2086 }, { "epoch": 0.11130666666666666, "grad_norm": 0.023881553735706013, "learning_rate": 0.0001, "loss": 1.0164, "step": 2087 }, { "epoch": 0.11136, "grad_norm": 0.02488575308248183, "learning_rate": 0.0001, "loss": 1.0158, "step": 2088 }, { "epoch": 0.11141333333333334, "grad_norm": 0.02443067274307477, "learning_rate": 0.0001, "loss": 1.0233, "step": 2089 }, { "epoch": 0.11146666666666667, "grad_norm": 0.02393087303245719, "learning_rate": 0.0001, "loss": 1.071, "step": 2090 }, { "epoch": 0.11152, "grad_norm": 0.02510129848522317, "learning_rate": 0.0001, "loss": 0.9475, "step": 2091 }, { "epoch": 0.11157333333333333, "grad_norm": 0.024360672155185965, "learning_rate": 0.0001, "loss": 1.0372, "step": 2092 }, { "epoch": 0.11162666666666667, "grad_norm": 0.027495095082865333, "learning_rate": 0.0001, "loss": 1.0217, "step": 2093 }, { "epoch": 0.11168, "grad_norm": 0.024597163069599224, "learning_rate": 0.0001, "loss": 1.0061, "step": 2094 }, { "epoch": 0.11173333333333334, "grad_norm": 0.02548759606357906, "learning_rate": 0.0001, "loss": 0.9649, "step": 2095 }, { "epoch": 0.11178666666666667, "grad_norm": 0.02388532768351436, "learning_rate": 0.0001, "loss": 1.0662, "step": 2096 }, { "epoch": 0.11184, "grad_norm": 0.025241366364395747, "learning_rate": 0.0001, "loss": 1.0156, "step": 2097 }, { "epoch": 0.11189333333333333, "grad_norm": 0.024283780621253408, "learning_rate": 0.0001, "loss": 1.0131, "step": 2098 }, { "epoch": 0.11194666666666667, "grad_norm": 0.02397924849142294, "learning_rate": 0.0001, "loss": 1.0048, "step": 2099 }, { "epoch": 0.112, "grad_norm": 0.02394590902714468, "learning_rate": 0.0001, "loss": 1.0271, "step": 2100 }, { "epoch": 0.11205333333333334, "grad_norm": 0.026508119620060958, "learning_rate": 0.0001, "loss": 1.031, "step": 2101 }, { "epoch": 0.11210666666666666, "grad_norm": 0.023689860835280314, "learning_rate": 0.0001, "loss": 0.9904, "step": 2102 }, { "epoch": 0.11216, "grad_norm": 0.024299791428500254, "learning_rate": 0.0001, "loss": 1.0448, "step": 2103 }, { "epoch": 0.11221333333333333, "grad_norm": 0.024697222950058634, "learning_rate": 0.0001, "loss": 1.0385, "step": 2104 }, { "epoch": 0.11226666666666667, "grad_norm": 0.025070019023772858, "learning_rate": 0.0001, "loss": 1.0007, "step": 2105 }, { "epoch": 0.11232, "grad_norm": 0.024426040661199272, "learning_rate": 0.0001, "loss": 0.9113, "step": 2106 }, { "epoch": 0.11237333333333334, "grad_norm": 0.025437384340030518, "learning_rate": 0.0001, "loss": 0.9971, "step": 2107 }, { "epoch": 0.11242666666666666, "grad_norm": 0.024405281651730414, "learning_rate": 0.0001, "loss": 0.9844, "step": 2108 }, { "epoch": 0.11248, "grad_norm": 0.026111820242574746, "learning_rate": 0.0001, "loss": 1.0253, "step": 2109 }, { "epoch": 0.11253333333333333, "grad_norm": 0.025403810037248894, "learning_rate": 0.0001, "loss": 0.9857, "step": 2110 }, { "epoch": 0.11258666666666667, "grad_norm": 0.02344339304681239, "learning_rate": 0.0001, "loss": 1.0136, "step": 2111 }, { "epoch": 0.11264, "grad_norm": 0.02547941289802202, "learning_rate": 0.0001, "loss": 1.0168, "step": 2112 }, { "epoch": 0.11269333333333334, "grad_norm": 0.02653567149376508, "learning_rate": 0.0001, "loss": 0.9623, "step": 2113 }, { "epoch": 0.11274666666666666, "grad_norm": 0.025806705609436546, "learning_rate": 0.0001, "loss": 1.015, "step": 2114 }, { "epoch": 0.1128, "grad_norm": 0.02632978171864206, "learning_rate": 0.0001, "loss": 1.0087, "step": 2115 }, { "epoch": 0.11285333333333333, "grad_norm": 0.028726545421277293, "learning_rate": 0.0001, "loss": 0.9882, "step": 2116 }, { "epoch": 0.11290666666666667, "grad_norm": 0.029537317447038802, "learning_rate": 0.0001, "loss": 0.9521, "step": 2117 }, { "epoch": 0.11296, "grad_norm": 0.025566935821927088, "learning_rate": 0.0001, "loss": 1.0387, "step": 2118 }, { "epoch": 0.11301333333333333, "grad_norm": 0.026348353325164157, "learning_rate": 0.0001, "loss": 0.9907, "step": 2119 }, { "epoch": 0.11306666666666666, "grad_norm": 0.028456596938348695, "learning_rate": 0.0001, "loss": 1.0282, "step": 2120 }, { "epoch": 0.11312, "grad_norm": 0.025711155782399922, "learning_rate": 0.0001, "loss": 1.019, "step": 2121 }, { "epoch": 0.11317333333333333, "grad_norm": 0.026831048992979282, "learning_rate": 0.0001, "loss": 1.0554, "step": 2122 }, { "epoch": 0.11322666666666667, "grad_norm": 0.026519774545114165, "learning_rate": 0.0001, "loss": 1.0441, "step": 2123 }, { "epoch": 0.11328, "grad_norm": 0.02561187419602871, "learning_rate": 0.0001, "loss": 1.0174, "step": 2124 }, { "epoch": 0.11333333333333333, "grad_norm": 0.02499713023744051, "learning_rate": 0.0001, "loss": 1.0321, "step": 2125 }, { "epoch": 0.11338666666666666, "grad_norm": 0.027188142557324994, "learning_rate": 0.0001, "loss": 0.9944, "step": 2126 }, { "epoch": 0.11344, "grad_norm": 0.025829479945882833, "learning_rate": 0.0001, "loss": 0.9972, "step": 2127 }, { "epoch": 0.11349333333333333, "grad_norm": 0.025590529280256548, "learning_rate": 0.0001, "loss": 1.0417, "step": 2128 }, { "epoch": 0.11354666666666667, "grad_norm": 0.025105861896526208, "learning_rate": 0.0001, "loss": 0.978, "step": 2129 }, { "epoch": 0.1136, "grad_norm": 0.02478240323442967, "learning_rate": 0.0001, "loss": 0.9708, "step": 2130 }, { "epoch": 0.11365333333333333, "grad_norm": 0.026729487245765175, "learning_rate": 0.0001, "loss": 1.0075, "step": 2131 }, { "epoch": 0.11370666666666666, "grad_norm": 0.024163514705901116, "learning_rate": 0.0001, "loss": 1.0083, "step": 2132 }, { "epoch": 0.11376, "grad_norm": 0.0251970161349959, "learning_rate": 0.0001, "loss": 1.0404, "step": 2133 }, { "epoch": 0.11381333333333334, "grad_norm": 0.025548084977616705, "learning_rate": 0.0001, "loss": 1.0042, "step": 2134 }, { "epoch": 0.11386666666666667, "grad_norm": 0.02558494837667576, "learning_rate": 0.0001, "loss": 1.0269, "step": 2135 }, { "epoch": 0.11392, "grad_norm": 0.026479998889485264, "learning_rate": 0.0001, "loss": 1.0671, "step": 2136 }, { "epoch": 0.11397333333333333, "grad_norm": 0.02669569326000752, "learning_rate": 0.0001, "loss": 0.9815, "step": 2137 }, { "epoch": 0.11402666666666667, "grad_norm": 0.028505811579913533, "learning_rate": 0.0001, "loss": 1.0154, "step": 2138 }, { "epoch": 0.11408, "grad_norm": 0.025834098851613738, "learning_rate": 0.0001, "loss": 0.9873, "step": 2139 }, { "epoch": 0.11413333333333334, "grad_norm": 0.028263465436620748, "learning_rate": 0.0001, "loss": 0.96, "step": 2140 }, { "epoch": 0.11418666666666667, "grad_norm": 0.025028575761081327, "learning_rate": 0.0001, "loss": 1.0014, "step": 2141 }, { "epoch": 0.11424, "grad_norm": 0.02491420736179301, "learning_rate": 0.0001, "loss": 0.9812, "step": 2142 }, { "epoch": 0.11429333333333333, "grad_norm": 0.025524255050032047, "learning_rate": 0.0001, "loss": 1.0304, "step": 2143 }, { "epoch": 0.11434666666666667, "grad_norm": 0.023813079788056524, "learning_rate": 0.0001, "loss": 1.0042, "step": 2144 }, { "epoch": 0.1144, "grad_norm": 0.02582461420766471, "learning_rate": 0.0001, "loss": 0.9673, "step": 2145 }, { "epoch": 0.11445333333333334, "grad_norm": 0.025470043529205722, "learning_rate": 0.0001, "loss": 1.0124, "step": 2146 }, { "epoch": 0.11450666666666667, "grad_norm": 0.024923656566735803, "learning_rate": 0.0001, "loss": 1.0498, "step": 2147 }, { "epoch": 0.11456, "grad_norm": 0.025511512300976848, "learning_rate": 0.0001, "loss": 1.0023, "step": 2148 }, { "epoch": 0.11461333333333333, "grad_norm": 0.02640557009199673, "learning_rate": 0.0001, "loss": 0.9841, "step": 2149 }, { "epoch": 0.11466666666666667, "grad_norm": 0.02408924397605639, "learning_rate": 0.0001, "loss": 0.9482, "step": 2150 }, { "epoch": 0.11472, "grad_norm": 0.02631311666127592, "learning_rate": 0.0001, "loss": 1.0472, "step": 2151 }, { "epoch": 0.11477333333333334, "grad_norm": 0.024600700473147004, "learning_rate": 0.0001, "loss": 0.9527, "step": 2152 }, { "epoch": 0.11482666666666666, "grad_norm": 0.02501648714994939, "learning_rate": 0.0001, "loss": 0.9861, "step": 2153 }, { "epoch": 0.11488, "grad_norm": 0.02395526142938342, "learning_rate": 0.0001, "loss": 0.9243, "step": 2154 }, { "epoch": 0.11493333333333333, "grad_norm": 0.024870331139526258, "learning_rate": 0.0001, "loss": 1.0109, "step": 2155 }, { "epoch": 0.11498666666666667, "grad_norm": 0.023881387043714664, "learning_rate": 0.0001, "loss": 1.0023, "step": 2156 }, { "epoch": 0.11504, "grad_norm": 0.027182444619142862, "learning_rate": 0.0001, "loss": 1.0313, "step": 2157 }, { "epoch": 0.11509333333333334, "grad_norm": 0.026538848672725667, "learning_rate": 0.0001, "loss": 0.9611, "step": 2158 }, { "epoch": 0.11514666666666666, "grad_norm": 0.029701252435740746, "learning_rate": 0.0001, "loss": 0.9888, "step": 2159 }, { "epoch": 0.1152, "grad_norm": 0.025367714095643784, "learning_rate": 0.0001, "loss": 1.0036, "step": 2160 }, { "epoch": 0.11525333333333333, "grad_norm": 0.025827633540537614, "learning_rate": 0.0001, "loss": 0.9581, "step": 2161 }, { "epoch": 0.11530666666666667, "grad_norm": 0.026948062670853628, "learning_rate": 0.0001, "loss": 1.0023, "step": 2162 }, { "epoch": 0.11536, "grad_norm": 0.02699895684854266, "learning_rate": 0.0001, "loss": 0.9855, "step": 2163 }, { "epoch": 0.11541333333333334, "grad_norm": 0.028115170220504845, "learning_rate": 0.0001, "loss": 0.9797, "step": 2164 }, { "epoch": 0.11546666666666666, "grad_norm": 0.02346122533434368, "learning_rate": 0.0001, "loss": 0.9829, "step": 2165 }, { "epoch": 0.11552, "grad_norm": 0.024809099692921464, "learning_rate": 0.0001, "loss": 1.0042, "step": 2166 }, { "epoch": 0.11557333333333333, "grad_norm": 0.025255762490050567, "learning_rate": 0.0001, "loss": 0.9442, "step": 2167 }, { "epoch": 0.11562666666666667, "grad_norm": 0.025471629978375272, "learning_rate": 0.0001, "loss": 1.021, "step": 2168 }, { "epoch": 0.11568, "grad_norm": 0.026934947170753842, "learning_rate": 0.0001, "loss": 0.9774, "step": 2169 }, { "epoch": 0.11573333333333333, "grad_norm": 0.025141800537033892, "learning_rate": 0.0001, "loss": 1.028, "step": 2170 }, { "epoch": 0.11578666666666666, "grad_norm": 0.02587008193707526, "learning_rate": 0.0001, "loss": 1.0007, "step": 2171 }, { "epoch": 0.11584, "grad_norm": 0.023292921017200426, "learning_rate": 0.0001, "loss": 0.9763, "step": 2172 }, { "epoch": 0.11589333333333333, "grad_norm": 0.025524203599054412, "learning_rate": 0.0001, "loss": 0.9795, "step": 2173 }, { "epoch": 0.11594666666666667, "grad_norm": 0.028251193599291128, "learning_rate": 0.0001, "loss": 0.9732, "step": 2174 }, { "epoch": 0.116, "grad_norm": 0.027883744965098843, "learning_rate": 0.0001, "loss": 0.9561, "step": 2175 }, { "epoch": 0.11605333333333333, "grad_norm": 0.025414836198772932, "learning_rate": 0.0001, "loss": 1.0082, "step": 2176 }, { "epoch": 0.11610666666666666, "grad_norm": 0.02749178847621007, "learning_rate": 0.0001, "loss": 1.0059, "step": 2177 }, { "epoch": 0.11616, "grad_norm": 0.02900638392204523, "learning_rate": 0.0001, "loss": 1.0424, "step": 2178 }, { "epoch": 0.11621333333333334, "grad_norm": 0.026942494721799375, "learning_rate": 0.0001, "loss": 1.013, "step": 2179 }, { "epoch": 0.11626666666666667, "grad_norm": 0.03020466338435861, "learning_rate": 0.0001, "loss": 0.9889, "step": 2180 }, { "epoch": 0.11632, "grad_norm": 0.026672907941511715, "learning_rate": 0.0001, "loss": 0.9656, "step": 2181 }, { "epoch": 0.11637333333333333, "grad_norm": 0.02585952896216991, "learning_rate": 0.0001, "loss": 1.0623, "step": 2182 }, { "epoch": 0.11642666666666666, "grad_norm": 0.031111452523205397, "learning_rate": 0.0001, "loss": 0.9991, "step": 2183 }, { "epoch": 0.11648, "grad_norm": 0.027303613813678938, "learning_rate": 0.0001, "loss": 1.035, "step": 2184 }, { "epoch": 0.11653333333333334, "grad_norm": 0.02607216215240182, "learning_rate": 0.0001, "loss": 0.9989, "step": 2185 }, { "epoch": 0.11658666666666667, "grad_norm": 0.0252004913760288, "learning_rate": 0.0001, "loss": 1.0527, "step": 2186 }, { "epoch": 0.11664, "grad_norm": 0.025978245350445496, "learning_rate": 0.0001, "loss": 0.9638, "step": 2187 }, { "epoch": 0.11669333333333333, "grad_norm": 0.0249562201003815, "learning_rate": 0.0001, "loss": 0.9882, "step": 2188 }, { "epoch": 0.11674666666666667, "grad_norm": 0.02659815952995092, "learning_rate": 0.0001, "loss": 1.0304, "step": 2189 }, { "epoch": 0.1168, "grad_norm": 0.023313342383045953, "learning_rate": 0.0001, "loss": 1.0035, "step": 2190 }, { "epoch": 0.11685333333333334, "grad_norm": 0.024586920277902588, "learning_rate": 0.0001, "loss": 0.9589, "step": 2191 }, { "epoch": 0.11690666666666667, "grad_norm": 0.02635315315740599, "learning_rate": 0.0001, "loss": 1.0201, "step": 2192 }, { "epoch": 0.11696, "grad_norm": 0.026663139144916567, "learning_rate": 0.0001, "loss": 1.0715, "step": 2193 }, { "epoch": 0.11701333333333333, "grad_norm": 0.029163529836532632, "learning_rate": 0.0001, "loss": 1.0636, "step": 2194 }, { "epoch": 0.11706666666666667, "grad_norm": 0.02375087992844998, "learning_rate": 0.0001, "loss": 0.9803, "step": 2195 }, { "epoch": 0.11712, "grad_norm": 0.02704762426529672, "learning_rate": 0.0001, "loss": 1.0226, "step": 2196 }, { "epoch": 0.11717333333333334, "grad_norm": 0.025275270574401557, "learning_rate": 0.0001, "loss": 1.0103, "step": 2197 }, { "epoch": 0.11722666666666667, "grad_norm": 0.025901552150734145, "learning_rate": 0.0001, "loss": 1.0115, "step": 2198 }, { "epoch": 0.11728, "grad_norm": 0.024033233245106006, "learning_rate": 0.0001, "loss": 1.0179, "step": 2199 }, { "epoch": 0.11733333333333333, "grad_norm": 0.027105058366041383, "learning_rate": 0.0001, "loss": 1.0077, "step": 2200 }, { "epoch": 0.11733333333333333, "eval_accuracy": 0.6128739637526313, "eval_loss": 1.395006537437439, "eval_runtime": 63.1586, "eval_samples_per_second": 15.833, "eval_steps_per_second": 0.507, "step": 2200 }, { "epoch": 0.11738666666666667, "grad_norm": 0.02478482517119919, "learning_rate": 0.0001, "loss": 0.9975, "step": 2201 }, { "epoch": 0.11744, "grad_norm": 0.027570169184380912, "learning_rate": 0.0001, "loss": 1.0282, "step": 2202 }, { "epoch": 0.11749333333333334, "grad_norm": 0.02711610687161766, "learning_rate": 0.0001, "loss": 1.0015, "step": 2203 }, { "epoch": 0.11754666666666666, "grad_norm": 0.024089632198276825, "learning_rate": 0.0001, "loss": 1.0084, "step": 2204 }, { "epoch": 0.1176, "grad_norm": 0.029024347408009934, "learning_rate": 0.0001, "loss": 0.9369, "step": 2205 }, { "epoch": 0.11765333333333333, "grad_norm": 0.023486078775297677, "learning_rate": 0.0001, "loss": 0.9883, "step": 2206 }, { "epoch": 0.11770666666666667, "grad_norm": 0.02488725243225441, "learning_rate": 0.0001, "loss": 0.9727, "step": 2207 }, { "epoch": 0.11776, "grad_norm": 0.028135197386752013, "learning_rate": 0.0001, "loss": 1.0393, "step": 2208 }, { "epoch": 0.11781333333333334, "grad_norm": 0.02409954318468765, "learning_rate": 0.0001, "loss": 0.9908, "step": 2209 }, { "epoch": 0.11786666666666666, "grad_norm": 0.028528765087592327, "learning_rate": 0.0001, "loss": 0.9544, "step": 2210 }, { "epoch": 0.11792, "grad_norm": 0.02638979909472164, "learning_rate": 0.0001, "loss": 1.0691, "step": 2211 }, { "epoch": 0.11797333333333333, "grad_norm": 0.026060209929790926, "learning_rate": 0.0001, "loss": 1.0652, "step": 2212 }, { "epoch": 0.11802666666666667, "grad_norm": 0.025195091875581544, "learning_rate": 0.0001, "loss": 1.0031, "step": 2213 }, { "epoch": 0.11808, "grad_norm": 0.024691992479500754, "learning_rate": 0.0001, "loss": 1.0054, "step": 2214 }, { "epoch": 0.11813333333333334, "grad_norm": 0.025585358124083066, "learning_rate": 0.0001, "loss": 0.9625, "step": 2215 }, { "epoch": 0.11818666666666666, "grad_norm": 0.02671291736365302, "learning_rate": 0.0001, "loss": 0.9465, "step": 2216 }, { "epoch": 0.11824, "grad_norm": 0.02659700390525089, "learning_rate": 0.0001, "loss": 0.993, "step": 2217 }, { "epoch": 0.11829333333333333, "grad_norm": 0.027240987325132637, "learning_rate": 0.0001, "loss": 0.9908, "step": 2218 }, { "epoch": 0.11834666666666667, "grad_norm": 0.027643460931971717, "learning_rate": 0.0001, "loss": 1.0124, "step": 2219 }, { "epoch": 0.1184, "grad_norm": 0.027329912138762465, "learning_rate": 0.0001, "loss": 1.0077, "step": 2220 }, { "epoch": 0.11845333333333333, "grad_norm": 0.024115136954137383, "learning_rate": 0.0001, "loss": 0.9857, "step": 2221 }, { "epoch": 0.11850666666666666, "grad_norm": 0.026424180147690456, "learning_rate": 0.0001, "loss": 0.9906, "step": 2222 }, { "epoch": 0.11856, "grad_norm": 0.025253483946143088, "learning_rate": 0.0001, "loss": 1.0554, "step": 2223 }, { "epoch": 0.11861333333333333, "grad_norm": 0.024878362585387635, "learning_rate": 0.0001, "loss": 1.014, "step": 2224 }, { "epoch": 0.11866666666666667, "grad_norm": 0.024217331106613057, "learning_rate": 0.0001, "loss": 1.0225, "step": 2225 }, { "epoch": 0.11872, "grad_norm": 0.026135317848791136, "learning_rate": 0.0001, "loss": 1.0087, "step": 2226 }, { "epoch": 0.11877333333333333, "grad_norm": 0.022600537355349896, "learning_rate": 0.0001, "loss": 1.0272, "step": 2227 }, { "epoch": 0.11882666666666666, "grad_norm": 0.024101452305747527, "learning_rate": 0.0001, "loss": 1.017, "step": 2228 }, { "epoch": 0.11888, "grad_norm": 0.02909712696665901, "learning_rate": 0.0001, "loss": 1.0234, "step": 2229 }, { "epoch": 0.11893333333333334, "grad_norm": 0.024348529252693325, "learning_rate": 0.0001, "loss": 1.0327, "step": 2230 }, { "epoch": 0.11898666666666667, "grad_norm": 0.023139462152396536, "learning_rate": 0.0001, "loss": 0.986, "step": 2231 }, { "epoch": 0.11904, "grad_norm": 0.025573246889224053, "learning_rate": 0.0001, "loss": 1.0592, "step": 2232 }, { "epoch": 0.11909333333333333, "grad_norm": 0.0265533180260822, "learning_rate": 0.0001, "loss": 1.0191, "step": 2233 }, { "epoch": 0.11914666666666666, "grad_norm": 0.024775480491924913, "learning_rate": 0.0001, "loss": 1.0192, "step": 2234 }, { "epoch": 0.1192, "grad_norm": 0.02791296818461633, "learning_rate": 0.0001, "loss": 1.0347, "step": 2235 }, { "epoch": 0.11925333333333334, "grad_norm": 0.02493075563355415, "learning_rate": 0.0001, "loss": 0.9142, "step": 2236 }, { "epoch": 0.11930666666666667, "grad_norm": 0.025385716218320677, "learning_rate": 0.0001, "loss": 0.9618, "step": 2237 }, { "epoch": 0.11936, "grad_norm": 0.025235061425476768, "learning_rate": 0.0001, "loss": 0.9713, "step": 2238 }, { "epoch": 0.11941333333333333, "grad_norm": 0.02716148586099377, "learning_rate": 0.0001, "loss": 1.0275, "step": 2239 }, { "epoch": 0.11946666666666667, "grad_norm": 0.023903046714259843, "learning_rate": 0.0001, "loss": 0.9956, "step": 2240 }, { "epoch": 0.11952, "grad_norm": 0.028375828560216327, "learning_rate": 0.0001, "loss": 1.0178, "step": 2241 }, { "epoch": 0.11957333333333334, "grad_norm": 0.02474316461667185, "learning_rate": 0.0001, "loss": 0.9881, "step": 2242 }, { "epoch": 0.11962666666666667, "grad_norm": 0.024792544225092108, "learning_rate": 0.0001, "loss": 0.9467, "step": 2243 }, { "epoch": 0.11968, "grad_norm": 0.0266972827166745, "learning_rate": 0.0001, "loss": 1.038, "step": 2244 }, { "epoch": 0.11973333333333333, "grad_norm": 0.02460394153459942, "learning_rate": 0.0001, "loss": 1.0418, "step": 2245 }, { "epoch": 0.11978666666666667, "grad_norm": 0.025426073009645486, "learning_rate": 0.0001, "loss": 0.9792, "step": 2246 }, { "epoch": 0.11984, "grad_norm": 0.024972036172600902, "learning_rate": 0.0001, "loss": 0.9873, "step": 2247 }, { "epoch": 0.11989333333333334, "grad_norm": 0.026952260205288056, "learning_rate": 0.0001, "loss": 0.9612, "step": 2248 }, { "epoch": 0.11994666666666666, "grad_norm": 0.024526908562663072, "learning_rate": 0.0001, "loss": 0.9869, "step": 2249 }, { "epoch": 0.12, "grad_norm": 0.024264137688234287, "learning_rate": 0.0001, "loss": 1.0641, "step": 2250 }, { "epoch": 0.12005333333333333, "grad_norm": 0.02683594638712846, "learning_rate": 0.0001, "loss": 0.9903, "step": 2251 }, { "epoch": 0.12010666666666667, "grad_norm": 0.02575785909783277, "learning_rate": 0.0001, "loss": 0.9716, "step": 2252 }, { "epoch": 0.12016, "grad_norm": 0.02507322268481655, "learning_rate": 0.0001, "loss": 0.9942, "step": 2253 }, { "epoch": 0.12021333333333334, "grad_norm": 0.025405427393187928, "learning_rate": 0.0001, "loss": 1.0095, "step": 2254 }, { "epoch": 0.12026666666666666, "grad_norm": 0.026983804964890206, "learning_rate": 0.0001, "loss": 1.0102, "step": 2255 }, { "epoch": 0.12032, "grad_norm": 0.02654267161033317, "learning_rate": 0.0001, "loss": 0.9906, "step": 2256 }, { "epoch": 0.12037333333333333, "grad_norm": 0.025841584251070332, "learning_rate": 0.0001, "loss": 1.0227, "step": 2257 }, { "epoch": 0.12042666666666667, "grad_norm": 0.024024897657589778, "learning_rate": 0.0001, "loss": 0.9975, "step": 2258 }, { "epoch": 0.12048, "grad_norm": 0.024679692467250734, "learning_rate": 0.0001, "loss": 1.0112, "step": 2259 }, { "epoch": 0.12053333333333334, "grad_norm": 0.023716317010130623, "learning_rate": 0.0001, "loss": 0.9831, "step": 2260 }, { "epoch": 0.12058666666666666, "grad_norm": 0.02545887553813254, "learning_rate": 0.0001, "loss": 1.0299, "step": 2261 }, { "epoch": 0.12064, "grad_norm": 0.02561845887876053, "learning_rate": 0.0001, "loss": 0.9929, "step": 2262 }, { "epoch": 0.12069333333333333, "grad_norm": 0.024059550123871877, "learning_rate": 0.0001, "loss": 1.0113, "step": 2263 }, { "epoch": 0.12074666666666667, "grad_norm": 0.025250166181388367, "learning_rate": 0.0001, "loss": 1.0552, "step": 2264 }, { "epoch": 0.1208, "grad_norm": 0.023607059496769445, "learning_rate": 0.0001, "loss": 1.0653, "step": 2265 }, { "epoch": 0.12085333333333333, "grad_norm": 0.02298476421905342, "learning_rate": 0.0001, "loss": 1.0059, "step": 2266 }, { "epoch": 0.12090666666666666, "grad_norm": 0.026655938457062683, "learning_rate": 0.0001, "loss": 0.9736, "step": 2267 }, { "epoch": 0.12096, "grad_norm": 0.024828170889288393, "learning_rate": 0.0001, "loss": 0.9526, "step": 2268 }, { "epoch": 0.12101333333333333, "grad_norm": 0.027899760042119085, "learning_rate": 0.0001, "loss": 0.9999, "step": 2269 }, { "epoch": 0.12106666666666667, "grad_norm": 0.025095891605177858, "learning_rate": 0.0001, "loss": 0.9644, "step": 2270 }, { "epoch": 0.12112, "grad_norm": 0.025537045908159202, "learning_rate": 0.0001, "loss": 0.9723, "step": 2271 }, { "epoch": 0.12117333333333333, "grad_norm": 0.03003173688453457, "learning_rate": 0.0001, "loss": 1.008, "step": 2272 }, { "epoch": 0.12122666666666666, "grad_norm": 0.024338157207714227, "learning_rate": 0.0001, "loss": 0.9803, "step": 2273 }, { "epoch": 0.12128, "grad_norm": 0.026393140026234618, "learning_rate": 0.0001, "loss": 1.0409, "step": 2274 }, { "epoch": 0.12133333333333333, "grad_norm": 0.025956432948580476, "learning_rate": 0.0001, "loss": 1.0518, "step": 2275 }, { "epoch": 0.12138666666666667, "grad_norm": 0.023792936063251446, "learning_rate": 0.0001, "loss": 1.0049, "step": 2276 }, { "epoch": 0.12144, "grad_norm": 0.02468068989357024, "learning_rate": 0.0001, "loss": 0.9802, "step": 2277 }, { "epoch": 0.12149333333333333, "grad_norm": 0.02673159107880864, "learning_rate": 0.0001, "loss": 1.0126, "step": 2278 }, { "epoch": 0.12154666666666666, "grad_norm": 0.02504438775151449, "learning_rate": 0.0001, "loss": 1.0537, "step": 2279 }, { "epoch": 0.1216, "grad_norm": 0.027277504793960152, "learning_rate": 0.0001, "loss": 0.9485, "step": 2280 }, { "epoch": 0.12165333333333334, "grad_norm": 0.026755016764954603, "learning_rate": 0.0001, "loss": 0.9844, "step": 2281 }, { "epoch": 0.12170666666666667, "grad_norm": 0.025003836238070818, "learning_rate": 0.0001, "loss": 0.9869, "step": 2282 }, { "epoch": 0.12176, "grad_norm": 0.02593767349932197, "learning_rate": 0.0001, "loss": 1.0158, "step": 2283 }, { "epoch": 0.12181333333333333, "grad_norm": 0.028582759107997076, "learning_rate": 0.0001, "loss": 0.9781, "step": 2284 }, { "epoch": 0.12186666666666666, "grad_norm": 0.025686488189980528, "learning_rate": 0.0001, "loss": 0.9911, "step": 2285 }, { "epoch": 0.12192, "grad_norm": 0.031207993823977556, "learning_rate": 0.0001, "loss": 1.0335, "step": 2286 }, { "epoch": 0.12197333333333334, "grad_norm": 0.025392439244568903, "learning_rate": 0.0001, "loss": 1.0645, "step": 2287 }, { "epoch": 0.12202666666666667, "grad_norm": 0.025445577594875923, "learning_rate": 0.0001, "loss": 1.0539, "step": 2288 }, { "epoch": 0.12208, "grad_norm": 0.026741925094306965, "learning_rate": 0.0001, "loss": 1.0001, "step": 2289 }, { "epoch": 0.12213333333333333, "grad_norm": 0.02667242735905432, "learning_rate": 0.0001, "loss": 0.9784, "step": 2290 }, { "epoch": 0.12218666666666667, "grad_norm": 0.0237866162073877, "learning_rate": 0.0001, "loss": 1.0508, "step": 2291 }, { "epoch": 0.12224, "grad_norm": 0.027056687542109464, "learning_rate": 0.0001, "loss": 1.0314, "step": 2292 }, { "epoch": 0.12229333333333334, "grad_norm": 0.02329431378207358, "learning_rate": 0.0001, "loss": 1.0126, "step": 2293 }, { "epoch": 0.12234666666666667, "grad_norm": 0.026644150280245225, "learning_rate": 0.0001, "loss": 1.0105, "step": 2294 }, { "epoch": 0.1224, "grad_norm": 0.02417354345914636, "learning_rate": 0.0001, "loss": 0.9799, "step": 2295 }, { "epoch": 0.12245333333333333, "grad_norm": 0.02706610783330873, "learning_rate": 0.0001, "loss": 1.0165, "step": 2296 }, { "epoch": 0.12250666666666667, "grad_norm": 0.026589492127304427, "learning_rate": 0.0001, "loss": 1.0362, "step": 2297 }, { "epoch": 0.12256, "grad_norm": 0.023102243852307632, "learning_rate": 0.0001, "loss": 1.0078, "step": 2298 }, { "epoch": 0.12261333333333334, "grad_norm": 0.025783684292017224, "learning_rate": 0.0001, "loss": 1.0221, "step": 2299 }, { "epoch": 0.12266666666666666, "grad_norm": 0.024287853394697745, "learning_rate": 0.0001, "loss": 1.0158, "step": 2300 }, { "epoch": 0.12272, "grad_norm": 0.02373041746419001, "learning_rate": 0.0001, "loss": 1.0406, "step": 2301 }, { "epoch": 0.12277333333333333, "grad_norm": 0.02412243536749563, "learning_rate": 0.0001, "loss": 1.0111, "step": 2302 }, { "epoch": 0.12282666666666667, "grad_norm": 0.02486951768026473, "learning_rate": 0.0001, "loss": 1.033, "step": 2303 }, { "epoch": 0.12288, "grad_norm": 0.02603473484554617, "learning_rate": 0.0001, "loss": 1.0522, "step": 2304 }, { "epoch": 0.12293333333333334, "grad_norm": 0.023719358418685714, "learning_rate": 0.0001, "loss": 0.9897, "step": 2305 }, { "epoch": 0.12298666666666666, "grad_norm": 0.026025718985220988, "learning_rate": 0.0001, "loss": 0.9446, "step": 2306 }, { "epoch": 0.12304, "grad_norm": 0.024908400459131515, "learning_rate": 0.0001, "loss": 0.9772, "step": 2307 }, { "epoch": 0.12309333333333333, "grad_norm": 0.025320953616971488, "learning_rate": 0.0001, "loss": 1.037, "step": 2308 }, { "epoch": 0.12314666666666667, "grad_norm": 0.02733710781460175, "learning_rate": 0.0001, "loss": 0.9801, "step": 2309 }, { "epoch": 0.1232, "grad_norm": 0.02622614362205955, "learning_rate": 0.0001, "loss": 1.0044, "step": 2310 }, { "epoch": 0.12325333333333334, "grad_norm": 0.026346971821382466, "learning_rate": 0.0001, "loss": 1.0285, "step": 2311 }, { "epoch": 0.12330666666666666, "grad_norm": 0.025951277406270068, "learning_rate": 0.0001, "loss": 1.0092, "step": 2312 }, { "epoch": 0.12336, "grad_norm": 0.025561704135771596, "learning_rate": 0.0001, "loss": 1.0111, "step": 2313 }, { "epoch": 0.12341333333333333, "grad_norm": 0.025299638498359915, "learning_rate": 0.0001, "loss": 0.9992, "step": 2314 }, { "epoch": 0.12346666666666667, "grad_norm": 0.02739093425398755, "learning_rate": 0.0001, "loss": 0.9688, "step": 2315 }, { "epoch": 0.12352, "grad_norm": 0.02521513628295191, "learning_rate": 0.0001, "loss": 1.0181, "step": 2316 }, { "epoch": 0.12357333333333333, "grad_norm": 0.026189532820918963, "learning_rate": 0.0001, "loss": 0.9809, "step": 2317 }, { "epoch": 0.12362666666666666, "grad_norm": 0.023910240059815624, "learning_rate": 0.0001, "loss": 1.0238, "step": 2318 }, { "epoch": 0.12368, "grad_norm": 0.02497478094878405, "learning_rate": 0.0001, "loss": 0.9476, "step": 2319 }, { "epoch": 0.12373333333333333, "grad_norm": 0.02656036491144507, "learning_rate": 0.0001, "loss": 1.03, "step": 2320 }, { "epoch": 0.12378666666666667, "grad_norm": 0.02779863671775531, "learning_rate": 0.0001, "loss": 1.0232, "step": 2321 }, { "epoch": 0.12384, "grad_norm": 0.026700532236986645, "learning_rate": 0.0001, "loss": 0.9981, "step": 2322 }, { "epoch": 0.12389333333333333, "grad_norm": 0.0296532015130582, "learning_rate": 0.0001, "loss": 0.9786, "step": 2323 }, { "epoch": 0.12394666666666666, "grad_norm": 0.02685835241122253, "learning_rate": 0.0001, "loss": 0.9927, "step": 2324 }, { "epoch": 0.124, "grad_norm": 0.02510581740354633, "learning_rate": 0.0001, "loss": 1.0165, "step": 2325 }, { "epoch": 0.12405333333333333, "grad_norm": 0.028857047104012896, "learning_rate": 0.0001, "loss": 1.013, "step": 2326 }, { "epoch": 0.12410666666666667, "grad_norm": 0.028185509569834233, "learning_rate": 0.0001, "loss": 0.9681, "step": 2327 }, { "epoch": 0.12416, "grad_norm": 0.02539353861850295, "learning_rate": 0.0001, "loss": 0.9855, "step": 2328 }, { "epoch": 0.12421333333333333, "grad_norm": 0.03108222333558156, "learning_rate": 0.0001, "loss": 1.0779, "step": 2329 }, { "epoch": 0.12426666666666666, "grad_norm": 0.027972158118336737, "learning_rate": 0.0001, "loss": 1.0016, "step": 2330 }, { "epoch": 0.12432, "grad_norm": 0.029512758317712467, "learning_rate": 0.0001, "loss": 1.023, "step": 2331 }, { "epoch": 0.12437333333333334, "grad_norm": 0.0297690540641671, "learning_rate": 0.0001, "loss": 0.9446, "step": 2332 }, { "epoch": 0.12442666666666667, "grad_norm": 0.02762344083258665, "learning_rate": 0.0001, "loss": 0.9767, "step": 2333 }, { "epoch": 0.12448, "grad_norm": 0.023923237192540314, "learning_rate": 0.0001, "loss": 0.9768, "step": 2334 }, { "epoch": 0.12453333333333333, "grad_norm": 0.03038605050438039, "learning_rate": 0.0001, "loss": 1.0062, "step": 2335 }, { "epoch": 0.12458666666666667, "grad_norm": 0.026178815528928676, "learning_rate": 0.0001, "loss": 0.9477, "step": 2336 }, { "epoch": 0.12464, "grad_norm": 0.024144204676639577, "learning_rate": 0.0001, "loss": 0.9378, "step": 2337 }, { "epoch": 0.12469333333333334, "grad_norm": 0.026133992423928703, "learning_rate": 0.0001, "loss": 1.0139, "step": 2338 }, { "epoch": 0.12474666666666667, "grad_norm": 0.024459517998669, "learning_rate": 0.0001, "loss": 1.0506, "step": 2339 }, { "epoch": 0.1248, "grad_norm": 0.027166214043406883, "learning_rate": 0.0001, "loss": 1.001, "step": 2340 }, { "epoch": 0.12485333333333333, "grad_norm": 0.024912182419569287, "learning_rate": 0.0001, "loss": 0.9979, "step": 2341 }, { "epoch": 0.12490666666666667, "grad_norm": 0.025082113393327596, "learning_rate": 0.0001, "loss": 0.9964, "step": 2342 }, { "epoch": 0.12496, "grad_norm": 0.025263949997530878, "learning_rate": 0.0001, "loss": 0.9516, "step": 2343 }, { "epoch": 0.12501333333333334, "grad_norm": 0.027570713139985187, "learning_rate": 0.0001, "loss": 1.004, "step": 2344 }, { "epoch": 0.12506666666666666, "grad_norm": 0.026262066231156855, "learning_rate": 0.0001, "loss": 1.0461, "step": 2345 }, { "epoch": 0.12512, "grad_norm": 0.024540365054332654, "learning_rate": 0.0001, "loss": 0.986, "step": 2346 }, { "epoch": 0.12517333333333333, "grad_norm": 0.026731365645079493, "learning_rate": 0.0001, "loss": 1.0051, "step": 2347 }, { "epoch": 0.12522666666666665, "grad_norm": 0.023640325089695546, "learning_rate": 0.0001, "loss": 1.0027, "step": 2348 }, { "epoch": 0.12528, "grad_norm": 0.02703555614219968, "learning_rate": 0.0001, "loss": 0.9859, "step": 2349 }, { "epoch": 0.12533333333333332, "grad_norm": 0.029079870961655145, "learning_rate": 0.0001, "loss": 1.0142, "step": 2350 }, { "epoch": 0.12538666666666667, "grad_norm": 0.02597254551271711, "learning_rate": 0.0001, "loss": 1.0317, "step": 2351 }, { "epoch": 0.12544, "grad_norm": 0.024751314155041865, "learning_rate": 0.0001, "loss": 0.967, "step": 2352 }, { "epoch": 0.12549333333333335, "grad_norm": 0.02448393101161119, "learning_rate": 0.0001, "loss": 1.0672, "step": 2353 }, { "epoch": 0.12554666666666667, "grad_norm": 0.026098804491193214, "learning_rate": 0.0001, "loss": 1.0209, "step": 2354 }, { "epoch": 0.1256, "grad_norm": 0.02620008497566, "learning_rate": 0.0001, "loss": 1.0027, "step": 2355 }, { "epoch": 0.12565333333333334, "grad_norm": 0.02450381694613561, "learning_rate": 0.0001, "loss": 0.9213, "step": 2356 }, { "epoch": 0.12570666666666666, "grad_norm": 0.025142600053837505, "learning_rate": 0.0001, "loss": 0.9906, "step": 2357 }, { "epoch": 0.12576, "grad_norm": 0.0251836775377677, "learning_rate": 0.0001, "loss": 1.0449, "step": 2358 }, { "epoch": 0.12581333333333333, "grad_norm": 0.025141950917241092, "learning_rate": 0.0001, "loss": 1.0472, "step": 2359 }, { "epoch": 0.12586666666666665, "grad_norm": 0.02767041615324229, "learning_rate": 0.0001, "loss": 1.0339, "step": 2360 }, { "epoch": 0.12592, "grad_norm": 0.02583453418140071, "learning_rate": 0.0001, "loss": 1.0328, "step": 2361 }, { "epoch": 0.12597333333333333, "grad_norm": 0.02474236197058599, "learning_rate": 0.0001, "loss": 0.9809, "step": 2362 }, { "epoch": 0.12602666666666668, "grad_norm": 0.02604301268899962, "learning_rate": 0.0001, "loss": 0.9326, "step": 2363 }, { "epoch": 0.12608, "grad_norm": 0.026472180865333858, "learning_rate": 0.0001, "loss": 0.974, "step": 2364 }, { "epoch": 0.12613333333333332, "grad_norm": 0.023995616953468194, "learning_rate": 0.0001, "loss": 0.9902, "step": 2365 }, { "epoch": 0.12618666666666667, "grad_norm": 0.027306594724428146, "learning_rate": 0.0001, "loss": 0.9853, "step": 2366 }, { "epoch": 0.12624, "grad_norm": 0.02485576147395608, "learning_rate": 0.0001, "loss": 0.9655, "step": 2367 }, { "epoch": 0.12629333333333334, "grad_norm": 0.02669452136723653, "learning_rate": 0.0001, "loss": 0.9937, "step": 2368 }, { "epoch": 0.12634666666666666, "grad_norm": 0.030182812358767585, "learning_rate": 0.0001, "loss": 1.0307, "step": 2369 }, { "epoch": 0.1264, "grad_norm": 0.027020314733657312, "learning_rate": 0.0001, "loss": 0.9864, "step": 2370 }, { "epoch": 0.12645333333333333, "grad_norm": 0.02728580794401608, "learning_rate": 0.0001, "loss": 1.0212, "step": 2371 }, { "epoch": 0.12650666666666666, "grad_norm": 0.02690873082005825, "learning_rate": 0.0001, "loss": 1.0189, "step": 2372 }, { "epoch": 0.12656, "grad_norm": 0.025090378054911683, "learning_rate": 0.0001, "loss": 1.0114, "step": 2373 }, { "epoch": 0.12661333333333333, "grad_norm": 0.025345502004403896, "learning_rate": 0.0001, "loss": 0.9142, "step": 2374 }, { "epoch": 0.12666666666666668, "grad_norm": 0.026061706156184413, "learning_rate": 0.0001, "loss": 0.9984, "step": 2375 }, { "epoch": 0.12672, "grad_norm": 0.02486405372653554, "learning_rate": 0.0001, "loss": 0.9842, "step": 2376 }, { "epoch": 0.12677333333333332, "grad_norm": 0.02568641379744047, "learning_rate": 0.0001, "loss": 1.0164, "step": 2377 }, { "epoch": 0.12682666666666667, "grad_norm": 0.025105387676051152, "learning_rate": 0.0001, "loss": 0.9729, "step": 2378 }, { "epoch": 0.12688, "grad_norm": 0.026173299716930904, "learning_rate": 0.0001, "loss": 0.9911, "step": 2379 }, { "epoch": 0.12693333333333334, "grad_norm": 0.02879403116005916, "learning_rate": 0.0001, "loss": 0.9653, "step": 2380 }, { "epoch": 0.12698666666666666, "grad_norm": 0.02704904926732383, "learning_rate": 0.0001, "loss": 0.9984, "step": 2381 }, { "epoch": 0.12704, "grad_norm": 0.025840035082245298, "learning_rate": 0.0001, "loss": 0.9997, "step": 2382 }, { "epoch": 0.12709333333333334, "grad_norm": 0.025967705431076987, "learning_rate": 0.0001, "loss": 0.9986, "step": 2383 }, { "epoch": 0.12714666666666666, "grad_norm": 0.025253734628724867, "learning_rate": 0.0001, "loss": 1.0262, "step": 2384 }, { "epoch": 0.1272, "grad_norm": 0.024618778932433166, "learning_rate": 0.0001, "loss": 1.0303, "step": 2385 }, { "epoch": 0.12725333333333333, "grad_norm": 0.02653231012833248, "learning_rate": 0.0001, "loss": 1.0342, "step": 2386 }, { "epoch": 0.12730666666666668, "grad_norm": 0.026717012718468894, "learning_rate": 0.0001, "loss": 1.0174, "step": 2387 }, { "epoch": 0.12736, "grad_norm": 0.025581640783423315, "learning_rate": 0.0001, "loss": 1.0115, "step": 2388 }, { "epoch": 0.12741333333333332, "grad_norm": 0.02548903571596071, "learning_rate": 0.0001, "loss": 0.9615, "step": 2389 }, { "epoch": 0.12746666666666667, "grad_norm": 0.02767852990118225, "learning_rate": 0.0001, "loss": 0.9637, "step": 2390 }, { "epoch": 0.12752, "grad_norm": 0.026052203453361452, "learning_rate": 0.0001, "loss": 1.0655, "step": 2391 }, { "epoch": 0.12757333333333334, "grad_norm": 0.02534168219379452, "learning_rate": 0.0001, "loss": 1.0008, "step": 2392 }, { "epoch": 0.12762666666666667, "grad_norm": 0.026221011247794405, "learning_rate": 0.0001, "loss": 0.9695, "step": 2393 }, { "epoch": 0.12768, "grad_norm": 0.02509062530441474, "learning_rate": 0.0001, "loss": 0.9786, "step": 2394 }, { "epoch": 0.12773333333333334, "grad_norm": 0.026097979084296764, "learning_rate": 0.0001, "loss": 0.9702, "step": 2395 }, { "epoch": 0.12778666666666666, "grad_norm": 0.02510367887266051, "learning_rate": 0.0001, "loss": 0.971, "step": 2396 }, { "epoch": 0.12784, "grad_norm": 0.026264658669516074, "learning_rate": 0.0001, "loss": 1.0723, "step": 2397 }, { "epoch": 0.12789333333333333, "grad_norm": 0.025529962480647414, "learning_rate": 0.0001, "loss": 1.0164, "step": 2398 }, { "epoch": 0.12794666666666665, "grad_norm": 0.025080028405239697, "learning_rate": 0.0001, "loss": 1.0031, "step": 2399 }, { "epoch": 0.128, "grad_norm": 0.025360113678051986, "learning_rate": 0.0001, "loss": 0.9544, "step": 2400 }, { "epoch": 0.128, "eval_accuracy": 0.6133737235702583, "eval_loss": 1.3925503492355347, "eval_runtime": 63.0259, "eval_samples_per_second": 15.866, "eval_steps_per_second": 0.508, "step": 2400 }, { "epoch": 0.12805333333333332, "grad_norm": 0.027075521786471598, "learning_rate": 0.0001, "loss": 0.9544, "step": 2401 }, { "epoch": 0.12810666666666667, "grad_norm": 0.02880467614813902, "learning_rate": 0.0001, "loss": 1.0078, "step": 2402 }, { "epoch": 0.12816, "grad_norm": 0.026650682993478503, "learning_rate": 0.0001, "loss": 1.0413, "step": 2403 }, { "epoch": 0.12821333333333335, "grad_norm": 0.02836891149328657, "learning_rate": 0.0001, "loss": 1.0255, "step": 2404 }, { "epoch": 0.12826666666666667, "grad_norm": 0.025603379514517327, "learning_rate": 0.0001, "loss": 1.0105, "step": 2405 }, { "epoch": 0.12832, "grad_norm": 0.02676535820608139, "learning_rate": 0.0001, "loss": 1.0618, "step": 2406 }, { "epoch": 0.12837333333333334, "grad_norm": 0.02599093536549144, "learning_rate": 0.0001, "loss": 1.0072, "step": 2407 }, { "epoch": 0.12842666666666666, "grad_norm": 0.0271121202558267, "learning_rate": 0.0001, "loss": 0.996, "step": 2408 }, { "epoch": 0.12848, "grad_norm": 0.025994231231715684, "learning_rate": 0.0001, "loss": 0.946, "step": 2409 }, { "epoch": 0.12853333333333333, "grad_norm": 0.025929592310601626, "learning_rate": 0.0001, "loss": 0.9998, "step": 2410 }, { "epoch": 0.12858666666666665, "grad_norm": 0.02707486312618192, "learning_rate": 0.0001, "loss": 1.0065, "step": 2411 }, { "epoch": 0.12864, "grad_norm": 0.026292993034618604, "learning_rate": 0.0001, "loss": 1.0041, "step": 2412 }, { "epoch": 0.12869333333333333, "grad_norm": 0.02755841232990589, "learning_rate": 0.0001, "loss": 0.9885, "step": 2413 }, { "epoch": 0.12874666666666668, "grad_norm": 0.02746351608929294, "learning_rate": 0.0001, "loss": 1.0076, "step": 2414 }, { "epoch": 0.1288, "grad_norm": 0.02498874824628734, "learning_rate": 0.0001, "loss": 1.0417, "step": 2415 }, { "epoch": 0.12885333333333332, "grad_norm": 0.025633893473424686, "learning_rate": 0.0001, "loss": 1.0186, "step": 2416 }, { "epoch": 0.12890666666666667, "grad_norm": 0.028261768738729338, "learning_rate": 0.0001, "loss": 1.0335, "step": 2417 }, { "epoch": 0.12896, "grad_norm": 0.024845765337774786, "learning_rate": 0.0001, "loss": 0.957, "step": 2418 }, { "epoch": 0.12901333333333334, "grad_norm": 0.0224777196916003, "learning_rate": 0.0001, "loss": 0.9524, "step": 2419 }, { "epoch": 0.12906666666666666, "grad_norm": 0.026297030714830142, "learning_rate": 0.0001, "loss": 0.9919, "step": 2420 }, { "epoch": 0.12912, "grad_norm": 0.02724522980083961, "learning_rate": 0.0001, "loss": 1.0338, "step": 2421 }, { "epoch": 0.12917333333333333, "grad_norm": 0.024700423410813105, "learning_rate": 0.0001, "loss": 0.9821, "step": 2422 }, { "epoch": 0.12922666666666666, "grad_norm": 0.024804525836374856, "learning_rate": 0.0001, "loss": 1.0137, "step": 2423 }, { "epoch": 0.12928, "grad_norm": 0.026964047831832507, "learning_rate": 0.0001, "loss": 1.0614, "step": 2424 }, { "epoch": 0.12933333333333333, "grad_norm": 0.026118136786538113, "learning_rate": 0.0001, "loss": 1.0277, "step": 2425 }, { "epoch": 0.12938666666666668, "grad_norm": 0.024866215486403047, "learning_rate": 0.0001, "loss": 1.0427, "step": 2426 }, { "epoch": 0.12944, "grad_norm": 0.02643360598580856, "learning_rate": 0.0001, "loss": 0.9999, "step": 2427 }, { "epoch": 0.12949333333333332, "grad_norm": 0.02572323700260064, "learning_rate": 0.0001, "loss": 0.9326, "step": 2428 }, { "epoch": 0.12954666666666667, "grad_norm": 0.02583573440614129, "learning_rate": 0.0001, "loss": 1.0143, "step": 2429 }, { "epoch": 0.1296, "grad_norm": 0.02578171477727797, "learning_rate": 0.0001, "loss": 0.9345, "step": 2430 }, { "epoch": 0.12965333333333334, "grad_norm": 0.02651372954792764, "learning_rate": 0.0001, "loss": 1.0121, "step": 2431 }, { "epoch": 0.12970666666666666, "grad_norm": 0.026432713056399652, "learning_rate": 0.0001, "loss": 1.0606, "step": 2432 }, { "epoch": 0.12976, "grad_norm": 0.027388267153690485, "learning_rate": 0.0001, "loss": 0.9845, "step": 2433 }, { "epoch": 0.12981333333333334, "grad_norm": 0.026174403976917855, "learning_rate": 0.0001, "loss": 0.8993, "step": 2434 }, { "epoch": 0.12986666666666666, "grad_norm": 0.024122930540919768, "learning_rate": 0.0001, "loss": 0.998, "step": 2435 }, { "epoch": 0.12992, "grad_norm": 0.025666486335540067, "learning_rate": 0.0001, "loss": 0.9619, "step": 2436 }, { "epoch": 0.12997333333333333, "grad_norm": 0.026066719904246246, "learning_rate": 0.0001, "loss": 1.0544, "step": 2437 }, { "epoch": 0.13002666666666668, "grad_norm": 0.025182112697953205, "learning_rate": 0.0001, "loss": 0.9711, "step": 2438 }, { "epoch": 0.13008, "grad_norm": 0.024535260762843913, "learning_rate": 0.0001, "loss": 1.0038, "step": 2439 }, { "epoch": 0.13013333333333332, "grad_norm": 0.024416571145252548, "learning_rate": 0.0001, "loss": 1.0117, "step": 2440 }, { "epoch": 0.13018666666666667, "grad_norm": 0.02391126898492755, "learning_rate": 0.0001, "loss": 0.9602, "step": 2441 }, { "epoch": 0.13024, "grad_norm": 0.024560959142077995, "learning_rate": 0.0001, "loss": 1.0028, "step": 2442 }, { "epoch": 0.13029333333333334, "grad_norm": 0.025998225500617603, "learning_rate": 0.0001, "loss": 0.9971, "step": 2443 }, { "epoch": 0.13034666666666667, "grad_norm": 0.024911989440932737, "learning_rate": 0.0001, "loss": 1.0243, "step": 2444 }, { "epoch": 0.1304, "grad_norm": 0.028004916357241998, "learning_rate": 0.0001, "loss": 1.0212, "step": 2445 }, { "epoch": 0.13045333333333334, "grad_norm": 0.024435807169905642, "learning_rate": 0.0001, "loss": 0.974, "step": 2446 }, { "epoch": 0.13050666666666666, "grad_norm": 0.02801550106551659, "learning_rate": 0.0001, "loss": 0.9884, "step": 2447 }, { "epoch": 0.13056, "grad_norm": 0.025119826258274178, "learning_rate": 0.0001, "loss": 1.0625, "step": 2448 }, { "epoch": 0.13061333333333333, "grad_norm": 0.02659907987405048, "learning_rate": 0.0001, "loss": 0.992, "step": 2449 }, { "epoch": 0.13066666666666665, "grad_norm": 0.025863118885475038, "learning_rate": 0.0001, "loss": 0.9806, "step": 2450 }, { "epoch": 0.13072, "grad_norm": 0.02472980560800673, "learning_rate": 0.0001, "loss": 0.9557, "step": 2451 }, { "epoch": 0.13077333333333332, "grad_norm": 0.02702333219902197, "learning_rate": 0.0001, "loss": 1.0346, "step": 2452 }, { "epoch": 0.13082666666666667, "grad_norm": 0.024930989847762798, "learning_rate": 0.0001, "loss": 1.0696, "step": 2453 }, { "epoch": 0.13088, "grad_norm": 0.024150482060243804, "learning_rate": 0.0001, "loss": 0.9613, "step": 2454 }, { "epoch": 0.13093333333333335, "grad_norm": 0.02364410166627155, "learning_rate": 0.0001, "loss": 0.9518, "step": 2455 }, { "epoch": 0.13098666666666667, "grad_norm": 0.023821035101190026, "learning_rate": 0.0001, "loss": 1.0161, "step": 2456 }, { "epoch": 0.13104, "grad_norm": 0.023923516597349252, "learning_rate": 0.0001, "loss": 1.0196, "step": 2457 }, { "epoch": 0.13109333333333334, "grad_norm": 0.02551790445893866, "learning_rate": 0.0001, "loss": 0.9964, "step": 2458 }, { "epoch": 0.13114666666666666, "grad_norm": 0.02483273971393887, "learning_rate": 0.0001, "loss": 1.0462, "step": 2459 }, { "epoch": 0.1312, "grad_norm": 0.02461865339019222, "learning_rate": 0.0001, "loss": 1.0473, "step": 2460 }, { "epoch": 0.13125333333333333, "grad_norm": 0.02455703558888106, "learning_rate": 0.0001, "loss": 0.9694, "step": 2461 }, { "epoch": 0.13130666666666665, "grad_norm": 0.02524383031581255, "learning_rate": 0.0001, "loss": 0.9789, "step": 2462 }, { "epoch": 0.13136, "grad_norm": 0.02522301412102058, "learning_rate": 0.0001, "loss": 1.027, "step": 2463 }, { "epoch": 0.13141333333333333, "grad_norm": 0.0268511384475676, "learning_rate": 0.0001, "loss": 1.0222, "step": 2464 }, { "epoch": 0.13146666666666668, "grad_norm": 0.029099604870096257, "learning_rate": 0.0001, "loss": 0.9893, "step": 2465 }, { "epoch": 0.13152, "grad_norm": 0.02741869701032861, "learning_rate": 0.0001, "loss": 1.0071, "step": 2466 }, { "epoch": 0.13157333333333332, "grad_norm": 0.029369066447517474, "learning_rate": 0.0001, "loss": 0.999, "step": 2467 }, { "epoch": 0.13162666666666667, "grad_norm": 0.02613223249688684, "learning_rate": 0.0001, "loss": 0.976, "step": 2468 }, { "epoch": 0.13168, "grad_norm": 0.02536596122007687, "learning_rate": 0.0001, "loss": 0.9657, "step": 2469 }, { "epoch": 0.13173333333333334, "grad_norm": 0.02719621566525172, "learning_rate": 0.0001, "loss": 1.0011, "step": 2470 }, { "epoch": 0.13178666666666666, "grad_norm": 0.028786361560080596, "learning_rate": 0.0001, "loss": 1.0154, "step": 2471 }, { "epoch": 0.13184, "grad_norm": 0.025602704222974653, "learning_rate": 0.0001, "loss": 1.0697, "step": 2472 }, { "epoch": 0.13189333333333333, "grad_norm": 0.02657073908728971, "learning_rate": 0.0001, "loss": 1.0201, "step": 2473 }, { "epoch": 0.13194666666666666, "grad_norm": 0.027510085222281606, "learning_rate": 0.0001, "loss": 1.0393, "step": 2474 }, { "epoch": 0.132, "grad_norm": 0.025618112335544518, "learning_rate": 0.0001, "loss": 0.996, "step": 2475 }, { "epoch": 0.13205333333333333, "grad_norm": 0.02570976419270122, "learning_rate": 0.0001, "loss": 1.0007, "step": 2476 }, { "epoch": 0.13210666666666668, "grad_norm": 0.0246319574090792, "learning_rate": 0.0001, "loss": 0.9883, "step": 2477 }, { "epoch": 0.13216, "grad_norm": 0.02920879760455919, "learning_rate": 0.0001, "loss": 1.0116, "step": 2478 }, { "epoch": 0.13221333333333332, "grad_norm": 0.024994654669793785, "learning_rate": 0.0001, "loss": 1.0503, "step": 2479 }, { "epoch": 0.13226666666666667, "grad_norm": 0.026068430444058675, "learning_rate": 0.0001, "loss": 1.0468, "step": 2480 }, { "epoch": 0.13232, "grad_norm": 0.026241739557376725, "learning_rate": 0.0001, "loss": 0.9419, "step": 2481 }, { "epoch": 0.13237333333333334, "grad_norm": 0.025162046115399465, "learning_rate": 0.0001, "loss": 1.0136, "step": 2482 }, { "epoch": 0.13242666666666666, "grad_norm": 0.024684821347290064, "learning_rate": 0.0001, "loss": 1.0087, "step": 2483 }, { "epoch": 0.13248, "grad_norm": 0.024299043851432795, "learning_rate": 0.0001, "loss": 0.9485, "step": 2484 }, { "epoch": 0.13253333333333334, "grad_norm": 0.024998497651999123, "learning_rate": 0.0001, "loss": 0.9694, "step": 2485 }, { "epoch": 0.13258666666666666, "grad_norm": 0.025150903811544202, "learning_rate": 0.0001, "loss": 1.046, "step": 2486 }, { "epoch": 0.13264, "grad_norm": 0.02344402529837302, "learning_rate": 0.0001, "loss": 1.0232, "step": 2487 }, { "epoch": 0.13269333333333333, "grad_norm": 0.02633707780924448, "learning_rate": 0.0001, "loss": 1.0824, "step": 2488 }, { "epoch": 0.13274666666666668, "grad_norm": 0.025922990723189404, "learning_rate": 0.0001, "loss": 0.9548, "step": 2489 }, { "epoch": 0.1328, "grad_norm": 0.02446600879368933, "learning_rate": 0.0001, "loss": 1.0314, "step": 2490 }, { "epoch": 0.13285333333333332, "grad_norm": 0.02783556649677125, "learning_rate": 0.0001, "loss": 0.9855, "step": 2491 }, { "epoch": 0.13290666666666667, "grad_norm": 0.02550965999156629, "learning_rate": 0.0001, "loss": 1.0015, "step": 2492 }, { "epoch": 0.13296, "grad_norm": 0.023626581358753104, "learning_rate": 0.0001, "loss": 0.8944, "step": 2493 }, { "epoch": 0.13301333333333334, "grad_norm": 0.0272380801041015, "learning_rate": 0.0001, "loss": 1.044, "step": 2494 }, { "epoch": 0.13306666666666667, "grad_norm": 0.024161819465906096, "learning_rate": 0.0001, "loss": 1.0131, "step": 2495 }, { "epoch": 0.13312, "grad_norm": 0.024038644659621713, "learning_rate": 0.0001, "loss": 0.9467, "step": 2496 }, { "epoch": 0.13317333333333334, "grad_norm": 0.025690120704842334, "learning_rate": 0.0001, "loss": 0.9662, "step": 2497 }, { "epoch": 0.13322666666666666, "grad_norm": 0.025481203037644857, "learning_rate": 0.0001, "loss": 0.9705, "step": 2498 }, { "epoch": 0.13328, "grad_norm": 0.025247965401708664, "learning_rate": 0.0001, "loss": 0.9938, "step": 2499 }, { "epoch": 0.13333333333333333, "grad_norm": 0.02604799015353619, "learning_rate": 0.0001, "loss": 1.002, "step": 2500 }, { "epoch": 0.13338666666666665, "grad_norm": 0.024398811532141393, "learning_rate": 0.0001, "loss": 0.9783, "step": 2501 }, { "epoch": 0.13344, "grad_norm": 0.025160226790277466, "learning_rate": 0.0001, "loss": 0.9602, "step": 2502 }, { "epoch": 0.13349333333333332, "grad_norm": 0.024851872008412525, "learning_rate": 0.0001, "loss": 1.0602, "step": 2503 }, { "epoch": 0.13354666666666667, "grad_norm": 0.024544597948660426, "learning_rate": 0.0001, "loss": 0.9674, "step": 2504 }, { "epoch": 0.1336, "grad_norm": 0.025356448408922747, "learning_rate": 0.0001, "loss": 0.9588, "step": 2505 }, { "epoch": 0.13365333333333335, "grad_norm": 0.023029183931546397, "learning_rate": 0.0001, "loss": 1.0049, "step": 2506 }, { "epoch": 0.13370666666666667, "grad_norm": 0.0255310565561867, "learning_rate": 0.0001, "loss": 0.962, "step": 2507 }, { "epoch": 0.13376, "grad_norm": 0.02506433148271178, "learning_rate": 0.0001, "loss": 0.9768, "step": 2508 }, { "epoch": 0.13381333333333334, "grad_norm": 0.024761488373354325, "learning_rate": 0.0001, "loss": 0.9689, "step": 2509 }, { "epoch": 0.13386666666666666, "grad_norm": 0.024240754115842023, "learning_rate": 0.0001, "loss": 1.0053, "step": 2510 }, { "epoch": 0.13392, "grad_norm": 0.026926926035797476, "learning_rate": 0.0001, "loss": 1.0487, "step": 2511 }, { "epoch": 0.13397333333333333, "grad_norm": 0.024576993638280722, "learning_rate": 0.0001, "loss": 1.0134, "step": 2512 }, { "epoch": 0.13402666666666666, "grad_norm": 0.025223425176094126, "learning_rate": 0.0001, "loss": 1.0073, "step": 2513 }, { "epoch": 0.13408, "grad_norm": 0.02520736421510069, "learning_rate": 0.0001, "loss": 0.9503, "step": 2514 }, { "epoch": 0.13413333333333333, "grad_norm": 0.027406228809847298, "learning_rate": 0.0001, "loss": 1.0219, "step": 2515 }, { "epoch": 0.13418666666666668, "grad_norm": 0.02670488124021878, "learning_rate": 0.0001, "loss": 1.0072, "step": 2516 }, { "epoch": 0.13424, "grad_norm": 0.025391527655479276, "learning_rate": 0.0001, "loss": 1.0098, "step": 2517 }, { "epoch": 0.13429333333333332, "grad_norm": 0.027439148170195233, "learning_rate": 0.0001, "loss": 1.0762, "step": 2518 }, { "epoch": 0.13434666666666667, "grad_norm": 0.024122146037374212, "learning_rate": 0.0001, "loss": 0.9981, "step": 2519 }, { "epoch": 0.1344, "grad_norm": 0.024898554608580033, "learning_rate": 0.0001, "loss": 1.0671, "step": 2520 }, { "epoch": 0.13445333333333334, "grad_norm": 0.024973639289104937, "learning_rate": 0.0001, "loss": 1.0387, "step": 2521 }, { "epoch": 0.13450666666666666, "grad_norm": 0.02670475542851642, "learning_rate": 0.0001, "loss": 0.9642, "step": 2522 }, { "epoch": 0.13456, "grad_norm": 0.025078268785836716, "learning_rate": 0.0001, "loss": 0.996, "step": 2523 }, { "epoch": 0.13461333333333333, "grad_norm": 0.024404365236869594, "learning_rate": 0.0001, "loss": 1.0138, "step": 2524 }, { "epoch": 0.13466666666666666, "grad_norm": 0.027738032727339195, "learning_rate": 0.0001, "loss": 1.0233, "step": 2525 }, { "epoch": 0.13472, "grad_norm": 0.027028164811448454, "learning_rate": 0.0001, "loss": 1.0334, "step": 2526 }, { "epoch": 0.13477333333333333, "grad_norm": 0.02546854523960517, "learning_rate": 0.0001, "loss": 1.0165, "step": 2527 }, { "epoch": 0.13482666666666668, "grad_norm": 0.026124650828617483, "learning_rate": 0.0001, "loss": 0.9671, "step": 2528 }, { "epoch": 0.13488, "grad_norm": 0.025627013974166914, "learning_rate": 0.0001, "loss": 0.9516, "step": 2529 }, { "epoch": 0.13493333333333332, "grad_norm": 0.02687073605553383, "learning_rate": 0.0001, "loss": 1.0164, "step": 2530 }, { "epoch": 0.13498666666666667, "grad_norm": 0.024829464592065177, "learning_rate": 0.0001, "loss": 0.977, "step": 2531 }, { "epoch": 0.13504, "grad_norm": 0.026850340576137458, "learning_rate": 0.0001, "loss": 0.9827, "step": 2532 }, { "epoch": 0.13509333333333334, "grad_norm": 0.026390952638277638, "learning_rate": 0.0001, "loss": 1.0385, "step": 2533 }, { "epoch": 0.13514666666666666, "grad_norm": 0.02844218782775634, "learning_rate": 0.0001, "loss": 0.9855, "step": 2534 }, { "epoch": 0.1352, "grad_norm": 0.02476326903400325, "learning_rate": 0.0001, "loss": 1.0468, "step": 2535 }, { "epoch": 0.13525333333333334, "grad_norm": 0.03186783148762189, "learning_rate": 0.0001, "loss": 0.9917, "step": 2536 }, { "epoch": 0.13530666666666666, "grad_norm": 0.02464017061223821, "learning_rate": 0.0001, "loss": 1.0638, "step": 2537 }, { "epoch": 0.13536, "grad_norm": 0.027282031428026442, "learning_rate": 0.0001, "loss": 0.9498, "step": 2538 }, { "epoch": 0.13541333333333333, "grad_norm": 0.02735323479130206, "learning_rate": 0.0001, "loss": 0.9623, "step": 2539 }, { "epoch": 0.13546666666666668, "grad_norm": 0.025104209436796966, "learning_rate": 0.0001, "loss": 0.9444, "step": 2540 }, { "epoch": 0.13552, "grad_norm": 0.025756674832892713, "learning_rate": 0.0001, "loss": 0.9681, "step": 2541 }, { "epoch": 0.13557333333333332, "grad_norm": 0.02657393036747659, "learning_rate": 0.0001, "loss": 1.0314, "step": 2542 }, { "epoch": 0.13562666666666667, "grad_norm": 0.024482143629784948, "learning_rate": 0.0001, "loss": 1.0235, "step": 2543 }, { "epoch": 0.13568, "grad_norm": 0.02838431289836272, "learning_rate": 0.0001, "loss": 1.0053, "step": 2544 }, { "epoch": 0.13573333333333334, "grad_norm": 0.02432841321590284, "learning_rate": 0.0001, "loss": 1.0281, "step": 2545 }, { "epoch": 0.13578666666666667, "grad_norm": 0.025037331336264592, "learning_rate": 0.0001, "loss": 0.9724, "step": 2546 }, { "epoch": 0.13584, "grad_norm": 0.028215491948489536, "learning_rate": 0.0001, "loss": 1.0036, "step": 2547 }, { "epoch": 0.13589333333333334, "grad_norm": 0.025759057998646064, "learning_rate": 0.0001, "loss": 1.0198, "step": 2548 }, { "epoch": 0.13594666666666666, "grad_norm": 0.024869386461811145, "learning_rate": 0.0001, "loss": 1.0125, "step": 2549 }, { "epoch": 0.136, "grad_norm": 0.026275333401595782, "learning_rate": 0.0001, "loss": 0.9317, "step": 2550 }, { "epoch": 0.13605333333333333, "grad_norm": 0.025140021533499927, "learning_rate": 0.0001, "loss": 1.0, "step": 2551 }, { "epoch": 0.13610666666666665, "grad_norm": 0.024816949849497998, "learning_rate": 0.0001, "loss": 0.9813, "step": 2552 }, { "epoch": 0.13616, "grad_norm": 0.024732592806981795, "learning_rate": 0.0001, "loss": 1.0159, "step": 2553 }, { "epoch": 0.13621333333333333, "grad_norm": 0.027276506592735904, "learning_rate": 0.0001, "loss": 0.9591, "step": 2554 }, { "epoch": 0.13626666666666667, "grad_norm": 0.026085535992041175, "learning_rate": 0.0001, "loss": 1.0244, "step": 2555 }, { "epoch": 0.13632, "grad_norm": 0.0248413515083484, "learning_rate": 0.0001, "loss": 1.0295, "step": 2556 }, { "epoch": 0.13637333333333335, "grad_norm": 0.027673867925348625, "learning_rate": 0.0001, "loss": 1.0091, "step": 2557 }, { "epoch": 0.13642666666666667, "grad_norm": 0.02695344144965508, "learning_rate": 0.0001, "loss": 1.0063, "step": 2558 }, { "epoch": 0.13648, "grad_norm": 0.027903411915496376, "learning_rate": 0.0001, "loss": 0.9785, "step": 2559 }, { "epoch": 0.13653333333333334, "grad_norm": 0.02546242200937013, "learning_rate": 0.0001, "loss": 1.0226, "step": 2560 }, { "epoch": 0.13658666666666666, "grad_norm": 0.026228288998459647, "learning_rate": 0.0001, "loss": 0.9775, "step": 2561 }, { "epoch": 0.13664, "grad_norm": 0.025721312026925434, "learning_rate": 0.0001, "loss": 1.0331, "step": 2562 }, { "epoch": 0.13669333333333333, "grad_norm": 0.026183412423374595, "learning_rate": 0.0001, "loss": 0.9466, "step": 2563 }, { "epoch": 0.13674666666666666, "grad_norm": 0.02585875399781246, "learning_rate": 0.0001, "loss": 1.0176, "step": 2564 }, { "epoch": 0.1368, "grad_norm": 0.02501941730778989, "learning_rate": 0.0001, "loss": 1.0209, "step": 2565 }, { "epoch": 0.13685333333333333, "grad_norm": 0.026684856971090756, "learning_rate": 0.0001, "loss": 0.9759, "step": 2566 }, { "epoch": 0.13690666666666668, "grad_norm": 0.024946264000052745, "learning_rate": 0.0001, "loss": 1.0264, "step": 2567 }, { "epoch": 0.13696, "grad_norm": 0.025612862109991526, "learning_rate": 0.0001, "loss": 0.9566, "step": 2568 }, { "epoch": 0.13701333333333332, "grad_norm": 0.026334521302552028, "learning_rate": 0.0001, "loss": 0.9915, "step": 2569 }, { "epoch": 0.13706666666666667, "grad_norm": 0.023763591171388126, "learning_rate": 0.0001, "loss": 0.9544, "step": 2570 }, { "epoch": 0.13712, "grad_norm": 0.029498249723808906, "learning_rate": 0.0001, "loss": 0.9821, "step": 2571 }, { "epoch": 0.13717333333333334, "grad_norm": 0.024593921883491014, "learning_rate": 0.0001, "loss": 1.0476, "step": 2572 }, { "epoch": 0.13722666666666666, "grad_norm": 0.024077919992433743, "learning_rate": 0.0001, "loss": 0.9894, "step": 2573 }, { "epoch": 0.13728, "grad_norm": 0.02607019916301255, "learning_rate": 0.0001, "loss": 0.984, "step": 2574 }, { "epoch": 0.13733333333333334, "grad_norm": 0.023720366288824055, "learning_rate": 0.0001, "loss": 0.985, "step": 2575 }, { "epoch": 0.13738666666666666, "grad_norm": 0.025292896484229256, "learning_rate": 0.0001, "loss": 0.9843, "step": 2576 }, { "epoch": 0.13744, "grad_norm": 0.025071731661950106, "learning_rate": 0.0001, "loss": 1.0438, "step": 2577 }, { "epoch": 0.13749333333333333, "grad_norm": 0.023552720616178493, "learning_rate": 0.0001, "loss": 0.953, "step": 2578 }, { "epoch": 0.13754666666666668, "grad_norm": 0.024087673908280118, "learning_rate": 0.0001, "loss": 0.9872, "step": 2579 }, { "epoch": 0.1376, "grad_norm": 0.025345917840909317, "learning_rate": 0.0001, "loss": 1.0049, "step": 2580 }, { "epoch": 0.13765333333333332, "grad_norm": 0.026321341078370742, "learning_rate": 0.0001, "loss": 0.9617, "step": 2581 }, { "epoch": 0.13770666666666667, "grad_norm": 0.02841851854318182, "learning_rate": 0.0001, "loss": 1.0382, "step": 2582 }, { "epoch": 0.13776, "grad_norm": 0.026095912629496915, "learning_rate": 0.0001, "loss": 0.9793, "step": 2583 }, { "epoch": 0.13781333333333334, "grad_norm": 0.026026993599244354, "learning_rate": 0.0001, "loss": 1.0297, "step": 2584 }, { "epoch": 0.13786666666666667, "grad_norm": 0.02444476046365975, "learning_rate": 0.0001, "loss": 0.993, "step": 2585 }, { "epoch": 0.13792, "grad_norm": 0.026195904902520106, "learning_rate": 0.0001, "loss": 1.0176, "step": 2586 }, { "epoch": 0.13797333333333334, "grad_norm": 0.024042333761926247, "learning_rate": 0.0001, "loss": 1.0122, "step": 2587 }, { "epoch": 0.13802666666666666, "grad_norm": 0.027787867805233454, "learning_rate": 0.0001, "loss": 1.0616, "step": 2588 }, { "epoch": 0.13808, "grad_norm": 0.023178406567787208, "learning_rate": 0.0001, "loss": 1.0544, "step": 2589 }, { "epoch": 0.13813333333333333, "grad_norm": 0.024588025202470137, "learning_rate": 0.0001, "loss": 1.0501, "step": 2590 }, { "epoch": 0.13818666666666668, "grad_norm": 0.02853139722965526, "learning_rate": 0.0001, "loss": 1.0364, "step": 2591 }, { "epoch": 0.13824, "grad_norm": 0.02575936731255047, "learning_rate": 0.0001, "loss": 1.0557, "step": 2592 }, { "epoch": 0.13829333333333332, "grad_norm": 0.025254462076794826, "learning_rate": 0.0001, "loss": 1.0102, "step": 2593 }, { "epoch": 0.13834666666666667, "grad_norm": 0.025730025679997937, "learning_rate": 0.0001, "loss": 0.9777, "step": 2594 }, { "epoch": 0.1384, "grad_norm": 0.027112233256905482, "learning_rate": 0.0001, "loss": 1.0137, "step": 2595 }, { "epoch": 0.13845333333333334, "grad_norm": 0.025551615892635632, "learning_rate": 0.0001, "loss": 1.0126, "step": 2596 }, { "epoch": 0.13850666666666667, "grad_norm": 0.025260338718270173, "learning_rate": 0.0001, "loss": 1.019, "step": 2597 }, { "epoch": 0.13856, "grad_norm": 0.02890897324716828, "learning_rate": 0.0001, "loss": 0.9787, "step": 2598 }, { "epoch": 0.13861333333333334, "grad_norm": 0.02391456311206752, "learning_rate": 0.0001, "loss": 0.9702, "step": 2599 }, { "epoch": 0.13866666666666666, "grad_norm": 0.028134965192061767, "learning_rate": 0.0001, "loss": 1.0617, "step": 2600 }, { "epoch": 0.13866666666666666, "eval_accuracy": 0.6137333405256724, "eval_loss": 1.3900363445281982, "eval_runtime": 63.0234, "eval_samples_per_second": 15.867, "eval_steps_per_second": 0.508, "step": 2600 }, { "epoch": 0.13872, "grad_norm": 0.024862943747980766, "learning_rate": 0.0001, "loss": 0.9695, "step": 2601 }, { "epoch": 0.13877333333333333, "grad_norm": 0.025525051220570173, "learning_rate": 0.0001, "loss": 0.9467, "step": 2602 }, { "epoch": 0.13882666666666665, "grad_norm": 0.027003436235548423, "learning_rate": 0.0001, "loss": 1.0149, "step": 2603 }, { "epoch": 0.13888, "grad_norm": 0.023663377952534207, "learning_rate": 0.0001, "loss": 1.0432, "step": 2604 }, { "epoch": 0.13893333333333333, "grad_norm": 0.024631317510611567, "learning_rate": 0.0001, "loss": 0.983, "step": 2605 }, { "epoch": 0.13898666666666668, "grad_norm": 0.02485033763178534, "learning_rate": 0.0001, "loss": 0.9831, "step": 2606 }, { "epoch": 0.13904, "grad_norm": 0.025780986143720305, "learning_rate": 0.0001, "loss": 1.0109, "step": 2607 }, { "epoch": 0.13909333333333335, "grad_norm": 0.025408207878083056, "learning_rate": 0.0001, "loss": 0.9685, "step": 2608 }, { "epoch": 0.13914666666666667, "grad_norm": 0.02450030345203153, "learning_rate": 0.0001, "loss": 0.9615, "step": 2609 }, { "epoch": 0.1392, "grad_norm": 0.02595900558949242, "learning_rate": 0.0001, "loss": 0.9621, "step": 2610 }, { "epoch": 0.13925333333333334, "grad_norm": 0.024393722625318085, "learning_rate": 0.0001, "loss": 1.0733, "step": 2611 }, { "epoch": 0.13930666666666666, "grad_norm": 0.029334215775210715, "learning_rate": 0.0001, "loss": 0.9207, "step": 2612 }, { "epoch": 0.13936, "grad_norm": 0.026502231075397086, "learning_rate": 0.0001, "loss": 1.0172, "step": 2613 }, { "epoch": 0.13941333333333333, "grad_norm": 0.026007597025093608, "learning_rate": 0.0001, "loss": 1.0371, "step": 2614 }, { "epoch": 0.13946666666666666, "grad_norm": 0.02594532716270889, "learning_rate": 0.0001, "loss": 0.9495, "step": 2615 }, { "epoch": 0.13952, "grad_norm": 0.02514381398934066, "learning_rate": 0.0001, "loss": 1.0566, "step": 2616 }, { "epoch": 0.13957333333333333, "grad_norm": 0.027272351724306147, "learning_rate": 0.0001, "loss": 1.0028, "step": 2617 }, { "epoch": 0.13962666666666668, "grad_norm": 0.025583557086364003, "learning_rate": 0.0001, "loss": 1.0058, "step": 2618 }, { "epoch": 0.13968, "grad_norm": 0.028493818318657715, "learning_rate": 0.0001, "loss": 0.9453, "step": 2619 }, { "epoch": 0.13973333333333332, "grad_norm": 0.0287296137797384, "learning_rate": 0.0001, "loss": 1.0561, "step": 2620 }, { "epoch": 0.13978666666666667, "grad_norm": 0.02292089251573787, "learning_rate": 0.0001, "loss": 0.9749, "step": 2621 }, { "epoch": 0.13984, "grad_norm": 0.028698104981451866, "learning_rate": 0.0001, "loss": 0.979, "step": 2622 }, { "epoch": 0.13989333333333334, "grad_norm": 0.0246713364256968, "learning_rate": 0.0001, "loss": 1.0168, "step": 2623 }, { "epoch": 0.13994666666666666, "grad_norm": 0.02633970641846593, "learning_rate": 0.0001, "loss": 1.0252, "step": 2624 }, { "epoch": 0.14, "grad_norm": 0.02537741989665436, "learning_rate": 0.0001, "loss": 0.9924, "step": 2625 }, { "epoch": 0.14005333333333334, "grad_norm": 0.02708875876902672, "learning_rate": 0.0001, "loss": 1.0002, "step": 2626 }, { "epoch": 0.14010666666666666, "grad_norm": 0.024308085237655132, "learning_rate": 0.0001, "loss": 0.9795, "step": 2627 }, { "epoch": 0.14016, "grad_norm": 0.02596377461267972, "learning_rate": 0.0001, "loss": 1.0104, "step": 2628 }, { "epoch": 0.14021333333333333, "grad_norm": 0.025272053211035723, "learning_rate": 0.0001, "loss": 1.0364, "step": 2629 }, { "epoch": 0.14026666666666668, "grad_norm": 0.02755252140793635, "learning_rate": 0.0001, "loss": 0.9651, "step": 2630 }, { "epoch": 0.14032, "grad_norm": 0.027866052313090812, "learning_rate": 0.0001, "loss": 0.9953, "step": 2631 }, { "epoch": 0.14037333333333332, "grad_norm": 0.025391482655007992, "learning_rate": 0.0001, "loss": 0.9585, "step": 2632 }, { "epoch": 0.14042666666666667, "grad_norm": 0.025498570337314685, "learning_rate": 0.0001, "loss": 0.9552, "step": 2633 }, { "epoch": 0.14048, "grad_norm": 0.025341810499454758, "learning_rate": 0.0001, "loss": 1.0067, "step": 2634 }, { "epoch": 0.14053333333333334, "grad_norm": 0.025746259971403937, "learning_rate": 0.0001, "loss": 0.9401, "step": 2635 }, { "epoch": 0.14058666666666667, "grad_norm": 0.025809588909920685, "learning_rate": 0.0001, "loss": 0.9333, "step": 2636 }, { "epoch": 0.14064, "grad_norm": 0.02557680311449539, "learning_rate": 0.0001, "loss": 0.9792, "step": 2637 }, { "epoch": 0.14069333333333334, "grad_norm": 0.038947207133825656, "learning_rate": 0.0001, "loss": 1.0079, "step": 2638 }, { "epoch": 0.14074666666666666, "grad_norm": 0.025439636224794046, "learning_rate": 0.0001, "loss": 1.0524, "step": 2639 }, { "epoch": 0.1408, "grad_norm": 0.026536376473168616, "learning_rate": 0.0001, "loss": 1.0907, "step": 2640 }, { "epoch": 0.14085333333333333, "grad_norm": 0.025688111298227817, "learning_rate": 0.0001, "loss": 0.989, "step": 2641 }, { "epoch": 0.14090666666666668, "grad_norm": 0.026505147509797034, "learning_rate": 0.0001, "loss": 1.0153, "step": 2642 }, { "epoch": 0.14096, "grad_norm": 0.02842259260340287, "learning_rate": 0.0001, "loss": 1.0105, "step": 2643 }, { "epoch": 0.14101333333333332, "grad_norm": 0.027257631233449927, "learning_rate": 0.0001, "loss": 0.9922, "step": 2644 }, { "epoch": 0.14106666666666667, "grad_norm": 0.025542899428963622, "learning_rate": 0.0001, "loss": 0.9905, "step": 2645 }, { "epoch": 0.14112, "grad_norm": 0.026771752704557436, "learning_rate": 0.0001, "loss": 1.0526, "step": 2646 }, { "epoch": 0.14117333333333335, "grad_norm": 0.02455576281192113, "learning_rate": 0.0001, "loss": 1.0377, "step": 2647 }, { "epoch": 0.14122666666666667, "grad_norm": 0.025369563102262013, "learning_rate": 0.0001, "loss": 0.9672, "step": 2648 }, { "epoch": 0.14128, "grad_norm": 0.029961673435334738, "learning_rate": 0.0001, "loss": 0.9419, "step": 2649 }, { "epoch": 0.14133333333333334, "grad_norm": 0.023264132383748286, "learning_rate": 0.0001, "loss": 1.0019, "step": 2650 }, { "epoch": 0.14138666666666666, "grad_norm": 0.027984391888712875, "learning_rate": 0.0001, "loss": 1.0339, "step": 2651 }, { "epoch": 0.14144, "grad_norm": 0.027018386389746782, "learning_rate": 0.0001, "loss": 0.9745, "step": 2652 }, { "epoch": 0.14149333333333333, "grad_norm": 0.028409441680205292, "learning_rate": 0.0001, "loss": 0.966, "step": 2653 }, { "epoch": 0.14154666666666665, "grad_norm": 0.02511401735616857, "learning_rate": 0.0001, "loss": 0.9836, "step": 2654 }, { "epoch": 0.1416, "grad_norm": 0.02476112740198162, "learning_rate": 0.0001, "loss": 0.9466, "step": 2655 }, { "epoch": 0.14165333333333333, "grad_norm": 0.02893587637632726, "learning_rate": 0.0001, "loss": 1.022, "step": 2656 }, { "epoch": 0.14170666666666668, "grad_norm": 0.023552981067350237, "learning_rate": 0.0001, "loss": 0.9689, "step": 2657 }, { "epoch": 0.14176, "grad_norm": 0.02622360133242475, "learning_rate": 0.0001, "loss": 1.0223, "step": 2658 }, { "epoch": 0.14181333333333335, "grad_norm": 0.024786651432153004, "learning_rate": 0.0001, "loss": 1.0098, "step": 2659 }, { "epoch": 0.14186666666666667, "grad_norm": 0.02530066919481406, "learning_rate": 0.0001, "loss": 1.0109, "step": 2660 }, { "epoch": 0.14192, "grad_norm": 0.0260942729000623, "learning_rate": 0.0001, "loss": 1.0685, "step": 2661 }, { "epoch": 0.14197333333333334, "grad_norm": 0.0255219969521345, "learning_rate": 0.0001, "loss": 1.0075, "step": 2662 }, { "epoch": 0.14202666666666666, "grad_norm": 0.023966830505345954, "learning_rate": 0.0001, "loss": 0.9659, "step": 2663 }, { "epoch": 0.14208, "grad_norm": 0.025926387207645195, "learning_rate": 0.0001, "loss": 0.9864, "step": 2664 }, { "epoch": 0.14213333333333333, "grad_norm": 0.026225994829786724, "learning_rate": 0.0001, "loss": 0.9619, "step": 2665 }, { "epoch": 0.14218666666666666, "grad_norm": 0.02696788502115314, "learning_rate": 0.0001, "loss": 0.9595, "step": 2666 }, { "epoch": 0.14224, "grad_norm": 0.026776764312423457, "learning_rate": 0.0001, "loss": 0.9729, "step": 2667 }, { "epoch": 0.14229333333333333, "grad_norm": 0.025963764538398916, "learning_rate": 0.0001, "loss": 0.9771, "step": 2668 }, { "epoch": 0.14234666666666668, "grad_norm": 0.029425250246592972, "learning_rate": 0.0001, "loss": 0.8891, "step": 2669 }, { "epoch": 0.1424, "grad_norm": 0.027846219934749682, "learning_rate": 0.0001, "loss": 1.0518, "step": 2670 }, { "epoch": 0.14245333333333332, "grad_norm": 0.02850328939279767, "learning_rate": 0.0001, "loss": 0.9788, "step": 2671 }, { "epoch": 0.14250666666666667, "grad_norm": 0.029692858359051826, "learning_rate": 0.0001, "loss": 0.9918, "step": 2672 }, { "epoch": 0.14256, "grad_norm": 0.0281631365061367, "learning_rate": 0.0001, "loss": 1.0342, "step": 2673 }, { "epoch": 0.14261333333333334, "grad_norm": 0.024229058701941624, "learning_rate": 0.0001, "loss": 0.9953, "step": 2674 }, { "epoch": 0.14266666666666666, "grad_norm": 0.027874118432111735, "learning_rate": 0.0001, "loss": 0.9839, "step": 2675 }, { "epoch": 0.14272, "grad_norm": 0.028495394679346035, "learning_rate": 0.0001, "loss": 1.0393, "step": 2676 }, { "epoch": 0.14277333333333334, "grad_norm": 0.02563590256219751, "learning_rate": 0.0001, "loss": 0.9897, "step": 2677 }, { "epoch": 0.14282666666666666, "grad_norm": 0.02586419990803338, "learning_rate": 0.0001, "loss": 1.0555, "step": 2678 }, { "epoch": 0.14288, "grad_norm": 0.03013638140770379, "learning_rate": 0.0001, "loss": 1.0446, "step": 2679 }, { "epoch": 0.14293333333333333, "grad_norm": 0.024957557098993364, "learning_rate": 0.0001, "loss": 1.0164, "step": 2680 }, { "epoch": 0.14298666666666668, "grad_norm": 0.025151006626037097, "learning_rate": 0.0001, "loss": 1.0037, "step": 2681 }, { "epoch": 0.14304, "grad_norm": 0.026778775588101635, "learning_rate": 0.0001, "loss": 0.9607, "step": 2682 }, { "epoch": 0.14309333333333332, "grad_norm": 0.02484208449566377, "learning_rate": 0.0001, "loss": 1.0389, "step": 2683 }, { "epoch": 0.14314666666666667, "grad_norm": 0.026558853204208158, "learning_rate": 0.0001, "loss": 0.9949, "step": 2684 }, { "epoch": 0.1432, "grad_norm": 0.02279163461348191, "learning_rate": 0.0001, "loss": 0.9941, "step": 2685 }, { "epoch": 0.14325333333333334, "grad_norm": 0.024493234205147568, "learning_rate": 0.0001, "loss": 0.9485, "step": 2686 }, { "epoch": 0.14330666666666667, "grad_norm": 0.025118562888041658, "learning_rate": 0.0001, "loss": 1.0528, "step": 2687 }, { "epoch": 0.14336, "grad_norm": 0.02481912398764666, "learning_rate": 0.0001, "loss": 0.9993, "step": 2688 }, { "epoch": 0.14341333333333334, "grad_norm": 0.02438143287695143, "learning_rate": 0.0001, "loss": 1.0076, "step": 2689 }, { "epoch": 0.14346666666666666, "grad_norm": 0.02615728006824538, "learning_rate": 0.0001, "loss": 1.0401, "step": 2690 }, { "epoch": 0.14352, "grad_norm": 0.026064675062291466, "learning_rate": 0.0001, "loss": 0.9459, "step": 2691 }, { "epoch": 0.14357333333333333, "grad_norm": 0.02444728195182971, "learning_rate": 0.0001, "loss": 1.0065, "step": 2692 }, { "epoch": 0.14362666666666668, "grad_norm": 0.025073866154143247, "learning_rate": 0.0001, "loss": 1.019, "step": 2693 }, { "epoch": 0.14368, "grad_norm": 0.025448441414364125, "learning_rate": 0.0001, "loss": 0.9973, "step": 2694 }, { "epoch": 0.14373333333333332, "grad_norm": 0.02467075097100307, "learning_rate": 0.0001, "loss": 0.9663, "step": 2695 }, { "epoch": 0.14378666666666667, "grad_norm": 0.026280009175482465, "learning_rate": 0.0001, "loss": 0.9914, "step": 2696 }, { "epoch": 0.14384, "grad_norm": 0.0273784225417393, "learning_rate": 0.0001, "loss": 0.9679, "step": 2697 }, { "epoch": 0.14389333333333335, "grad_norm": 0.025019042285155144, "learning_rate": 0.0001, "loss": 1.062, "step": 2698 }, { "epoch": 0.14394666666666667, "grad_norm": 0.024229334900956315, "learning_rate": 0.0001, "loss": 0.9685, "step": 2699 }, { "epoch": 0.144, "grad_norm": 0.025810613426563937, "learning_rate": 0.0001, "loss": 0.9128, "step": 2700 }, { "epoch": 0.14405333333333334, "grad_norm": 0.023932449443283942, "learning_rate": 0.0001, "loss": 0.9639, "step": 2701 }, { "epoch": 0.14410666666666666, "grad_norm": 0.02550725318706644, "learning_rate": 0.0001, "loss": 0.9804, "step": 2702 }, { "epoch": 0.14416, "grad_norm": 0.025373906620327267, "learning_rate": 0.0001, "loss": 0.9336, "step": 2703 }, { "epoch": 0.14421333333333333, "grad_norm": 0.026265336433578597, "learning_rate": 0.0001, "loss": 0.9448, "step": 2704 }, { "epoch": 0.14426666666666665, "grad_norm": 0.02498384589544867, "learning_rate": 0.0001, "loss": 0.9736, "step": 2705 }, { "epoch": 0.14432, "grad_norm": 0.0247373958350784, "learning_rate": 0.0001, "loss": 1.0203, "step": 2706 }, { "epoch": 0.14437333333333333, "grad_norm": 0.02517943615096499, "learning_rate": 0.0001, "loss": 1.0295, "step": 2707 }, { "epoch": 0.14442666666666668, "grad_norm": 0.025531195053796595, "learning_rate": 0.0001, "loss": 1.0004, "step": 2708 }, { "epoch": 0.14448, "grad_norm": 0.026069787148781973, "learning_rate": 0.0001, "loss": 0.9953, "step": 2709 }, { "epoch": 0.14453333333333335, "grad_norm": 0.024690351545501175, "learning_rate": 0.0001, "loss": 1.0007, "step": 2710 }, { "epoch": 0.14458666666666667, "grad_norm": 0.02587904706943516, "learning_rate": 0.0001, "loss": 0.9953, "step": 2711 }, { "epoch": 0.14464, "grad_norm": 0.028272996949695987, "learning_rate": 0.0001, "loss": 0.9898, "step": 2712 }, { "epoch": 0.14469333333333334, "grad_norm": 0.025863652917902588, "learning_rate": 0.0001, "loss": 1.0083, "step": 2713 }, { "epoch": 0.14474666666666666, "grad_norm": 0.024604782384084395, "learning_rate": 0.0001, "loss": 0.998, "step": 2714 }, { "epoch": 0.1448, "grad_norm": 0.02802595113903341, "learning_rate": 0.0001, "loss": 1.0114, "step": 2715 }, { "epoch": 0.14485333333333333, "grad_norm": 0.02610098480349537, "learning_rate": 0.0001, "loss": 0.9918, "step": 2716 }, { "epoch": 0.14490666666666666, "grad_norm": 0.027245629016469125, "learning_rate": 0.0001, "loss": 1.0676, "step": 2717 }, { "epoch": 0.14496, "grad_norm": 0.026818265854891447, "learning_rate": 0.0001, "loss": 1.0045, "step": 2718 }, { "epoch": 0.14501333333333333, "grad_norm": 0.027226937644376992, "learning_rate": 0.0001, "loss": 0.9981, "step": 2719 }, { "epoch": 0.14506666666666668, "grad_norm": 0.02625520212515318, "learning_rate": 0.0001, "loss": 0.9635, "step": 2720 }, { "epoch": 0.14512, "grad_norm": 0.027772670146473964, "learning_rate": 0.0001, "loss": 0.9791, "step": 2721 }, { "epoch": 0.14517333333333332, "grad_norm": 0.02408441084347495, "learning_rate": 0.0001, "loss": 0.9939, "step": 2722 }, { "epoch": 0.14522666666666667, "grad_norm": 0.026666380285320628, "learning_rate": 0.0001, "loss": 1.0335, "step": 2723 }, { "epoch": 0.14528, "grad_norm": 0.02697281582160539, "learning_rate": 0.0001, "loss": 1.04, "step": 2724 }, { "epoch": 0.14533333333333334, "grad_norm": 0.02689380444065316, "learning_rate": 0.0001, "loss": 1.0091, "step": 2725 }, { "epoch": 0.14538666666666666, "grad_norm": 0.02651993280043551, "learning_rate": 0.0001, "loss": 1.0108, "step": 2726 }, { "epoch": 0.14544, "grad_norm": 0.02919969371434643, "learning_rate": 0.0001, "loss": 0.9511, "step": 2727 }, { "epoch": 0.14549333333333334, "grad_norm": 0.023680235004573745, "learning_rate": 0.0001, "loss": 1.0226, "step": 2728 }, { "epoch": 0.14554666666666666, "grad_norm": 0.024530714130020077, "learning_rate": 0.0001, "loss": 1.0183, "step": 2729 }, { "epoch": 0.1456, "grad_norm": 0.027970079859773143, "learning_rate": 0.0001, "loss": 0.9771, "step": 2730 }, { "epoch": 0.14565333333333333, "grad_norm": 0.024533302154258984, "learning_rate": 0.0001, "loss": 0.9863, "step": 2731 }, { "epoch": 0.14570666666666668, "grad_norm": 0.028375678711412108, "learning_rate": 0.0001, "loss": 1.0273, "step": 2732 }, { "epoch": 0.14576, "grad_norm": 0.026321284073009467, "learning_rate": 0.0001, "loss": 0.9942, "step": 2733 }, { "epoch": 0.14581333333333332, "grad_norm": 0.024665802843255237, "learning_rate": 0.0001, "loss": 0.9172, "step": 2734 }, { "epoch": 0.14586666666666667, "grad_norm": 0.026652343681344774, "learning_rate": 0.0001, "loss": 0.9804, "step": 2735 }, { "epoch": 0.14592, "grad_norm": 0.03758628154063529, "learning_rate": 0.0001, "loss": 0.9265, "step": 2736 }, { "epoch": 0.14597333333333334, "grad_norm": 0.025710509044604354, "learning_rate": 0.0001, "loss": 0.9455, "step": 2737 }, { "epoch": 0.14602666666666667, "grad_norm": 0.024955987550990162, "learning_rate": 0.0001, "loss": 0.9321, "step": 2738 }, { "epoch": 0.14608, "grad_norm": 0.02697638559364808, "learning_rate": 0.0001, "loss": 1.002, "step": 2739 }, { "epoch": 0.14613333333333334, "grad_norm": 0.024792137384114506, "learning_rate": 0.0001, "loss": 0.99, "step": 2740 }, { "epoch": 0.14618666666666666, "grad_norm": 0.02489193806116384, "learning_rate": 0.0001, "loss": 0.95, "step": 2741 }, { "epoch": 0.14624, "grad_norm": 0.02447527882413921, "learning_rate": 0.0001, "loss": 0.9879, "step": 2742 }, { "epoch": 0.14629333333333333, "grad_norm": 0.026311897810817074, "learning_rate": 0.0001, "loss": 0.9535, "step": 2743 }, { "epoch": 0.14634666666666668, "grad_norm": 0.025468308510182294, "learning_rate": 0.0001, "loss": 0.9864, "step": 2744 }, { "epoch": 0.1464, "grad_norm": 0.024538090057487538, "learning_rate": 0.0001, "loss": 1.0018, "step": 2745 }, { "epoch": 0.14645333333333332, "grad_norm": 0.028289484215942417, "learning_rate": 0.0001, "loss": 0.9464, "step": 2746 }, { "epoch": 0.14650666666666667, "grad_norm": 0.024181043604899696, "learning_rate": 0.0001, "loss": 0.9719, "step": 2747 }, { "epoch": 0.14656, "grad_norm": 0.026365849626972943, "learning_rate": 0.0001, "loss": 1.0119, "step": 2748 }, { "epoch": 0.14661333333333335, "grad_norm": 0.024868929720185437, "learning_rate": 0.0001, "loss": 1.0273, "step": 2749 }, { "epoch": 0.14666666666666667, "grad_norm": 0.025390836999145402, "learning_rate": 0.0001, "loss": 0.9591, "step": 2750 }, { "epoch": 0.14672, "grad_norm": 0.02696300339727224, "learning_rate": 0.0001, "loss": 0.9966, "step": 2751 }, { "epoch": 0.14677333333333334, "grad_norm": 0.027356040955980942, "learning_rate": 0.0001, "loss": 0.9993, "step": 2752 }, { "epoch": 0.14682666666666666, "grad_norm": 0.02613914827878609, "learning_rate": 0.0001, "loss": 1.002, "step": 2753 }, { "epoch": 0.14688, "grad_norm": 0.026464411637016346, "learning_rate": 0.0001, "loss": 1.0444, "step": 2754 }, { "epoch": 0.14693333333333333, "grad_norm": 0.028048320914655867, "learning_rate": 0.0001, "loss": 1.0209, "step": 2755 }, { "epoch": 0.14698666666666665, "grad_norm": 0.024288520501070415, "learning_rate": 0.0001, "loss": 1.0047, "step": 2756 }, { "epoch": 0.14704, "grad_norm": 0.025465650267997568, "learning_rate": 0.0001, "loss": 1.0012, "step": 2757 }, { "epoch": 0.14709333333333333, "grad_norm": 0.026366848071242625, "learning_rate": 0.0001, "loss": 1.0289, "step": 2758 }, { "epoch": 0.14714666666666668, "grad_norm": 0.025568848242606548, "learning_rate": 0.0001, "loss": 0.9955, "step": 2759 }, { "epoch": 0.1472, "grad_norm": 0.025147463118760444, "learning_rate": 0.0001, "loss": 1.0359, "step": 2760 }, { "epoch": 0.14725333333333335, "grad_norm": 0.025305144505655457, "learning_rate": 0.0001, "loss": 1.0067, "step": 2761 }, { "epoch": 0.14730666666666667, "grad_norm": 0.028522066482270594, "learning_rate": 0.0001, "loss": 0.9596, "step": 2762 }, { "epoch": 0.14736, "grad_norm": 0.025909302017571613, "learning_rate": 0.0001, "loss": 0.9507, "step": 2763 }, { "epoch": 0.14741333333333334, "grad_norm": 0.02608745829928049, "learning_rate": 0.0001, "loss": 1.0391, "step": 2764 }, { "epoch": 0.14746666666666666, "grad_norm": 0.024293182052040365, "learning_rate": 0.0001, "loss": 0.9758, "step": 2765 }, { "epoch": 0.14752, "grad_norm": 0.027601253351873068, "learning_rate": 0.0001, "loss": 0.9955, "step": 2766 }, { "epoch": 0.14757333333333333, "grad_norm": 0.02678148978714192, "learning_rate": 0.0001, "loss": 0.9898, "step": 2767 }, { "epoch": 0.14762666666666666, "grad_norm": 0.025706594111318943, "learning_rate": 0.0001, "loss": 0.9966, "step": 2768 }, { "epoch": 0.14768, "grad_norm": 0.030563969262975176, "learning_rate": 0.0001, "loss": 1.0221, "step": 2769 }, { "epoch": 0.14773333333333333, "grad_norm": 0.026582521359890313, "learning_rate": 0.0001, "loss": 0.9781, "step": 2770 }, { "epoch": 0.14778666666666668, "grad_norm": 0.0267643591917065, "learning_rate": 0.0001, "loss": 1.0131, "step": 2771 }, { "epoch": 0.14784, "grad_norm": 0.02917170873893574, "learning_rate": 0.0001, "loss": 1.0191, "step": 2772 }, { "epoch": 0.14789333333333332, "grad_norm": 0.024958019784447626, "learning_rate": 0.0001, "loss": 0.9231, "step": 2773 }, { "epoch": 0.14794666666666667, "grad_norm": 0.026637681952243693, "learning_rate": 0.0001, "loss": 0.992, "step": 2774 }, { "epoch": 0.148, "grad_norm": 0.026847482602202263, "learning_rate": 0.0001, "loss": 1.0509, "step": 2775 }, { "epoch": 0.14805333333333334, "grad_norm": 0.025349565617077924, "learning_rate": 0.0001, "loss": 0.9734, "step": 2776 }, { "epoch": 0.14810666666666666, "grad_norm": 0.028531804694556708, "learning_rate": 0.0001, "loss": 1.0254, "step": 2777 }, { "epoch": 0.14816, "grad_norm": 0.028485615631246103, "learning_rate": 0.0001, "loss": 1.0092, "step": 2778 }, { "epoch": 0.14821333333333334, "grad_norm": 0.025051916858277384, "learning_rate": 0.0001, "loss": 1.031, "step": 2779 }, { "epoch": 0.14826666666666666, "grad_norm": 0.026063240393538318, "learning_rate": 0.0001, "loss": 1.0279, "step": 2780 }, { "epoch": 0.14832, "grad_norm": 0.026538621968167756, "learning_rate": 0.0001, "loss": 0.9725, "step": 2781 }, { "epoch": 0.14837333333333333, "grad_norm": 0.02480622064429203, "learning_rate": 0.0001, "loss": 0.9302, "step": 2782 }, { "epoch": 0.14842666666666668, "grad_norm": 0.02495916066621976, "learning_rate": 0.0001, "loss": 1.0006, "step": 2783 }, { "epoch": 0.14848, "grad_norm": 0.0257358721476807, "learning_rate": 0.0001, "loss": 1.0497, "step": 2784 }, { "epoch": 0.14853333333333332, "grad_norm": 0.02532600034816729, "learning_rate": 0.0001, "loss": 0.9946, "step": 2785 }, { "epoch": 0.14858666666666667, "grad_norm": 0.025353435664473446, "learning_rate": 0.0001, "loss": 1.0147, "step": 2786 }, { "epoch": 0.14864, "grad_norm": 0.025393443934055487, "learning_rate": 0.0001, "loss": 1.0087, "step": 2787 }, { "epoch": 0.14869333333333334, "grad_norm": 0.023056172004120096, "learning_rate": 0.0001, "loss": 0.9579, "step": 2788 }, { "epoch": 0.14874666666666667, "grad_norm": 0.027186109769382877, "learning_rate": 0.0001, "loss": 1.03, "step": 2789 }, { "epoch": 0.1488, "grad_norm": 0.024644320198268226, "learning_rate": 0.0001, "loss": 1.0103, "step": 2790 }, { "epoch": 0.14885333333333334, "grad_norm": 0.02507849102034624, "learning_rate": 0.0001, "loss": 0.9856, "step": 2791 }, { "epoch": 0.14890666666666666, "grad_norm": 0.026119738538197372, "learning_rate": 0.0001, "loss": 1.0242, "step": 2792 }, { "epoch": 0.14896, "grad_norm": 0.024508947204707903, "learning_rate": 0.0001, "loss": 0.9882, "step": 2793 }, { "epoch": 0.14901333333333333, "grad_norm": 0.026141021240131606, "learning_rate": 0.0001, "loss": 1.0011, "step": 2794 }, { "epoch": 0.14906666666666665, "grad_norm": 0.026229248884924925, "learning_rate": 0.0001, "loss": 1.0177, "step": 2795 }, { "epoch": 0.14912, "grad_norm": 0.024916547319886097, "learning_rate": 0.0001, "loss": 1.0244, "step": 2796 }, { "epoch": 0.14917333333333332, "grad_norm": 0.02429602905394022, "learning_rate": 0.0001, "loss": 1.0406, "step": 2797 }, { "epoch": 0.14922666666666667, "grad_norm": 0.02603921363949961, "learning_rate": 0.0001, "loss": 0.9465, "step": 2798 }, { "epoch": 0.14928, "grad_norm": 0.027163011894236103, "learning_rate": 0.0001, "loss": 1.0313, "step": 2799 }, { "epoch": 0.14933333333333335, "grad_norm": 0.026519805970047976, "learning_rate": 0.0001, "loss": 1.0042, "step": 2800 }, { "epoch": 0.14933333333333335, "eval_accuracy": 0.6142322922153098, "eval_loss": 1.3876816034317017, "eval_runtime": 62.6961, "eval_samples_per_second": 15.95, "eval_steps_per_second": 0.51, "step": 2800 }, { "epoch": 0.14938666666666667, "grad_norm": 0.025259762171917343, "learning_rate": 0.0001, "loss": 0.986, "step": 2801 }, { "epoch": 0.14944, "grad_norm": 0.02641761425582143, "learning_rate": 0.0001, "loss": 1.0196, "step": 2802 }, { "epoch": 0.14949333333333334, "grad_norm": 0.025959940332761625, "learning_rate": 0.0001, "loss": 0.9582, "step": 2803 }, { "epoch": 0.14954666666666666, "grad_norm": 0.02653497873745994, "learning_rate": 0.0001, "loss": 0.9801, "step": 2804 }, { "epoch": 0.1496, "grad_norm": 0.025771163535298933, "learning_rate": 0.0001, "loss": 1.033, "step": 2805 }, { "epoch": 0.14965333333333333, "grad_norm": 0.025184705755336385, "learning_rate": 0.0001, "loss": 1.0133, "step": 2806 }, { "epoch": 0.14970666666666665, "grad_norm": 0.024994797074663438, "learning_rate": 0.0001, "loss": 0.9736, "step": 2807 }, { "epoch": 0.14976, "grad_norm": 0.025238282406946252, "learning_rate": 0.0001, "loss": 0.9908, "step": 2808 }, { "epoch": 0.14981333333333333, "grad_norm": 0.02811567870839069, "learning_rate": 0.0001, "loss": 0.9555, "step": 2809 }, { "epoch": 0.14986666666666668, "grad_norm": 0.023763318270643347, "learning_rate": 0.0001, "loss": 0.98, "step": 2810 }, { "epoch": 0.14992, "grad_norm": 0.0268199205727535, "learning_rate": 0.0001, "loss": 1.0383, "step": 2811 }, { "epoch": 0.14997333333333332, "grad_norm": 0.025932318117399714, "learning_rate": 0.0001, "loss": 0.998, "step": 2812 }, { "epoch": 0.15002666666666667, "grad_norm": 0.024998930469127933, "learning_rate": 0.0001, "loss": 0.9912, "step": 2813 }, { "epoch": 0.15008, "grad_norm": 0.02825838714858251, "learning_rate": 0.0001, "loss": 1.0417, "step": 2814 }, { "epoch": 0.15013333333333334, "grad_norm": 0.026473397994837323, "learning_rate": 0.0001, "loss": 0.9848, "step": 2815 }, { "epoch": 0.15018666666666666, "grad_norm": 0.028552343157916948, "learning_rate": 0.0001, "loss": 1.0218, "step": 2816 }, { "epoch": 0.15024, "grad_norm": 0.02748728265055934, "learning_rate": 0.0001, "loss": 1.0338, "step": 2817 }, { "epoch": 0.15029333333333333, "grad_norm": 0.024761626464740213, "learning_rate": 0.0001, "loss": 0.9355, "step": 2818 }, { "epoch": 0.15034666666666666, "grad_norm": 0.027059420307986616, "learning_rate": 0.0001, "loss": 0.9928, "step": 2819 }, { "epoch": 0.1504, "grad_norm": 0.027569625358395425, "learning_rate": 0.0001, "loss": 1.0042, "step": 2820 }, { "epoch": 0.15045333333333333, "grad_norm": 0.02712669710043036, "learning_rate": 0.0001, "loss": 0.9694, "step": 2821 }, { "epoch": 0.15050666666666668, "grad_norm": 0.027695748058775924, "learning_rate": 0.0001, "loss": 1.0448, "step": 2822 }, { "epoch": 0.15056, "grad_norm": 0.026204979771394108, "learning_rate": 0.0001, "loss": 1.0292, "step": 2823 }, { "epoch": 0.15061333333333332, "grad_norm": 0.02678504226732912, "learning_rate": 0.0001, "loss": 1.0103, "step": 2824 }, { "epoch": 0.15066666666666667, "grad_norm": 0.025557768021001716, "learning_rate": 0.0001, "loss": 0.9966, "step": 2825 }, { "epoch": 0.15072, "grad_norm": 0.025902075978160098, "learning_rate": 0.0001, "loss": 0.9885, "step": 2826 }, { "epoch": 0.15077333333333334, "grad_norm": 0.024570037540073603, "learning_rate": 0.0001, "loss": 0.9953, "step": 2827 }, { "epoch": 0.15082666666666666, "grad_norm": 0.024518015835212743, "learning_rate": 0.0001, "loss": 1.0108, "step": 2828 }, { "epoch": 0.15088, "grad_norm": 0.028019139677122773, "learning_rate": 0.0001, "loss": 0.9894, "step": 2829 }, { "epoch": 0.15093333333333334, "grad_norm": 0.0252106089534479, "learning_rate": 0.0001, "loss": 0.9859, "step": 2830 }, { "epoch": 0.15098666666666666, "grad_norm": 0.024870765502341706, "learning_rate": 0.0001, "loss": 1.004, "step": 2831 }, { "epoch": 0.15104, "grad_norm": 0.024142507060385187, "learning_rate": 0.0001, "loss": 0.947, "step": 2832 }, { "epoch": 0.15109333333333333, "grad_norm": 0.02586636862557448, "learning_rate": 0.0001, "loss": 1.025, "step": 2833 }, { "epoch": 0.15114666666666668, "grad_norm": 0.024306646342336154, "learning_rate": 0.0001, "loss": 0.9766, "step": 2834 }, { "epoch": 0.1512, "grad_norm": 0.024932177069190074, "learning_rate": 0.0001, "loss": 0.9916, "step": 2835 }, { "epoch": 0.15125333333333332, "grad_norm": 0.023981629302701542, "learning_rate": 0.0001, "loss": 1.0277, "step": 2836 }, { "epoch": 0.15130666666666667, "grad_norm": 0.025647594265063068, "learning_rate": 0.0001, "loss": 1.0074, "step": 2837 }, { "epoch": 0.15136, "grad_norm": 0.025140152853785087, "learning_rate": 0.0001, "loss": 0.9494, "step": 2838 }, { "epoch": 0.15141333333333334, "grad_norm": 0.025956743427338537, "learning_rate": 0.0001, "loss": 0.9806, "step": 2839 }, { "epoch": 0.15146666666666667, "grad_norm": 0.026324040383475116, "learning_rate": 0.0001, "loss": 1.0193, "step": 2840 }, { "epoch": 0.15152, "grad_norm": 0.023347207743926415, "learning_rate": 0.0001, "loss": 0.983, "step": 2841 }, { "epoch": 0.15157333333333334, "grad_norm": 0.024344378511040824, "learning_rate": 0.0001, "loss": 0.9611, "step": 2842 }, { "epoch": 0.15162666666666666, "grad_norm": 0.02352253442801217, "learning_rate": 0.0001, "loss": 0.9712, "step": 2843 }, { "epoch": 0.15168, "grad_norm": 0.02580567258039093, "learning_rate": 0.0001, "loss": 0.9713, "step": 2844 }, { "epoch": 0.15173333333333333, "grad_norm": 0.025402294982914013, "learning_rate": 0.0001, "loss": 1.042, "step": 2845 }, { "epoch": 0.15178666666666665, "grad_norm": 0.027109818538447655, "learning_rate": 0.0001, "loss": 1.0241, "step": 2846 }, { "epoch": 0.15184, "grad_norm": 0.024091682672027152, "learning_rate": 0.0001, "loss": 0.974, "step": 2847 }, { "epoch": 0.15189333333333332, "grad_norm": 0.027502083945716217, "learning_rate": 0.0001, "loss": 0.9316, "step": 2848 }, { "epoch": 0.15194666666666667, "grad_norm": 0.029453276137018872, "learning_rate": 0.0001, "loss": 1.0482, "step": 2849 }, { "epoch": 0.152, "grad_norm": 0.025507345571367152, "learning_rate": 0.0001, "loss": 0.9914, "step": 2850 }, { "epoch": 0.15205333333333335, "grad_norm": 0.02646848161088942, "learning_rate": 0.0001, "loss": 1.074, "step": 2851 }, { "epoch": 0.15210666666666667, "grad_norm": 0.02478216598167861, "learning_rate": 0.0001, "loss": 0.9344, "step": 2852 }, { "epoch": 0.15216, "grad_norm": 0.02687524002967929, "learning_rate": 0.0001, "loss": 1.0072, "step": 2853 }, { "epoch": 0.15221333333333334, "grad_norm": 0.026157905375242207, "learning_rate": 0.0001, "loss": 0.9673, "step": 2854 }, { "epoch": 0.15226666666666666, "grad_norm": 0.02402650131173148, "learning_rate": 0.0001, "loss": 1.0214, "step": 2855 }, { "epoch": 0.15232, "grad_norm": 0.02860048297481251, "learning_rate": 0.0001, "loss": 0.9377, "step": 2856 }, { "epoch": 0.15237333333333333, "grad_norm": 0.025176096548402842, "learning_rate": 0.0001, "loss": 1.0098, "step": 2857 }, { "epoch": 0.15242666666666665, "grad_norm": 0.027467237475186566, "learning_rate": 0.0001, "loss": 0.9713, "step": 2858 }, { "epoch": 0.15248, "grad_norm": 0.02886570244758702, "learning_rate": 0.0001, "loss": 0.9615, "step": 2859 }, { "epoch": 0.15253333333333333, "grad_norm": 0.026482200654146887, "learning_rate": 0.0001, "loss": 1.0594, "step": 2860 }, { "epoch": 0.15258666666666668, "grad_norm": 0.029101784518223144, "learning_rate": 0.0001, "loss": 1.0048, "step": 2861 }, { "epoch": 0.15264, "grad_norm": 0.028870559197568417, "learning_rate": 0.0001, "loss": 1.0152, "step": 2862 }, { "epoch": 0.15269333333333332, "grad_norm": 0.02499655237392917, "learning_rate": 0.0001, "loss": 0.9879, "step": 2863 }, { "epoch": 0.15274666666666667, "grad_norm": 0.029124618471810824, "learning_rate": 0.0001, "loss": 0.9553, "step": 2864 }, { "epoch": 0.1528, "grad_norm": 0.025623667574923372, "learning_rate": 0.0001, "loss": 1.057, "step": 2865 }, { "epoch": 0.15285333333333334, "grad_norm": 0.0263314742372988, "learning_rate": 0.0001, "loss": 1.0123, "step": 2866 }, { "epoch": 0.15290666666666666, "grad_norm": 0.027473923713546018, "learning_rate": 0.0001, "loss": 1.0103, "step": 2867 }, { "epoch": 0.15296, "grad_norm": 0.026740285432682614, "learning_rate": 0.0001, "loss": 0.9934, "step": 2868 }, { "epoch": 0.15301333333333333, "grad_norm": 0.025642024092611966, "learning_rate": 0.0001, "loss": 0.9586, "step": 2869 }, { "epoch": 0.15306666666666666, "grad_norm": 0.027941689072311638, "learning_rate": 0.0001, "loss": 0.9876, "step": 2870 }, { "epoch": 0.15312, "grad_norm": 0.026886166818726555, "learning_rate": 0.0001, "loss": 1.0131, "step": 2871 }, { "epoch": 0.15317333333333333, "grad_norm": 0.025956399943030242, "learning_rate": 0.0001, "loss": 1.0651, "step": 2872 }, { "epoch": 0.15322666666666668, "grad_norm": 0.02496829391349327, "learning_rate": 0.0001, "loss": 1.0472, "step": 2873 }, { "epoch": 0.15328, "grad_norm": 0.028030230193752736, "learning_rate": 0.0001, "loss": 0.9713, "step": 2874 }, { "epoch": 0.15333333333333332, "grad_norm": 0.028107673515865562, "learning_rate": 0.0001, "loss": 0.9791, "step": 2875 }, { "epoch": 0.15338666666666667, "grad_norm": 0.024488053532057127, "learning_rate": 0.0001, "loss": 0.991, "step": 2876 }, { "epoch": 0.15344, "grad_norm": 0.025534504759887236, "learning_rate": 0.0001, "loss": 0.9214, "step": 2877 }, { "epoch": 0.15349333333333334, "grad_norm": 0.026642606418642113, "learning_rate": 0.0001, "loss": 1.0203, "step": 2878 }, { "epoch": 0.15354666666666666, "grad_norm": 0.027423167833179288, "learning_rate": 0.0001, "loss": 1.0339, "step": 2879 }, { "epoch": 0.1536, "grad_norm": 0.026383439198404395, "learning_rate": 0.0001, "loss": 1.0269, "step": 2880 }, { "epoch": 0.15365333333333334, "grad_norm": 0.026240562216157507, "learning_rate": 0.0001, "loss": 0.99, "step": 2881 }, { "epoch": 0.15370666666666666, "grad_norm": 0.02508074013650424, "learning_rate": 0.0001, "loss": 1.0116, "step": 2882 }, { "epoch": 0.15376, "grad_norm": 0.02544960920796674, "learning_rate": 0.0001, "loss": 1.0264, "step": 2883 }, { "epoch": 0.15381333333333333, "grad_norm": 0.026963058693386374, "learning_rate": 0.0001, "loss": 1.0231, "step": 2884 }, { "epoch": 0.15386666666666668, "grad_norm": 0.025783636586228717, "learning_rate": 0.0001, "loss": 0.9815, "step": 2885 }, { "epoch": 0.15392, "grad_norm": 0.025582755970970966, "learning_rate": 0.0001, "loss": 0.9763, "step": 2886 }, { "epoch": 0.15397333333333332, "grad_norm": 0.0286688248810289, "learning_rate": 0.0001, "loss": 1.0478, "step": 2887 }, { "epoch": 0.15402666666666667, "grad_norm": 0.02768135178020395, "learning_rate": 0.0001, "loss": 1.0187, "step": 2888 }, { "epoch": 0.15408, "grad_norm": 0.023794124668508308, "learning_rate": 0.0001, "loss": 1.0419, "step": 2889 }, { "epoch": 0.15413333333333334, "grad_norm": 0.02750504335717201, "learning_rate": 0.0001, "loss": 0.9775, "step": 2890 }, { "epoch": 0.15418666666666667, "grad_norm": 0.026191349940291677, "learning_rate": 0.0001, "loss": 1.0272, "step": 2891 }, { "epoch": 0.15424, "grad_norm": 0.024696918983346878, "learning_rate": 0.0001, "loss": 1.0605, "step": 2892 }, { "epoch": 0.15429333333333334, "grad_norm": 0.026340187703055806, "learning_rate": 0.0001, "loss": 0.9838, "step": 2893 }, { "epoch": 0.15434666666666666, "grad_norm": 0.025413172249173617, "learning_rate": 0.0001, "loss": 0.9943, "step": 2894 }, { "epoch": 0.1544, "grad_norm": 0.024858848560205586, "learning_rate": 0.0001, "loss": 1.0324, "step": 2895 }, { "epoch": 0.15445333333333333, "grad_norm": 0.02696435983458583, "learning_rate": 0.0001, "loss": 0.9565, "step": 2896 }, { "epoch": 0.15450666666666665, "grad_norm": 0.026879793794955347, "learning_rate": 0.0001, "loss": 1.0168, "step": 2897 }, { "epoch": 0.15456, "grad_norm": 0.02679418918734415, "learning_rate": 0.0001, "loss": 1.016, "step": 2898 }, { "epoch": 0.15461333333333332, "grad_norm": 0.02645374335716224, "learning_rate": 0.0001, "loss": 0.9858, "step": 2899 }, { "epoch": 0.15466666666666667, "grad_norm": 0.02356068026821912, "learning_rate": 0.0001, "loss": 1.0517, "step": 2900 }, { "epoch": 0.15472, "grad_norm": 0.0260781199485307, "learning_rate": 0.0001, "loss": 0.9874, "step": 2901 }, { "epoch": 0.15477333333333335, "grad_norm": 0.02635388449414467, "learning_rate": 0.0001, "loss": 0.9205, "step": 2902 }, { "epoch": 0.15482666666666667, "grad_norm": 0.025679073252705163, "learning_rate": 0.0001, "loss": 0.9805, "step": 2903 }, { "epoch": 0.15488, "grad_norm": 0.02305148571701831, "learning_rate": 0.0001, "loss": 1.0127, "step": 2904 }, { "epoch": 0.15493333333333334, "grad_norm": 0.028531907207965893, "learning_rate": 0.0001, "loss": 0.9966, "step": 2905 }, { "epoch": 0.15498666666666666, "grad_norm": 0.02603270385963536, "learning_rate": 0.0001, "loss": 0.9742, "step": 2906 }, { "epoch": 0.15504, "grad_norm": 0.023247193298052665, "learning_rate": 0.0001, "loss": 0.9914, "step": 2907 }, { "epoch": 0.15509333333333333, "grad_norm": 0.02700138124482521, "learning_rate": 0.0001, "loss": 0.9737, "step": 2908 }, { "epoch": 0.15514666666666665, "grad_norm": 0.02565754081814756, "learning_rate": 0.0001, "loss": 1.0538, "step": 2909 }, { "epoch": 0.1552, "grad_norm": 0.024080574046992497, "learning_rate": 0.0001, "loss": 1.0232, "step": 2910 }, { "epoch": 0.15525333333333333, "grad_norm": 0.02423325700959463, "learning_rate": 0.0001, "loss": 1.0282, "step": 2911 }, { "epoch": 0.15530666666666668, "grad_norm": 0.023228922476173062, "learning_rate": 0.0001, "loss": 1.0132, "step": 2912 }, { "epoch": 0.15536, "grad_norm": 0.023807776599991247, "learning_rate": 0.0001, "loss": 0.9693, "step": 2913 }, { "epoch": 0.15541333333333332, "grad_norm": 0.024233330943693874, "learning_rate": 0.0001, "loss": 0.9511, "step": 2914 }, { "epoch": 0.15546666666666667, "grad_norm": 0.02346841287487636, "learning_rate": 0.0001, "loss": 1.0135, "step": 2915 }, { "epoch": 0.15552, "grad_norm": 0.026866844121666046, "learning_rate": 0.0001, "loss": 1.0085, "step": 2916 }, { "epoch": 0.15557333333333334, "grad_norm": 0.02482809408694699, "learning_rate": 0.0001, "loss": 1.0206, "step": 2917 }, { "epoch": 0.15562666666666666, "grad_norm": 0.022114177095012115, "learning_rate": 0.0001, "loss": 1.0359, "step": 2918 }, { "epoch": 0.15568, "grad_norm": 0.023023911995734943, "learning_rate": 0.0001, "loss": 1.0056, "step": 2919 }, { "epoch": 0.15573333333333333, "grad_norm": 0.024489129005438818, "learning_rate": 0.0001, "loss": 1.0345, "step": 2920 }, { "epoch": 0.15578666666666666, "grad_norm": 0.023643757575632602, "learning_rate": 0.0001, "loss": 1.0117, "step": 2921 }, { "epoch": 0.15584, "grad_norm": 0.02493299795366879, "learning_rate": 0.0001, "loss": 1.0005, "step": 2922 }, { "epoch": 0.15589333333333333, "grad_norm": 0.022718692512396235, "learning_rate": 0.0001, "loss": 0.9654, "step": 2923 }, { "epoch": 0.15594666666666668, "grad_norm": 0.024508605798101907, "learning_rate": 0.0001, "loss": 0.9867, "step": 2924 }, { "epoch": 0.156, "grad_norm": 0.0244201032201887, "learning_rate": 0.0001, "loss": 0.9272, "step": 2925 }, { "epoch": 0.15605333333333332, "grad_norm": 0.026007032990576797, "learning_rate": 0.0001, "loss": 1.0051, "step": 2926 }, { "epoch": 0.15610666666666667, "grad_norm": 0.024988536064674032, "learning_rate": 0.0001, "loss": 1.0316, "step": 2927 }, { "epoch": 0.15616, "grad_norm": 0.02308851937062763, "learning_rate": 0.0001, "loss": 0.9979, "step": 2928 }, { "epoch": 0.15621333333333334, "grad_norm": 0.027182725501162523, "learning_rate": 0.0001, "loss": 0.996, "step": 2929 }, { "epoch": 0.15626666666666666, "grad_norm": 0.026370869461416556, "learning_rate": 0.0001, "loss": 0.9749, "step": 2930 }, { "epoch": 0.15632, "grad_norm": 0.025177320752811764, "learning_rate": 0.0001, "loss": 0.9959, "step": 2931 }, { "epoch": 0.15637333333333334, "grad_norm": 0.02411229155185329, "learning_rate": 0.0001, "loss": 0.9453, "step": 2932 }, { "epoch": 0.15642666666666666, "grad_norm": 0.02464022597099645, "learning_rate": 0.0001, "loss": 1.012, "step": 2933 }, { "epoch": 0.15648, "grad_norm": 0.02440597837068386, "learning_rate": 0.0001, "loss": 1.0204, "step": 2934 }, { "epoch": 0.15653333333333333, "grad_norm": 0.025871409485083454, "learning_rate": 0.0001, "loss": 0.9787, "step": 2935 }, { "epoch": 0.15658666666666668, "grad_norm": 0.024702302892641383, "learning_rate": 0.0001, "loss": 0.9828, "step": 2936 }, { "epoch": 0.15664, "grad_norm": 0.025122662366576818, "learning_rate": 0.0001, "loss": 0.9983, "step": 2937 }, { "epoch": 0.15669333333333332, "grad_norm": 0.02575777453791192, "learning_rate": 0.0001, "loss": 0.9615, "step": 2938 }, { "epoch": 0.15674666666666667, "grad_norm": 0.023798312079073305, "learning_rate": 0.0001, "loss": 0.9871, "step": 2939 }, { "epoch": 0.1568, "grad_norm": 0.024918865804232866, "learning_rate": 0.0001, "loss": 1.0527, "step": 2940 }, { "epoch": 0.15685333333333334, "grad_norm": 0.026252243851745308, "learning_rate": 0.0001, "loss": 1.0066, "step": 2941 }, { "epoch": 0.15690666666666667, "grad_norm": 0.0256053371918376, "learning_rate": 0.0001, "loss": 0.9997, "step": 2942 }, { "epoch": 0.15696, "grad_norm": 0.023665931585266187, "learning_rate": 0.0001, "loss": 1.027, "step": 2943 }, { "epoch": 0.15701333333333334, "grad_norm": 0.026506361624277816, "learning_rate": 0.0001, "loss": 1.0084, "step": 2944 }, { "epoch": 0.15706666666666666, "grad_norm": 0.024041613649712263, "learning_rate": 0.0001, "loss": 0.9861, "step": 2945 }, { "epoch": 0.15712, "grad_norm": 0.025713715531546822, "learning_rate": 0.0001, "loss": 0.9632, "step": 2946 }, { "epoch": 0.15717333333333333, "grad_norm": 0.024286959391905776, "learning_rate": 0.0001, "loss": 0.944, "step": 2947 }, { "epoch": 0.15722666666666665, "grad_norm": 0.026061433436757358, "learning_rate": 0.0001, "loss": 1.01, "step": 2948 }, { "epoch": 0.15728, "grad_norm": 0.024450097195880788, "learning_rate": 0.0001, "loss": 0.9791, "step": 2949 }, { "epoch": 0.15733333333333333, "grad_norm": 0.025243804347275675, "learning_rate": 0.0001, "loss": 0.9391, "step": 2950 }, { "epoch": 0.15738666666666667, "grad_norm": 0.02734795826591654, "learning_rate": 0.0001, "loss": 0.9972, "step": 2951 }, { "epoch": 0.15744, "grad_norm": 0.024878057228376733, "learning_rate": 0.0001, "loss": 1.0389, "step": 2952 }, { "epoch": 0.15749333333333335, "grad_norm": 0.026183892789422604, "learning_rate": 0.0001, "loss": 1.03, "step": 2953 }, { "epoch": 0.15754666666666667, "grad_norm": 0.0260967284757879, "learning_rate": 0.0001, "loss": 0.9694, "step": 2954 }, { "epoch": 0.1576, "grad_norm": 0.024381564279411762, "learning_rate": 0.0001, "loss": 1.0179, "step": 2955 }, { "epoch": 0.15765333333333334, "grad_norm": 0.028348181082798903, "learning_rate": 0.0001, "loss": 0.9333, "step": 2956 }, { "epoch": 0.15770666666666666, "grad_norm": 0.026961869611770377, "learning_rate": 0.0001, "loss": 0.9886, "step": 2957 }, { "epoch": 0.15776, "grad_norm": 0.027271809641877923, "learning_rate": 0.0001, "loss": 0.9718, "step": 2958 }, { "epoch": 0.15781333333333333, "grad_norm": 0.024557782106172862, "learning_rate": 0.0001, "loss": 0.996, "step": 2959 }, { "epoch": 0.15786666666666666, "grad_norm": 0.026130866042834287, "learning_rate": 0.0001, "loss": 0.9664, "step": 2960 }, { "epoch": 0.15792, "grad_norm": 0.026444163399854264, "learning_rate": 0.0001, "loss": 0.9247, "step": 2961 }, { "epoch": 0.15797333333333333, "grad_norm": 0.02380726771498953, "learning_rate": 0.0001, "loss": 1.0001, "step": 2962 }, { "epoch": 0.15802666666666668, "grad_norm": 0.026556544892373038, "learning_rate": 0.0001, "loss": 0.9531, "step": 2963 }, { "epoch": 0.15808, "grad_norm": 0.026324616292196377, "learning_rate": 0.0001, "loss": 0.966, "step": 2964 }, { "epoch": 0.15813333333333332, "grad_norm": 0.02627968723708019, "learning_rate": 0.0001, "loss": 1.0057, "step": 2965 }, { "epoch": 0.15818666666666667, "grad_norm": 0.0269544049572685, "learning_rate": 0.0001, "loss": 0.9954, "step": 2966 }, { "epoch": 0.15824, "grad_norm": 0.02675029404099204, "learning_rate": 0.0001, "loss": 0.9971, "step": 2967 }, { "epoch": 0.15829333333333334, "grad_norm": 0.026361807134961245, "learning_rate": 0.0001, "loss": 1.065, "step": 2968 }, { "epoch": 0.15834666666666666, "grad_norm": 0.026857293382601247, "learning_rate": 0.0001, "loss": 0.9681, "step": 2969 }, { "epoch": 0.1584, "grad_norm": 0.023634975322612602, "learning_rate": 0.0001, "loss": 1.0654, "step": 2970 }, { "epoch": 0.15845333333333333, "grad_norm": 0.02826128303623428, "learning_rate": 0.0001, "loss": 1.0253, "step": 2971 }, { "epoch": 0.15850666666666666, "grad_norm": 0.02498207643729721, "learning_rate": 0.0001, "loss": 1.0336, "step": 2972 }, { "epoch": 0.15856, "grad_norm": 0.025039036589847578, "learning_rate": 0.0001, "loss": 1.0342, "step": 2973 }, { "epoch": 0.15861333333333333, "grad_norm": 0.02420203338998239, "learning_rate": 0.0001, "loss": 1.0167, "step": 2974 }, { "epoch": 0.15866666666666668, "grad_norm": 0.02520117740654435, "learning_rate": 0.0001, "loss": 1.02, "step": 2975 }, { "epoch": 0.15872, "grad_norm": 0.02463416373436397, "learning_rate": 0.0001, "loss": 1.0443, "step": 2976 }, { "epoch": 0.15877333333333332, "grad_norm": 0.024280360649431062, "learning_rate": 0.0001, "loss": 0.9906, "step": 2977 }, { "epoch": 0.15882666666666667, "grad_norm": 0.024230936144297655, "learning_rate": 0.0001, "loss": 0.946, "step": 2978 }, { "epoch": 0.15888, "grad_norm": 0.024779852112806134, "learning_rate": 0.0001, "loss": 0.9593, "step": 2979 }, { "epoch": 0.15893333333333334, "grad_norm": 0.024442020686881717, "learning_rate": 0.0001, "loss": 0.984, "step": 2980 }, { "epoch": 0.15898666666666667, "grad_norm": 0.02363717135431708, "learning_rate": 0.0001, "loss": 0.964, "step": 2981 }, { "epoch": 0.15904, "grad_norm": 0.023738472777105918, "learning_rate": 0.0001, "loss": 0.9599, "step": 2982 }, { "epoch": 0.15909333333333334, "grad_norm": 0.024021486943556925, "learning_rate": 0.0001, "loss": 0.9615, "step": 2983 }, { "epoch": 0.15914666666666666, "grad_norm": 0.02393024458221936, "learning_rate": 0.0001, "loss": 0.9827, "step": 2984 }, { "epoch": 0.1592, "grad_norm": 0.026950702490471348, "learning_rate": 0.0001, "loss": 0.9997, "step": 2985 }, { "epoch": 0.15925333333333333, "grad_norm": 0.02363930267556382, "learning_rate": 0.0001, "loss": 0.9868, "step": 2986 }, { "epoch": 0.15930666666666668, "grad_norm": 0.02550620628082037, "learning_rate": 0.0001, "loss": 0.9669, "step": 2987 }, { "epoch": 0.15936, "grad_norm": 0.024415491437071647, "learning_rate": 0.0001, "loss": 0.9643, "step": 2988 }, { "epoch": 0.15941333333333332, "grad_norm": 0.023893024159728916, "learning_rate": 0.0001, "loss": 0.9508, "step": 2989 }, { "epoch": 0.15946666666666667, "grad_norm": 0.02472691366597289, "learning_rate": 0.0001, "loss": 1.0398, "step": 2990 }, { "epoch": 0.15952, "grad_norm": 0.02397109971751671, "learning_rate": 0.0001, "loss": 1.0076, "step": 2991 }, { "epoch": 0.15957333333333334, "grad_norm": 0.026859938587138442, "learning_rate": 0.0001, "loss": 1.0027, "step": 2992 }, { "epoch": 0.15962666666666667, "grad_norm": 0.0242660769624829, "learning_rate": 0.0001, "loss": 0.9955, "step": 2993 }, { "epoch": 0.15968, "grad_norm": 0.0239915366025158, "learning_rate": 0.0001, "loss": 0.9944, "step": 2994 }, { "epoch": 0.15973333333333334, "grad_norm": 0.02392535137991501, "learning_rate": 0.0001, "loss": 1.011, "step": 2995 }, { "epoch": 0.15978666666666666, "grad_norm": 0.023373773966374644, "learning_rate": 0.0001, "loss": 0.9678, "step": 2996 }, { "epoch": 0.15984, "grad_norm": 0.022954071139498523, "learning_rate": 0.0001, "loss": 0.982, "step": 2997 }, { "epoch": 0.15989333333333333, "grad_norm": 0.024727701893953784, "learning_rate": 0.0001, "loss": 0.9997, "step": 2998 }, { "epoch": 0.15994666666666665, "grad_norm": 0.023148217941958742, "learning_rate": 0.0001, "loss": 0.946, "step": 2999 }, { "epoch": 0.16, "grad_norm": 0.024948230330894224, "learning_rate": 0.0001, "loss": 1.055, "step": 3000 }, { "epoch": 0.16, "eval_accuracy": 0.6145619410911062, "eval_loss": 1.3855246305465698, "eval_runtime": 62.5608, "eval_samples_per_second": 15.984, "eval_steps_per_second": 0.512, "step": 3000 }, { "epoch": 0.16005333333333333, "grad_norm": 0.024297398694448528, "learning_rate": 0.0001, "loss": 1.008, "step": 3001 }, { "epoch": 0.16010666666666667, "grad_norm": 0.02354096793624368, "learning_rate": 0.0001, "loss": 0.9383, "step": 3002 }, { "epoch": 0.16016, "grad_norm": 0.02490644935891289, "learning_rate": 0.0001, "loss": 1.0186, "step": 3003 }, { "epoch": 0.16021333333333335, "grad_norm": 0.02292379009168702, "learning_rate": 0.0001, "loss": 0.9748, "step": 3004 }, { "epoch": 0.16026666666666667, "grad_norm": 0.026373001802781598, "learning_rate": 0.0001, "loss": 0.9443, "step": 3005 }, { "epoch": 0.16032, "grad_norm": 0.02410989849741998, "learning_rate": 0.0001, "loss": 1.033, "step": 3006 }, { "epoch": 0.16037333333333334, "grad_norm": 0.0224550000519139, "learning_rate": 0.0001, "loss": 0.9979, "step": 3007 }, { "epoch": 0.16042666666666666, "grad_norm": 0.028049375572750723, "learning_rate": 0.0001, "loss": 1.0159, "step": 3008 }, { "epoch": 0.16048, "grad_norm": 0.024998836275669078, "learning_rate": 0.0001, "loss": 1.0228, "step": 3009 }, { "epoch": 0.16053333333333333, "grad_norm": 0.027438294521016697, "learning_rate": 0.0001, "loss": 0.9753, "step": 3010 }, { "epoch": 0.16058666666666666, "grad_norm": 0.03037611546015116, "learning_rate": 0.0001, "loss": 0.9848, "step": 3011 }, { "epoch": 0.16064, "grad_norm": 0.025647671895109834, "learning_rate": 0.0001, "loss": 1.0007, "step": 3012 }, { "epoch": 0.16069333333333333, "grad_norm": 0.02582760973758508, "learning_rate": 0.0001, "loss": 1.0187, "step": 3013 }, { "epoch": 0.16074666666666668, "grad_norm": 0.027131278788327724, "learning_rate": 0.0001, "loss": 0.9711, "step": 3014 }, { "epoch": 0.1608, "grad_norm": 0.026326258741276407, "learning_rate": 0.0001, "loss": 0.9508, "step": 3015 }, { "epoch": 0.16085333333333332, "grad_norm": 0.025658520709495005, "learning_rate": 0.0001, "loss": 1.0612, "step": 3016 }, { "epoch": 0.16090666666666667, "grad_norm": 0.0262832168747172, "learning_rate": 0.0001, "loss": 0.9543, "step": 3017 }, { "epoch": 0.16096, "grad_norm": 0.02466851974623505, "learning_rate": 0.0001, "loss": 0.9694, "step": 3018 }, { "epoch": 0.16101333333333334, "grad_norm": 0.023529208533452133, "learning_rate": 0.0001, "loss": 1.0229, "step": 3019 }, { "epoch": 0.16106666666666666, "grad_norm": 0.025223685413576592, "learning_rate": 0.0001, "loss": 1.0283, "step": 3020 }, { "epoch": 0.16112, "grad_norm": 0.0252405375550761, "learning_rate": 0.0001, "loss": 0.9877, "step": 3021 }, { "epoch": 0.16117333333333334, "grad_norm": 0.0239408558561943, "learning_rate": 0.0001, "loss": 1.009, "step": 3022 }, { "epoch": 0.16122666666666666, "grad_norm": 0.024274526148322248, "learning_rate": 0.0001, "loss": 1.0145, "step": 3023 }, { "epoch": 0.16128, "grad_norm": 0.027277085747479397, "learning_rate": 0.0001, "loss": 1.0104, "step": 3024 }, { "epoch": 0.16133333333333333, "grad_norm": 0.026589991405756866, "learning_rate": 0.0001, "loss": 0.997, "step": 3025 }, { "epoch": 0.16138666666666668, "grad_norm": 0.025561322873803177, "learning_rate": 0.0001, "loss": 1.003, "step": 3026 }, { "epoch": 0.16144, "grad_norm": 0.02489068110691095, "learning_rate": 0.0001, "loss": 1.019, "step": 3027 }, { "epoch": 0.16149333333333332, "grad_norm": 0.025828247419996633, "learning_rate": 0.0001, "loss": 1.0296, "step": 3028 }, { "epoch": 0.16154666666666667, "grad_norm": 0.026736368166451818, "learning_rate": 0.0001, "loss": 0.9938, "step": 3029 }, { "epoch": 0.1616, "grad_norm": 0.023946717464056744, "learning_rate": 0.0001, "loss": 0.9771, "step": 3030 }, { "epoch": 0.16165333333333334, "grad_norm": 0.028180241598548227, "learning_rate": 0.0001, "loss": 1.0073, "step": 3031 }, { "epoch": 0.16170666666666667, "grad_norm": 0.02492086248684902, "learning_rate": 0.0001, "loss": 0.9664, "step": 3032 }, { "epoch": 0.16176, "grad_norm": 0.026000795786105434, "learning_rate": 0.0001, "loss": 0.9908, "step": 3033 }, { "epoch": 0.16181333333333334, "grad_norm": 0.02556433012116321, "learning_rate": 0.0001, "loss": 0.9875, "step": 3034 }, { "epoch": 0.16186666666666666, "grad_norm": 0.024524568069721732, "learning_rate": 0.0001, "loss": 1.0055, "step": 3035 }, { "epoch": 0.16192, "grad_norm": 0.026577513615034912, "learning_rate": 0.0001, "loss": 1.0456, "step": 3036 }, { "epoch": 0.16197333333333333, "grad_norm": 0.024332818594759786, "learning_rate": 0.0001, "loss": 0.9942, "step": 3037 }, { "epoch": 0.16202666666666668, "grad_norm": 0.02627285748871402, "learning_rate": 0.0001, "loss": 1.0199, "step": 3038 }, { "epoch": 0.16208, "grad_norm": 0.026279141831189456, "learning_rate": 0.0001, "loss": 0.9734, "step": 3039 }, { "epoch": 0.16213333333333332, "grad_norm": 0.02399849423640993, "learning_rate": 0.0001, "loss": 0.9522, "step": 3040 }, { "epoch": 0.16218666666666667, "grad_norm": 0.025497502736511045, "learning_rate": 0.0001, "loss": 0.9765, "step": 3041 }, { "epoch": 0.16224, "grad_norm": 0.024533501676096, "learning_rate": 0.0001, "loss": 1.0459, "step": 3042 }, { "epoch": 0.16229333333333334, "grad_norm": 0.025069233226097526, "learning_rate": 0.0001, "loss": 0.969, "step": 3043 }, { "epoch": 0.16234666666666667, "grad_norm": 0.02754265182539945, "learning_rate": 0.0001, "loss": 1.0162, "step": 3044 }, { "epoch": 0.1624, "grad_norm": 0.02445071620088234, "learning_rate": 0.0001, "loss": 0.9597, "step": 3045 }, { "epoch": 0.16245333333333334, "grad_norm": 0.027325879723132974, "learning_rate": 0.0001, "loss": 0.9581, "step": 3046 }, { "epoch": 0.16250666666666666, "grad_norm": 0.025308663459589504, "learning_rate": 0.0001, "loss": 0.9707, "step": 3047 }, { "epoch": 0.16256, "grad_norm": 0.023518980066552012, "learning_rate": 0.0001, "loss": 0.9592, "step": 3048 }, { "epoch": 0.16261333333333333, "grad_norm": 0.030151119830745504, "learning_rate": 0.0001, "loss": 0.9482, "step": 3049 }, { "epoch": 0.16266666666666665, "grad_norm": 0.024808663306564283, "learning_rate": 0.0001, "loss": 1.0859, "step": 3050 }, { "epoch": 0.16272, "grad_norm": 0.026304930329921445, "learning_rate": 0.0001, "loss": 0.9658, "step": 3051 }, { "epoch": 0.16277333333333333, "grad_norm": 0.026178347232392502, "learning_rate": 0.0001, "loss": 1.014, "step": 3052 }, { "epoch": 0.16282666666666668, "grad_norm": 0.026728534904462118, "learning_rate": 0.0001, "loss": 0.9804, "step": 3053 }, { "epoch": 0.16288, "grad_norm": 0.0261920024023932, "learning_rate": 0.0001, "loss": 0.9959, "step": 3054 }, { "epoch": 0.16293333333333335, "grad_norm": 0.026571907043389208, "learning_rate": 0.0001, "loss": 0.9694, "step": 3055 }, { "epoch": 0.16298666666666667, "grad_norm": 0.027083921860829665, "learning_rate": 0.0001, "loss": 0.9719, "step": 3056 }, { "epoch": 0.16304, "grad_norm": 0.024579076193239062, "learning_rate": 0.0001, "loss": 1.0252, "step": 3057 }, { "epoch": 0.16309333333333334, "grad_norm": 0.02650501142943744, "learning_rate": 0.0001, "loss": 1.0504, "step": 3058 }, { "epoch": 0.16314666666666666, "grad_norm": 0.026147161632386638, "learning_rate": 0.0001, "loss": 1.0179, "step": 3059 }, { "epoch": 0.1632, "grad_norm": 0.02382256311624333, "learning_rate": 0.0001, "loss": 0.9598, "step": 3060 }, { "epoch": 0.16325333333333333, "grad_norm": 0.026960634115609044, "learning_rate": 0.0001, "loss": 0.9879, "step": 3061 }, { "epoch": 0.16330666666666666, "grad_norm": 0.026716835249932597, "learning_rate": 0.0001, "loss": 0.9826, "step": 3062 }, { "epoch": 0.16336, "grad_norm": 0.026568990118151097, "learning_rate": 0.0001, "loss": 0.9827, "step": 3063 }, { "epoch": 0.16341333333333333, "grad_norm": 0.02357075350547116, "learning_rate": 0.0001, "loss": 1.0335, "step": 3064 }, { "epoch": 0.16346666666666668, "grad_norm": 0.026443648902009842, "learning_rate": 0.0001, "loss": 0.9946, "step": 3065 }, { "epoch": 0.16352, "grad_norm": 0.02646612140659116, "learning_rate": 0.0001, "loss": 1.0384, "step": 3066 }, { "epoch": 0.16357333333333332, "grad_norm": 0.024134314102768503, "learning_rate": 0.0001, "loss": 1.0086, "step": 3067 }, { "epoch": 0.16362666666666667, "grad_norm": 0.02487344551537423, "learning_rate": 0.0001, "loss": 0.9574, "step": 3068 }, { "epoch": 0.16368, "grad_norm": 0.028226006510698207, "learning_rate": 0.0001, "loss": 1.0004, "step": 3069 }, { "epoch": 0.16373333333333334, "grad_norm": 0.023593569778890034, "learning_rate": 0.0001, "loss": 0.9928, "step": 3070 }, { "epoch": 0.16378666666666666, "grad_norm": 0.026470009776063515, "learning_rate": 0.0001, "loss": 0.9895, "step": 3071 }, { "epoch": 0.16384, "grad_norm": 0.025123454445675927, "learning_rate": 0.0001, "loss": 0.9365, "step": 3072 }, { "epoch": 0.16389333333333334, "grad_norm": 0.02684709004188173, "learning_rate": 0.0001, "loss": 1.0071, "step": 3073 }, { "epoch": 0.16394666666666666, "grad_norm": 0.024530046984176573, "learning_rate": 0.0001, "loss": 0.9688, "step": 3074 }, { "epoch": 0.164, "grad_norm": 0.027707417248179312, "learning_rate": 0.0001, "loss": 0.9557, "step": 3075 }, { "epoch": 0.16405333333333333, "grad_norm": 0.024588790514335643, "learning_rate": 0.0001, "loss": 0.9958, "step": 3076 }, { "epoch": 0.16410666666666668, "grad_norm": 0.025576951143114816, "learning_rate": 0.0001, "loss": 1.0101, "step": 3077 }, { "epoch": 0.16416, "grad_norm": 0.02541160634125404, "learning_rate": 0.0001, "loss": 0.9854, "step": 3078 }, { "epoch": 0.16421333333333332, "grad_norm": 0.024070229236235287, "learning_rate": 0.0001, "loss": 0.9869, "step": 3079 }, { "epoch": 0.16426666666666667, "grad_norm": 0.024967784129060547, "learning_rate": 0.0001, "loss": 0.9921, "step": 3080 }, { "epoch": 0.16432, "grad_norm": 0.025138814007413624, "learning_rate": 0.0001, "loss": 1.0073, "step": 3081 }, { "epoch": 0.16437333333333334, "grad_norm": 0.022867659075528176, "learning_rate": 0.0001, "loss": 1.0487, "step": 3082 }, { "epoch": 0.16442666666666667, "grad_norm": 0.024103029285883995, "learning_rate": 0.0001, "loss": 1.0351, "step": 3083 }, { "epoch": 0.16448, "grad_norm": 0.025211983264825114, "learning_rate": 0.0001, "loss": 1.0307, "step": 3084 }, { "epoch": 0.16453333333333334, "grad_norm": 0.026179153759899848, "learning_rate": 0.0001, "loss": 1.0264, "step": 3085 }, { "epoch": 0.16458666666666666, "grad_norm": 0.026084361434783015, "learning_rate": 0.0001, "loss": 0.9704, "step": 3086 }, { "epoch": 0.16464, "grad_norm": 0.02717258673818343, "learning_rate": 0.0001, "loss": 1.0157, "step": 3087 }, { "epoch": 0.16469333333333333, "grad_norm": 0.02187546106831263, "learning_rate": 0.0001, "loss": 0.9811, "step": 3088 }, { "epoch": 0.16474666666666668, "grad_norm": 0.025100883947215467, "learning_rate": 0.0001, "loss": 1.0697, "step": 3089 }, { "epoch": 0.1648, "grad_norm": 0.024991853111418542, "learning_rate": 0.0001, "loss": 0.9806, "step": 3090 }, { "epoch": 0.16485333333333332, "grad_norm": 0.0225194900201007, "learning_rate": 0.0001, "loss": 0.9584, "step": 3091 }, { "epoch": 0.16490666666666667, "grad_norm": 0.023857903159306304, "learning_rate": 0.0001, "loss": 1.0282, "step": 3092 }, { "epoch": 0.16496, "grad_norm": 0.025173932621857645, "learning_rate": 0.0001, "loss": 1.0058, "step": 3093 }, { "epoch": 0.16501333333333335, "grad_norm": 0.023483049894360175, "learning_rate": 0.0001, "loss": 1.0022, "step": 3094 }, { "epoch": 0.16506666666666667, "grad_norm": 0.02289583661011337, "learning_rate": 0.0001, "loss": 0.996, "step": 3095 }, { "epoch": 0.16512, "grad_norm": 0.02305217937453157, "learning_rate": 0.0001, "loss": 1.0181, "step": 3096 }, { "epoch": 0.16517333333333334, "grad_norm": 0.0244077168393719, "learning_rate": 0.0001, "loss": 1.0162, "step": 3097 }, { "epoch": 0.16522666666666666, "grad_norm": 0.024013383137571273, "learning_rate": 0.0001, "loss": 1.0074, "step": 3098 }, { "epoch": 0.16528, "grad_norm": 0.024353815261923498, "learning_rate": 0.0001, "loss": 0.9882, "step": 3099 }, { "epoch": 0.16533333333333333, "grad_norm": 0.02387560893725555, "learning_rate": 0.0001, "loss": 1.0314, "step": 3100 }, { "epoch": 0.16538666666666665, "grad_norm": 0.023722092544277148, "learning_rate": 0.0001, "loss": 1.023, "step": 3101 }, { "epoch": 0.16544, "grad_norm": 0.02486301252486058, "learning_rate": 0.0001, "loss": 0.9028, "step": 3102 }, { "epoch": 0.16549333333333333, "grad_norm": 0.023437222724659264, "learning_rate": 0.0001, "loss": 0.9924, "step": 3103 }, { "epoch": 0.16554666666666668, "grad_norm": 0.026300381645389736, "learning_rate": 0.0001, "loss": 1.0016, "step": 3104 }, { "epoch": 0.1656, "grad_norm": 0.025721508547217206, "learning_rate": 0.0001, "loss": 1.0235, "step": 3105 }, { "epoch": 0.16565333333333335, "grad_norm": 0.02580341655128775, "learning_rate": 0.0001, "loss": 1.0157, "step": 3106 }, { "epoch": 0.16570666666666667, "grad_norm": 0.024717062203306467, "learning_rate": 0.0001, "loss": 0.9864, "step": 3107 }, { "epoch": 0.16576, "grad_norm": 0.027188333990225043, "learning_rate": 0.0001, "loss": 0.9557, "step": 3108 }, { "epoch": 0.16581333333333334, "grad_norm": 0.023020663315678914, "learning_rate": 0.0001, "loss": 0.953, "step": 3109 }, { "epoch": 0.16586666666666666, "grad_norm": 0.024927681379550436, "learning_rate": 0.0001, "loss": 0.9911, "step": 3110 }, { "epoch": 0.16592, "grad_norm": 0.02300807474738058, "learning_rate": 0.0001, "loss": 1.0339, "step": 3111 }, { "epoch": 0.16597333333333333, "grad_norm": 0.02527258483893534, "learning_rate": 0.0001, "loss": 1.0104, "step": 3112 }, { "epoch": 0.16602666666666666, "grad_norm": 0.023229282310007135, "learning_rate": 0.0001, "loss": 0.9964, "step": 3113 }, { "epoch": 0.16608, "grad_norm": 0.024032332620529673, "learning_rate": 0.0001, "loss": 0.9985, "step": 3114 }, { "epoch": 0.16613333333333333, "grad_norm": 0.02365747735019262, "learning_rate": 0.0001, "loss": 0.9756, "step": 3115 }, { "epoch": 0.16618666666666668, "grad_norm": 0.02556911101012355, "learning_rate": 0.0001, "loss": 0.9728, "step": 3116 }, { "epoch": 0.16624, "grad_norm": 0.02401078689070725, "learning_rate": 0.0001, "loss": 0.9566, "step": 3117 }, { "epoch": 0.16629333333333332, "grad_norm": 0.02429074860029864, "learning_rate": 0.0001, "loss": 1.0039, "step": 3118 }, { "epoch": 0.16634666666666667, "grad_norm": 0.02281245384831461, "learning_rate": 0.0001, "loss": 0.9505, "step": 3119 }, { "epoch": 0.1664, "grad_norm": 0.02835063674141327, "learning_rate": 0.0001, "loss": 1.0037, "step": 3120 }, { "epoch": 0.16645333333333334, "grad_norm": 0.023480373007969367, "learning_rate": 0.0001, "loss": 0.9747, "step": 3121 }, { "epoch": 0.16650666666666666, "grad_norm": 0.024248112454402, "learning_rate": 0.0001, "loss": 1.016, "step": 3122 }, { "epoch": 0.16656, "grad_norm": 0.02579459354609858, "learning_rate": 0.0001, "loss": 0.9883, "step": 3123 }, { "epoch": 0.16661333333333334, "grad_norm": 0.025261760124564235, "learning_rate": 0.0001, "loss": 1.0245, "step": 3124 }, { "epoch": 0.16666666666666666, "grad_norm": 0.02543498121782552, "learning_rate": 0.0001, "loss": 0.9932, "step": 3125 }, { "epoch": 0.16672, "grad_norm": 0.026597739513616242, "learning_rate": 0.0001, "loss": 1.018, "step": 3126 }, { "epoch": 0.16677333333333333, "grad_norm": 0.025687889311139918, "learning_rate": 0.0001, "loss": 0.9667, "step": 3127 }, { "epoch": 0.16682666666666668, "grad_norm": 0.024851635500503934, "learning_rate": 0.0001, "loss": 1.0025, "step": 3128 }, { "epoch": 0.16688, "grad_norm": 0.028111840472852288, "learning_rate": 0.0001, "loss": 0.9838, "step": 3129 }, { "epoch": 0.16693333333333332, "grad_norm": 0.026313770985350253, "learning_rate": 0.0001, "loss": 1.026, "step": 3130 }, { "epoch": 0.16698666666666667, "grad_norm": 0.0271653712980646, "learning_rate": 0.0001, "loss": 0.9496, "step": 3131 }, { "epoch": 0.16704, "grad_norm": 0.02570071099396188, "learning_rate": 0.0001, "loss": 1.0124, "step": 3132 }, { "epoch": 0.16709333333333334, "grad_norm": 0.026840296213947918, "learning_rate": 0.0001, "loss": 0.9782, "step": 3133 }, { "epoch": 0.16714666666666667, "grad_norm": 0.028089885710986334, "learning_rate": 0.0001, "loss": 0.9852, "step": 3134 }, { "epoch": 0.1672, "grad_norm": 0.028599376803054747, "learning_rate": 0.0001, "loss": 0.9725, "step": 3135 }, { "epoch": 0.16725333333333334, "grad_norm": 0.02489973169805591, "learning_rate": 0.0001, "loss": 0.9761, "step": 3136 }, { "epoch": 0.16730666666666666, "grad_norm": 0.025210532622558443, "learning_rate": 0.0001, "loss": 0.9942, "step": 3137 }, { "epoch": 0.16736, "grad_norm": 0.02776235111523642, "learning_rate": 0.0001, "loss": 0.9458, "step": 3138 }, { "epoch": 0.16741333333333333, "grad_norm": 0.029314540733893828, "learning_rate": 0.0001, "loss": 1.0217, "step": 3139 }, { "epoch": 0.16746666666666668, "grad_norm": 0.023814781635805783, "learning_rate": 0.0001, "loss": 1.0183, "step": 3140 }, { "epoch": 0.16752, "grad_norm": 0.027673750199779214, "learning_rate": 0.0001, "loss": 1.0333, "step": 3141 }, { "epoch": 0.16757333333333332, "grad_norm": 0.026446895425971173, "learning_rate": 0.0001, "loss": 0.9146, "step": 3142 }, { "epoch": 0.16762666666666667, "grad_norm": 0.02297891072497885, "learning_rate": 0.0001, "loss": 0.9948, "step": 3143 }, { "epoch": 0.16768, "grad_norm": 0.02879619364818138, "learning_rate": 0.0001, "loss": 0.928, "step": 3144 }, { "epoch": 0.16773333333333335, "grad_norm": 0.027461768963410623, "learning_rate": 0.0001, "loss": 0.9815, "step": 3145 }, { "epoch": 0.16778666666666667, "grad_norm": 0.024095347011667025, "learning_rate": 0.0001, "loss": 0.9777, "step": 3146 }, { "epoch": 0.16784, "grad_norm": 0.02867530925723784, "learning_rate": 0.0001, "loss": 1.0428, "step": 3147 }, { "epoch": 0.16789333333333334, "grad_norm": 0.02599638080902355, "learning_rate": 0.0001, "loss": 0.9623, "step": 3148 }, { "epoch": 0.16794666666666666, "grad_norm": 0.024544708020736657, "learning_rate": 0.0001, "loss": 1.0848, "step": 3149 }, { "epoch": 0.168, "grad_norm": 0.027332653835688732, "learning_rate": 0.0001, "loss": 1.0445, "step": 3150 }, { "epoch": 0.16805333333333333, "grad_norm": 0.025170238104129196, "learning_rate": 0.0001, "loss": 0.9981, "step": 3151 }, { "epoch": 0.16810666666666665, "grad_norm": 0.02573356166532215, "learning_rate": 0.0001, "loss": 0.9581, "step": 3152 }, { "epoch": 0.16816, "grad_norm": 0.024826402111960806, "learning_rate": 0.0001, "loss": 0.9854, "step": 3153 }, { "epoch": 0.16821333333333333, "grad_norm": 0.026116630903400034, "learning_rate": 0.0001, "loss": 0.99, "step": 3154 }, { "epoch": 0.16826666666666668, "grad_norm": 0.026717699627494894, "learning_rate": 0.0001, "loss": 0.9627, "step": 3155 }, { "epoch": 0.16832, "grad_norm": 0.02567605815777642, "learning_rate": 0.0001, "loss": 0.9901, "step": 3156 }, { "epoch": 0.16837333333333335, "grad_norm": 0.02581423057659599, "learning_rate": 0.0001, "loss": 1.0989, "step": 3157 }, { "epoch": 0.16842666666666667, "grad_norm": 0.024584267749455692, "learning_rate": 0.0001, "loss": 0.9802, "step": 3158 }, { "epoch": 0.16848, "grad_norm": 0.024065228082501795, "learning_rate": 0.0001, "loss": 0.9658, "step": 3159 }, { "epoch": 0.16853333333333334, "grad_norm": 0.02421884344099641, "learning_rate": 0.0001, "loss": 0.9508, "step": 3160 }, { "epoch": 0.16858666666666666, "grad_norm": 0.0256546196169228, "learning_rate": 0.0001, "loss": 0.9889, "step": 3161 }, { "epoch": 0.16864, "grad_norm": 0.023208010609823707, "learning_rate": 0.0001, "loss": 0.9495, "step": 3162 }, { "epoch": 0.16869333333333333, "grad_norm": 0.02457271386022546, "learning_rate": 0.0001, "loss": 0.9911, "step": 3163 }, { "epoch": 0.16874666666666666, "grad_norm": 0.025515012925885622, "learning_rate": 0.0001, "loss": 1.0576, "step": 3164 }, { "epoch": 0.1688, "grad_norm": 0.024822399393591058, "learning_rate": 0.0001, "loss": 0.9839, "step": 3165 }, { "epoch": 0.16885333333333333, "grad_norm": 0.02458972030896367, "learning_rate": 0.0001, "loss": 1.0078, "step": 3166 }, { "epoch": 0.16890666666666668, "grad_norm": 0.026199447232320608, "learning_rate": 0.0001, "loss": 0.9875, "step": 3167 }, { "epoch": 0.16896, "grad_norm": 0.02675883761232502, "learning_rate": 0.0001, "loss": 0.9678, "step": 3168 }, { "epoch": 0.16901333333333332, "grad_norm": 0.025939088832118016, "learning_rate": 0.0001, "loss": 0.9788, "step": 3169 }, { "epoch": 0.16906666666666667, "grad_norm": 0.026368958569529893, "learning_rate": 0.0001, "loss": 0.9641, "step": 3170 }, { "epoch": 0.16912, "grad_norm": 0.025107305071063155, "learning_rate": 0.0001, "loss": 1.0121, "step": 3171 }, { "epoch": 0.16917333333333334, "grad_norm": 0.026921672819041335, "learning_rate": 0.0001, "loss": 1.0254, "step": 3172 }, { "epoch": 0.16922666666666666, "grad_norm": 0.023754524988048475, "learning_rate": 0.0001, "loss": 1.0123, "step": 3173 }, { "epoch": 0.16928, "grad_norm": 0.02686021477712718, "learning_rate": 0.0001, "loss": 1.0245, "step": 3174 }, { "epoch": 0.16933333333333334, "grad_norm": 0.025031581374756112, "learning_rate": 0.0001, "loss": 0.9998, "step": 3175 }, { "epoch": 0.16938666666666666, "grad_norm": 0.024881324076897974, "learning_rate": 0.0001, "loss": 1.0267, "step": 3176 }, { "epoch": 0.16944, "grad_norm": 0.025820365057906015, "learning_rate": 0.0001, "loss": 0.9881, "step": 3177 }, { "epoch": 0.16949333333333333, "grad_norm": 0.025137167173628884, "learning_rate": 0.0001, "loss": 1.0009, "step": 3178 }, { "epoch": 0.16954666666666668, "grad_norm": 0.02496282420793538, "learning_rate": 0.0001, "loss": 1.0639, "step": 3179 }, { "epoch": 0.1696, "grad_norm": 0.026753886007206892, "learning_rate": 0.0001, "loss": 0.9494, "step": 3180 }, { "epoch": 0.16965333333333332, "grad_norm": 0.025768187568977002, "learning_rate": 0.0001, "loss": 1.0067, "step": 3181 }, { "epoch": 0.16970666666666667, "grad_norm": 0.026004737358098263, "learning_rate": 0.0001, "loss": 1.0862, "step": 3182 }, { "epoch": 0.16976, "grad_norm": 0.02571949370738354, "learning_rate": 0.0001, "loss": 1.0136, "step": 3183 }, { "epoch": 0.16981333333333334, "grad_norm": 0.025839358743692798, "learning_rate": 0.0001, "loss": 1.0028, "step": 3184 }, { "epoch": 0.16986666666666667, "grad_norm": 0.02773116383640443, "learning_rate": 0.0001, "loss": 0.9948, "step": 3185 }, { "epoch": 0.16992, "grad_norm": 0.02993519678356065, "learning_rate": 0.0001, "loss": 0.8967, "step": 3186 }, { "epoch": 0.16997333333333334, "grad_norm": 0.02316813463921109, "learning_rate": 0.0001, "loss": 1.0345, "step": 3187 }, { "epoch": 0.17002666666666666, "grad_norm": 0.025701665510525988, "learning_rate": 0.0001, "loss": 1.0049, "step": 3188 }, { "epoch": 0.17008, "grad_norm": 0.02462250943729555, "learning_rate": 0.0001, "loss": 0.9862, "step": 3189 }, { "epoch": 0.17013333333333333, "grad_norm": 0.024599668574557726, "learning_rate": 0.0001, "loss": 0.989, "step": 3190 }, { "epoch": 0.17018666666666668, "grad_norm": 0.02344840065227566, "learning_rate": 0.0001, "loss": 0.9702, "step": 3191 }, { "epoch": 0.17024, "grad_norm": 0.02379148680864617, "learning_rate": 0.0001, "loss": 0.9825, "step": 3192 }, { "epoch": 0.17029333333333332, "grad_norm": 0.026793758542982354, "learning_rate": 0.0001, "loss": 0.9654, "step": 3193 }, { "epoch": 0.17034666666666667, "grad_norm": 0.025927946608626525, "learning_rate": 0.0001, "loss": 1.0189, "step": 3194 }, { "epoch": 0.1704, "grad_norm": 0.027963789007362315, "learning_rate": 0.0001, "loss": 0.9249, "step": 3195 }, { "epoch": 0.17045333333333335, "grad_norm": 0.025086104082581197, "learning_rate": 0.0001, "loss": 0.8819, "step": 3196 }, { "epoch": 0.17050666666666667, "grad_norm": 0.02575706337822479, "learning_rate": 0.0001, "loss": 0.9933, "step": 3197 }, { "epoch": 0.17056, "grad_norm": 0.02398344839381579, "learning_rate": 0.0001, "loss": 1.0722, "step": 3198 }, { "epoch": 0.17061333333333334, "grad_norm": 0.02911692100943575, "learning_rate": 0.0001, "loss": 0.9589, "step": 3199 }, { "epoch": 0.17066666666666666, "grad_norm": 0.026549805837459896, "learning_rate": 0.0001, "loss": 1.022, "step": 3200 }, { "epoch": 0.17066666666666666, "eval_accuracy": 0.6148952938868553, "eval_loss": 1.3836640119552612, "eval_runtime": 62.3514, "eval_samples_per_second": 16.038, "eval_steps_per_second": 0.513, "step": 3200 }, { "epoch": 0.17072, "grad_norm": 0.025180253996484728, "learning_rate": 0.0001, "loss": 1.0128, "step": 3201 }, { "epoch": 0.17077333333333333, "grad_norm": 0.02937578117060558, "learning_rate": 0.0001, "loss": 1.0063, "step": 3202 }, { "epoch": 0.17082666666666665, "grad_norm": 0.026394351412294816, "learning_rate": 0.0001, "loss": 1.0214, "step": 3203 }, { "epoch": 0.17088, "grad_norm": 0.0253902081369493, "learning_rate": 0.0001, "loss": 1.0065, "step": 3204 }, { "epoch": 0.17093333333333333, "grad_norm": 0.024961573055152557, "learning_rate": 0.0001, "loss": 0.9727, "step": 3205 }, { "epoch": 0.17098666666666668, "grad_norm": 0.02431309271029481, "learning_rate": 0.0001, "loss": 0.9923, "step": 3206 }, { "epoch": 0.17104, "grad_norm": 0.025267501174650823, "learning_rate": 0.0001, "loss": 0.9621, "step": 3207 }, { "epoch": 0.17109333333333332, "grad_norm": 0.023016209361155254, "learning_rate": 0.0001, "loss": 1.0133, "step": 3208 }, { "epoch": 0.17114666666666667, "grad_norm": 0.029420455658514238, "learning_rate": 0.0001, "loss": 1.042, "step": 3209 }, { "epoch": 0.1712, "grad_norm": 0.025537264144258005, "learning_rate": 0.0001, "loss": 1.0206, "step": 3210 }, { "epoch": 0.17125333333333334, "grad_norm": 0.024652627306706074, "learning_rate": 0.0001, "loss": 0.9668, "step": 3211 }, { "epoch": 0.17130666666666666, "grad_norm": 0.023528966491634724, "learning_rate": 0.0001, "loss": 0.9724, "step": 3212 }, { "epoch": 0.17136, "grad_norm": 0.023587512290345294, "learning_rate": 0.0001, "loss": 1.0167, "step": 3213 }, { "epoch": 0.17141333333333333, "grad_norm": 0.023813890730982397, "learning_rate": 0.0001, "loss": 0.9766, "step": 3214 }, { "epoch": 0.17146666666666666, "grad_norm": 0.025231937173622022, "learning_rate": 0.0001, "loss": 1.0812, "step": 3215 }, { "epoch": 0.17152, "grad_norm": 0.024815432590172107, "learning_rate": 0.0001, "loss": 1.0716, "step": 3216 }, { "epoch": 0.17157333333333333, "grad_norm": 0.024772286659863224, "learning_rate": 0.0001, "loss": 1.0118, "step": 3217 }, { "epoch": 0.17162666666666668, "grad_norm": 0.025991491627035138, "learning_rate": 0.0001, "loss": 1.0127, "step": 3218 }, { "epoch": 0.17168, "grad_norm": 0.02570544138876579, "learning_rate": 0.0001, "loss": 1.0068, "step": 3219 }, { "epoch": 0.17173333333333332, "grad_norm": 0.02402967462411596, "learning_rate": 0.0001, "loss": 1.027, "step": 3220 }, { "epoch": 0.17178666666666667, "grad_norm": 0.026766748492244485, "learning_rate": 0.0001, "loss": 1.0406, "step": 3221 }, { "epoch": 0.17184, "grad_norm": 0.026133135533397796, "learning_rate": 0.0001, "loss": 1.0297, "step": 3222 }, { "epoch": 0.17189333333333334, "grad_norm": 0.026094978850537718, "learning_rate": 0.0001, "loss": 1.0176, "step": 3223 }, { "epoch": 0.17194666666666666, "grad_norm": 0.026553672417286067, "learning_rate": 0.0001, "loss": 1.036, "step": 3224 }, { "epoch": 0.172, "grad_norm": 0.026287396500706578, "learning_rate": 0.0001, "loss": 1.006, "step": 3225 }, { "epoch": 0.17205333333333334, "grad_norm": 0.02549072879334232, "learning_rate": 0.0001, "loss": 1.0376, "step": 3226 }, { "epoch": 0.17210666666666666, "grad_norm": 0.023777766881523877, "learning_rate": 0.0001, "loss": 1.0207, "step": 3227 }, { "epoch": 0.17216, "grad_norm": 0.025197569598541653, "learning_rate": 0.0001, "loss": 1.0344, "step": 3228 }, { "epoch": 0.17221333333333333, "grad_norm": 0.029203595172221212, "learning_rate": 0.0001, "loss": 0.9473, "step": 3229 }, { "epoch": 0.17226666666666668, "grad_norm": 0.02565999840536797, "learning_rate": 0.0001, "loss": 0.9176, "step": 3230 }, { "epoch": 0.17232, "grad_norm": 0.024698466210046243, "learning_rate": 0.0001, "loss": 0.947, "step": 3231 }, { "epoch": 0.17237333333333332, "grad_norm": 0.02476613962728062, "learning_rate": 0.0001, "loss": 0.9888, "step": 3232 }, { "epoch": 0.17242666666666667, "grad_norm": 0.023000990619386503, "learning_rate": 0.0001, "loss": 0.9673, "step": 3233 }, { "epoch": 0.17248, "grad_norm": 0.02481676534774418, "learning_rate": 0.0001, "loss": 1.0307, "step": 3234 }, { "epoch": 0.17253333333333334, "grad_norm": 0.02316009609097262, "learning_rate": 0.0001, "loss": 0.9756, "step": 3235 }, { "epoch": 0.17258666666666667, "grad_norm": 0.02430514384116189, "learning_rate": 0.0001, "loss": 0.9288, "step": 3236 }, { "epoch": 0.17264, "grad_norm": 0.02411396056308451, "learning_rate": 0.0001, "loss": 1.0003, "step": 3237 }, { "epoch": 0.17269333333333334, "grad_norm": 0.024682086048844993, "learning_rate": 0.0001, "loss": 0.9988, "step": 3238 }, { "epoch": 0.17274666666666666, "grad_norm": 0.023734650968473422, "learning_rate": 0.0001, "loss": 1.0491, "step": 3239 }, { "epoch": 0.1728, "grad_norm": 0.023112553593343837, "learning_rate": 0.0001, "loss": 1.0002, "step": 3240 }, { "epoch": 0.17285333333333333, "grad_norm": 0.023614553545185577, "learning_rate": 0.0001, "loss": 0.9865, "step": 3241 }, { "epoch": 0.17290666666666665, "grad_norm": 0.024986510655095964, "learning_rate": 0.0001, "loss": 1.0309, "step": 3242 }, { "epoch": 0.17296, "grad_norm": 0.02413172008614967, "learning_rate": 0.0001, "loss": 1.0127, "step": 3243 }, { "epoch": 0.17301333333333332, "grad_norm": 0.026729789631091707, "learning_rate": 0.0001, "loss": 0.9492, "step": 3244 }, { "epoch": 0.17306666666666667, "grad_norm": 0.02686316927307677, "learning_rate": 0.0001, "loss": 0.9983, "step": 3245 }, { "epoch": 0.17312, "grad_norm": 0.024551927210796513, "learning_rate": 0.0001, "loss": 0.9533, "step": 3246 }, { "epoch": 0.17317333333333335, "grad_norm": 0.027864444270083992, "learning_rate": 0.0001, "loss": 1.0841, "step": 3247 }, { "epoch": 0.17322666666666667, "grad_norm": 0.02668807440874764, "learning_rate": 0.0001, "loss": 0.9074, "step": 3248 }, { "epoch": 0.17328, "grad_norm": 0.024124829995790492, "learning_rate": 0.0001, "loss": 0.9672, "step": 3249 }, { "epoch": 0.17333333333333334, "grad_norm": 0.025930345242203254, "learning_rate": 0.0001, "loss": 0.9671, "step": 3250 }, { "epoch": 0.17338666666666666, "grad_norm": 0.025480269205712492, "learning_rate": 0.0001, "loss": 1.0036, "step": 3251 }, { "epoch": 0.17344, "grad_norm": 0.02498706522597276, "learning_rate": 0.0001, "loss": 0.962, "step": 3252 }, { "epoch": 0.17349333333333333, "grad_norm": 0.024167800841631337, "learning_rate": 0.0001, "loss": 0.9417, "step": 3253 }, { "epoch": 0.17354666666666665, "grad_norm": 0.024374511754638045, "learning_rate": 0.0001, "loss": 1.0027, "step": 3254 }, { "epoch": 0.1736, "grad_norm": 0.025424948649484472, "learning_rate": 0.0001, "loss": 1.0398, "step": 3255 }, { "epoch": 0.17365333333333333, "grad_norm": 0.023547229593546146, "learning_rate": 0.0001, "loss": 0.9505, "step": 3256 }, { "epoch": 0.17370666666666668, "grad_norm": 0.026604589121466498, "learning_rate": 0.0001, "loss": 1.0262, "step": 3257 }, { "epoch": 0.17376, "grad_norm": 0.025645795272443025, "learning_rate": 0.0001, "loss": 0.9724, "step": 3258 }, { "epoch": 0.17381333333333332, "grad_norm": 0.02507952360873121, "learning_rate": 0.0001, "loss": 0.9678, "step": 3259 }, { "epoch": 0.17386666666666667, "grad_norm": 0.024342816368392986, "learning_rate": 0.0001, "loss": 0.9737, "step": 3260 }, { "epoch": 0.17392, "grad_norm": 0.02807401699005808, "learning_rate": 0.0001, "loss": 1.0041, "step": 3261 }, { "epoch": 0.17397333333333334, "grad_norm": 0.023172335836664233, "learning_rate": 0.0001, "loss": 1.0084, "step": 3262 }, { "epoch": 0.17402666666666666, "grad_norm": 0.024857028009847133, "learning_rate": 0.0001, "loss": 0.9972, "step": 3263 }, { "epoch": 0.17408, "grad_norm": 0.027643427976389388, "learning_rate": 0.0001, "loss": 0.9375, "step": 3264 }, { "epoch": 0.17413333333333333, "grad_norm": 0.02561759939905144, "learning_rate": 0.0001, "loss": 0.9581, "step": 3265 }, { "epoch": 0.17418666666666666, "grad_norm": 0.025162804669445236, "learning_rate": 0.0001, "loss": 1.0147, "step": 3266 }, { "epoch": 0.17424, "grad_norm": 0.028701710316663947, "learning_rate": 0.0001, "loss": 0.9328, "step": 3267 }, { "epoch": 0.17429333333333333, "grad_norm": 0.02733915521536416, "learning_rate": 0.0001, "loss": 0.9913, "step": 3268 }, { "epoch": 0.17434666666666668, "grad_norm": 0.029075667107138284, "learning_rate": 0.0001, "loss": 0.9459, "step": 3269 }, { "epoch": 0.1744, "grad_norm": 0.02653160084217948, "learning_rate": 0.0001, "loss": 0.9601, "step": 3270 }, { "epoch": 0.17445333333333332, "grad_norm": 0.02835227613630983, "learning_rate": 0.0001, "loss": 0.979, "step": 3271 }, { "epoch": 0.17450666666666667, "grad_norm": 0.02419417781202281, "learning_rate": 0.0001, "loss": 0.9267, "step": 3272 }, { "epoch": 0.17456, "grad_norm": 0.025234444657224575, "learning_rate": 0.0001, "loss": 1.0015, "step": 3273 }, { "epoch": 0.17461333333333334, "grad_norm": 0.02623576327156178, "learning_rate": 0.0001, "loss": 0.9611, "step": 3274 }, { "epoch": 0.17466666666666666, "grad_norm": 0.025078277168629183, "learning_rate": 0.0001, "loss": 0.9406, "step": 3275 }, { "epoch": 0.17472, "grad_norm": 0.024871816292535685, "learning_rate": 0.0001, "loss": 1.0044, "step": 3276 }, { "epoch": 0.17477333333333334, "grad_norm": 0.025507221010659675, "learning_rate": 0.0001, "loss": 1.0497, "step": 3277 }, { "epoch": 0.17482666666666666, "grad_norm": 0.023165644603191374, "learning_rate": 0.0001, "loss": 0.9718, "step": 3278 }, { "epoch": 0.17488, "grad_norm": 0.024480223694639328, "learning_rate": 0.0001, "loss": 0.9944, "step": 3279 }, { "epoch": 0.17493333333333333, "grad_norm": 0.025135070616603895, "learning_rate": 0.0001, "loss": 0.9308, "step": 3280 }, { "epoch": 0.17498666666666668, "grad_norm": 0.025202331306909707, "learning_rate": 0.0001, "loss": 0.9896, "step": 3281 }, { "epoch": 0.17504, "grad_norm": 0.02772264888081956, "learning_rate": 0.0001, "loss": 0.9838, "step": 3282 }, { "epoch": 0.17509333333333332, "grad_norm": 0.026353809767062614, "learning_rate": 0.0001, "loss": 1.1162, "step": 3283 }, { "epoch": 0.17514666666666667, "grad_norm": 0.028267453071198576, "learning_rate": 0.0001, "loss": 0.9613, "step": 3284 }, { "epoch": 0.1752, "grad_norm": 0.024530706735911238, "learning_rate": 0.0001, "loss": 0.962, "step": 3285 }, { "epoch": 0.17525333333333334, "grad_norm": 0.0259056445759679, "learning_rate": 0.0001, "loss": 0.9267, "step": 3286 }, { "epoch": 0.17530666666666667, "grad_norm": 0.025622966521847684, "learning_rate": 0.0001, "loss": 0.9624, "step": 3287 }, { "epoch": 0.17536, "grad_norm": 0.024815579974000846, "learning_rate": 0.0001, "loss": 0.9578, "step": 3288 }, { "epoch": 0.17541333333333334, "grad_norm": 0.025669547245977614, "learning_rate": 0.0001, "loss": 0.9904, "step": 3289 }, { "epoch": 0.17546666666666666, "grad_norm": 0.024513910544881758, "learning_rate": 0.0001, "loss": 0.9288, "step": 3290 }, { "epoch": 0.17552, "grad_norm": 0.024852612682380478, "learning_rate": 0.0001, "loss": 0.9416, "step": 3291 }, { "epoch": 0.17557333333333333, "grad_norm": 0.02467697048306532, "learning_rate": 0.0001, "loss": 0.984, "step": 3292 }, { "epoch": 0.17562666666666665, "grad_norm": 0.024953749313015756, "learning_rate": 0.0001, "loss": 1.0211, "step": 3293 }, { "epoch": 0.17568, "grad_norm": 0.0267438503497353, "learning_rate": 0.0001, "loss": 1.0359, "step": 3294 }, { "epoch": 0.17573333333333332, "grad_norm": 0.024629173835076765, "learning_rate": 0.0001, "loss": 1.0194, "step": 3295 }, { "epoch": 0.17578666666666667, "grad_norm": 0.026741944569232113, "learning_rate": 0.0001, "loss": 1.0417, "step": 3296 }, { "epoch": 0.17584, "grad_norm": 0.02575150917189237, "learning_rate": 0.0001, "loss": 0.9824, "step": 3297 }, { "epoch": 0.17589333333333335, "grad_norm": 0.024188102805792856, "learning_rate": 0.0001, "loss": 1.0001, "step": 3298 }, { "epoch": 0.17594666666666667, "grad_norm": 0.02460434512223889, "learning_rate": 0.0001, "loss": 0.9661, "step": 3299 }, { "epoch": 0.176, "grad_norm": 0.02661081455985677, "learning_rate": 0.0001, "loss": 0.9957, "step": 3300 }, { "epoch": 0.17605333333333334, "grad_norm": 0.028647450435440546, "learning_rate": 0.0001, "loss": 1.0311, "step": 3301 }, { "epoch": 0.17610666666666666, "grad_norm": 0.027339896767391524, "learning_rate": 0.0001, "loss": 0.9749, "step": 3302 }, { "epoch": 0.17616, "grad_norm": 0.023483652562482176, "learning_rate": 0.0001, "loss": 0.9939, "step": 3303 }, { "epoch": 0.17621333333333333, "grad_norm": 0.026663309664095934, "learning_rate": 0.0001, "loss": 1.0151, "step": 3304 }, { "epoch": 0.17626666666666665, "grad_norm": 0.027202116347814748, "learning_rate": 0.0001, "loss": 0.9855, "step": 3305 }, { "epoch": 0.17632, "grad_norm": 0.02390439583667912, "learning_rate": 0.0001, "loss": 0.9754, "step": 3306 }, { "epoch": 0.17637333333333333, "grad_norm": 0.02726673877515778, "learning_rate": 0.0001, "loss": 0.9901, "step": 3307 }, { "epoch": 0.17642666666666668, "grad_norm": 0.030836237003722705, "learning_rate": 0.0001, "loss": 0.9538, "step": 3308 }, { "epoch": 0.17648, "grad_norm": 0.027554319159455946, "learning_rate": 0.0001, "loss": 1.0127, "step": 3309 }, { "epoch": 0.17653333333333332, "grad_norm": 0.02409846627460086, "learning_rate": 0.0001, "loss": 0.9594, "step": 3310 }, { "epoch": 0.17658666666666667, "grad_norm": 0.029351347270393006, "learning_rate": 0.0001, "loss": 1.0443, "step": 3311 }, { "epoch": 0.17664, "grad_norm": 0.024751479812259714, "learning_rate": 0.0001, "loss": 0.9283, "step": 3312 }, { "epoch": 0.17669333333333334, "grad_norm": 0.026252964674900504, "learning_rate": 0.0001, "loss": 0.9364, "step": 3313 }, { "epoch": 0.17674666666666666, "grad_norm": 0.02467546788227699, "learning_rate": 0.0001, "loss": 1.002, "step": 3314 }, { "epoch": 0.1768, "grad_norm": 0.028397330824945975, "learning_rate": 0.0001, "loss": 0.9488, "step": 3315 }, { "epoch": 0.17685333333333333, "grad_norm": 0.024608656361176977, "learning_rate": 0.0001, "loss": 1.0291, "step": 3316 }, { "epoch": 0.17690666666666666, "grad_norm": 0.02586550291288537, "learning_rate": 0.0001, "loss": 0.9776, "step": 3317 }, { "epoch": 0.17696, "grad_norm": 0.025777067756935324, "learning_rate": 0.0001, "loss": 0.9461, "step": 3318 }, { "epoch": 0.17701333333333333, "grad_norm": 0.023691145871176034, "learning_rate": 0.0001, "loss": 0.9081, "step": 3319 }, { "epoch": 0.17706666666666668, "grad_norm": 0.02439266025195327, "learning_rate": 0.0001, "loss": 0.9923, "step": 3320 }, { "epoch": 0.17712, "grad_norm": 0.025569110341384576, "learning_rate": 0.0001, "loss": 1.0379, "step": 3321 }, { "epoch": 0.17717333333333332, "grad_norm": 0.023220496813552184, "learning_rate": 0.0001, "loss": 0.9668, "step": 3322 }, { "epoch": 0.17722666666666667, "grad_norm": 0.026562486666884263, "learning_rate": 0.0001, "loss": 0.9848, "step": 3323 }, { "epoch": 0.17728, "grad_norm": 0.025668681309924658, "learning_rate": 0.0001, "loss": 0.9618, "step": 3324 }, { "epoch": 0.17733333333333334, "grad_norm": 0.025637225992535827, "learning_rate": 0.0001, "loss": 1.0278, "step": 3325 }, { "epoch": 0.17738666666666666, "grad_norm": 0.02672393205563525, "learning_rate": 0.0001, "loss": 0.9781, "step": 3326 }, { "epoch": 0.17744, "grad_norm": 0.027030260042634077, "learning_rate": 0.0001, "loss": 1.0077, "step": 3327 }, { "epoch": 0.17749333333333334, "grad_norm": 0.026086547322097118, "learning_rate": 0.0001, "loss": 0.9367, "step": 3328 }, { "epoch": 0.17754666666666666, "grad_norm": 0.02465233840387541, "learning_rate": 0.0001, "loss": 0.9649, "step": 3329 }, { "epoch": 0.1776, "grad_norm": 0.025730868432308474, "learning_rate": 0.0001, "loss": 0.9923, "step": 3330 }, { "epoch": 0.17765333333333333, "grad_norm": 0.025685968925867577, "learning_rate": 0.0001, "loss": 0.9482, "step": 3331 }, { "epoch": 0.17770666666666668, "grad_norm": 0.025893342650091983, "learning_rate": 0.0001, "loss": 0.9968, "step": 3332 }, { "epoch": 0.17776, "grad_norm": 0.02784994798971849, "learning_rate": 0.0001, "loss": 1.0258, "step": 3333 }, { "epoch": 0.17781333333333332, "grad_norm": 0.024324606839358914, "learning_rate": 0.0001, "loss": 0.9584, "step": 3334 }, { "epoch": 0.17786666666666667, "grad_norm": 0.02745575682717646, "learning_rate": 0.0001, "loss": 1.0606, "step": 3335 }, { "epoch": 0.17792, "grad_norm": 0.026578476312241268, "learning_rate": 0.0001, "loss": 1.0093, "step": 3336 }, { "epoch": 0.17797333333333334, "grad_norm": 0.026738034471297727, "learning_rate": 0.0001, "loss": 0.9937, "step": 3337 }, { "epoch": 0.17802666666666667, "grad_norm": 0.02642963077882504, "learning_rate": 0.0001, "loss": 1.0506, "step": 3338 }, { "epoch": 0.17808, "grad_norm": 0.026137199647165824, "learning_rate": 0.0001, "loss": 0.9143, "step": 3339 }, { "epoch": 0.17813333333333334, "grad_norm": 0.028944488140847664, "learning_rate": 0.0001, "loss": 0.9496, "step": 3340 }, { "epoch": 0.17818666666666666, "grad_norm": 0.025802608387355125, "learning_rate": 0.0001, "loss": 0.9956, "step": 3341 }, { "epoch": 0.17824, "grad_norm": 0.024481492653230234, "learning_rate": 0.0001, "loss": 0.9503, "step": 3342 }, { "epoch": 0.17829333333333333, "grad_norm": 0.027879991209138016, "learning_rate": 0.0001, "loss": 0.9738, "step": 3343 }, { "epoch": 0.17834666666666665, "grad_norm": 0.028173536594283913, "learning_rate": 0.0001, "loss": 0.9143, "step": 3344 }, { "epoch": 0.1784, "grad_norm": 0.025966632937853378, "learning_rate": 0.0001, "loss": 0.9389, "step": 3345 }, { "epoch": 0.17845333333333332, "grad_norm": 0.02654554243205197, "learning_rate": 0.0001, "loss": 1.0378, "step": 3346 }, { "epoch": 0.17850666666666667, "grad_norm": 0.024949525696071975, "learning_rate": 0.0001, "loss": 1.0182, "step": 3347 }, { "epoch": 0.17856, "grad_norm": 0.029127633729205772, "learning_rate": 0.0001, "loss": 0.9993, "step": 3348 }, { "epoch": 0.17861333333333335, "grad_norm": 0.027058521363336526, "learning_rate": 0.0001, "loss": 0.9868, "step": 3349 }, { "epoch": 0.17866666666666667, "grad_norm": 0.025771294287852534, "learning_rate": 0.0001, "loss": 0.9644, "step": 3350 }, { "epoch": 0.17872, "grad_norm": 0.030058750163883464, "learning_rate": 0.0001, "loss": 0.9698, "step": 3351 }, { "epoch": 0.17877333333333334, "grad_norm": 0.023340980478636322, "learning_rate": 0.0001, "loss": 0.9902, "step": 3352 }, { "epoch": 0.17882666666666666, "grad_norm": 0.02824652280486865, "learning_rate": 0.0001, "loss": 1.0039, "step": 3353 }, { "epoch": 0.17888, "grad_norm": 0.024822069482217986, "learning_rate": 0.0001, "loss": 0.9766, "step": 3354 }, { "epoch": 0.17893333333333333, "grad_norm": 0.027340586673662726, "learning_rate": 0.0001, "loss": 0.9785, "step": 3355 }, { "epoch": 0.17898666666666666, "grad_norm": 0.025101475684207196, "learning_rate": 0.0001, "loss": 1.0235, "step": 3356 }, { "epoch": 0.17904, "grad_norm": 0.02454697458967666, "learning_rate": 0.0001, "loss": 0.9875, "step": 3357 }, { "epoch": 0.17909333333333333, "grad_norm": 0.02495894069592039, "learning_rate": 0.0001, "loss": 1.0102, "step": 3358 }, { "epoch": 0.17914666666666668, "grad_norm": 0.026273941374103577, "learning_rate": 0.0001, "loss": 0.9857, "step": 3359 }, { "epoch": 0.1792, "grad_norm": 0.025518725024426377, "learning_rate": 0.0001, "loss": 0.9963, "step": 3360 }, { "epoch": 0.17925333333333332, "grad_norm": 0.025701186908437083, "learning_rate": 0.0001, "loss": 0.9625, "step": 3361 }, { "epoch": 0.17930666666666667, "grad_norm": 0.024420279120936386, "learning_rate": 0.0001, "loss": 0.9547, "step": 3362 }, { "epoch": 0.17936, "grad_norm": 0.025025327561413103, "learning_rate": 0.0001, "loss": 0.9322, "step": 3363 }, { "epoch": 0.17941333333333334, "grad_norm": 0.024841550583651957, "learning_rate": 0.0001, "loss": 1.041, "step": 3364 }, { "epoch": 0.17946666666666666, "grad_norm": 0.025676338869691583, "learning_rate": 0.0001, "loss": 1.0041, "step": 3365 }, { "epoch": 0.17952, "grad_norm": 0.026326257810716135, "learning_rate": 0.0001, "loss": 1.0462, "step": 3366 }, { "epoch": 0.17957333333333333, "grad_norm": 0.02474256194517646, "learning_rate": 0.0001, "loss": 1.0094, "step": 3367 }, { "epoch": 0.17962666666666666, "grad_norm": 0.027963947238114444, "learning_rate": 0.0001, "loss": 0.9474, "step": 3368 }, { "epoch": 0.17968, "grad_norm": 0.02493890587771712, "learning_rate": 0.0001, "loss": 0.9546, "step": 3369 }, { "epoch": 0.17973333333333333, "grad_norm": 0.026847349493475087, "learning_rate": 0.0001, "loss": 1.0338, "step": 3370 }, { "epoch": 0.17978666666666668, "grad_norm": 0.022916206877024937, "learning_rate": 0.0001, "loss": 0.9805, "step": 3371 }, { "epoch": 0.17984, "grad_norm": 0.029671281375378052, "learning_rate": 0.0001, "loss": 1.0236, "step": 3372 }, { "epoch": 0.17989333333333332, "grad_norm": 0.02422641311479583, "learning_rate": 0.0001, "loss": 1.0447, "step": 3373 }, { "epoch": 0.17994666666666667, "grad_norm": 0.026006887185620334, "learning_rate": 0.0001, "loss": 0.9913, "step": 3374 }, { "epoch": 0.18, "grad_norm": 0.026493320899817988, "learning_rate": 0.0001, "loss": 1.0145, "step": 3375 }, { "epoch": 0.18005333333333334, "grad_norm": 0.024660360305645727, "learning_rate": 0.0001, "loss": 0.9528, "step": 3376 }, { "epoch": 0.18010666666666666, "grad_norm": 0.023720236686848622, "learning_rate": 0.0001, "loss": 0.8575, "step": 3377 }, { "epoch": 0.18016, "grad_norm": 0.025327407036899247, "learning_rate": 0.0001, "loss": 0.9573, "step": 3378 }, { "epoch": 0.18021333333333334, "grad_norm": 0.024494421057157535, "learning_rate": 0.0001, "loss": 0.9725, "step": 3379 }, { "epoch": 0.18026666666666666, "grad_norm": 0.025014865978980085, "learning_rate": 0.0001, "loss": 0.9941, "step": 3380 }, { "epoch": 0.18032, "grad_norm": 0.02556562189346021, "learning_rate": 0.0001, "loss": 1.02, "step": 3381 }, { "epoch": 0.18037333333333333, "grad_norm": 0.027662016741659932, "learning_rate": 0.0001, "loss": 1.0115, "step": 3382 }, { "epoch": 0.18042666666666668, "grad_norm": 0.02610529119376462, "learning_rate": 0.0001, "loss": 0.9827, "step": 3383 }, { "epoch": 0.18048, "grad_norm": 0.0261524509885641, "learning_rate": 0.0001, "loss": 0.9977, "step": 3384 }, { "epoch": 0.18053333333333332, "grad_norm": 0.026636151742726665, "learning_rate": 0.0001, "loss": 0.9637, "step": 3385 }, { "epoch": 0.18058666666666667, "grad_norm": 0.028885523092490463, "learning_rate": 0.0001, "loss": 1.0182, "step": 3386 }, { "epoch": 0.18064, "grad_norm": 0.030280298664756126, "learning_rate": 0.0001, "loss": 0.9779, "step": 3387 }, { "epoch": 0.18069333333333334, "grad_norm": 0.024046419548378644, "learning_rate": 0.0001, "loss": 1.0357, "step": 3388 }, { "epoch": 0.18074666666666667, "grad_norm": 0.026271644100280774, "learning_rate": 0.0001, "loss": 1.0345, "step": 3389 }, { "epoch": 0.1808, "grad_norm": 0.025345570104632755, "learning_rate": 0.0001, "loss": 0.9368, "step": 3390 }, { "epoch": 0.18085333333333334, "grad_norm": 0.024593655955514694, "learning_rate": 0.0001, "loss": 0.9291, "step": 3391 }, { "epoch": 0.18090666666666666, "grad_norm": 0.026836422020053582, "learning_rate": 0.0001, "loss": 1.0466, "step": 3392 }, { "epoch": 0.18096, "grad_norm": 0.02758681178000765, "learning_rate": 0.0001, "loss": 0.9803, "step": 3393 }, { "epoch": 0.18101333333333333, "grad_norm": 0.025361288459162922, "learning_rate": 0.0001, "loss": 1.0139, "step": 3394 }, { "epoch": 0.18106666666666665, "grad_norm": 0.025714324293475345, "learning_rate": 0.0001, "loss": 0.97, "step": 3395 }, { "epoch": 0.18112, "grad_norm": 0.027658523246141167, "learning_rate": 0.0001, "loss": 1.0116, "step": 3396 }, { "epoch": 0.18117333333333333, "grad_norm": 0.025741311848737118, "learning_rate": 0.0001, "loss": 0.9859, "step": 3397 }, { "epoch": 0.18122666666666667, "grad_norm": 0.02658568450472719, "learning_rate": 0.0001, "loss": 0.9777, "step": 3398 }, { "epoch": 0.18128, "grad_norm": 0.02679139169631185, "learning_rate": 0.0001, "loss": 1.0182, "step": 3399 }, { "epoch": 0.18133333333333335, "grad_norm": 0.025746278088033318, "learning_rate": 0.0001, "loss": 0.9625, "step": 3400 }, { "epoch": 0.18133333333333335, "eval_accuracy": 0.6152154472587726, "eval_loss": 1.3818577527999878, "eval_runtime": 62.849, "eval_samples_per_second": 15.911, "eval_steps_per_second": 0.509, "step": 3400 }, { "epoch": 0.18138666666666667, "grad_norm": 0.02788404577520953, "learning_rate": 0.0001, "loss": 1.0153, "step": 3401 }, { "epoch": 0.18144, "grad_norm": 0.029107590696340915, "learning_rate": 0.0001, "loss": 0.9588, "step": 3402 }, { "epoch": 0.18149333333333334, "grad_norm": 0.02463337126691339, "learning_rate": 0.0001, "loss": 0.9685, "step": 3403 }, { "epoch": 0.18154666666666666, "grad_norm": 0.026536865830945593, "learning_rate": 0.0001, "loss": 0.9689, "step": 3404 }, { "epoch": 0.1816, "grad_norm": 0.026605887534267837, "learning_rate": 0.0001, "loss": 1.0005, "step": 3405 }, { "epoch": 0.18165333333333333, "grad_norm": 0.02642094802780444, "learning_rate": 0.0001, "loss": 0.965, "step": 3406 }, { "epoch": 0.18170666666666666, "grad_norm": 0.026914393671230667, "learning_rate": 0.0001, "loss": 0.9646, "step": 3407 }, { "epoch": 0.18176, "grad_norm": 0.024075004807619045, "learning_rate": 0.0001, "loss": 0.9809, "step": 3408 }, { "epoch": 0.18181333333333333, "grad_norm": 0.027571736409787686, "learning_rate": 0.0001, "loss": 0.9464, "step": 3409 }, { "epoch": 0.18186666666666668, "grad_norm": 0.029090476812969654, "learning_rate": 0.0001, "loss": 0.9464, "step": 3410 }, { "epoch": 0.18192, "grad_norm": 0.02606263242880765, "learning_rate": 0.0001, "loss": 0.9442, "step": 3411 }, { "epoch": 0.18197333333333332, "grad_norm": 0.02467601869414292, "learning_rate": 0.0001, "loss": 0.9876, "step": 3412 }, { "epoch": 0.18202666666666667, "grad_norm": 0.024705144745746834, "learning_rate": 0.0001, "loss": 0.9932, "step": 3413 }, { "epoch": 0.18208, "grad_norm": 0.02683304124968671, "learning_rate": 0.0001, "loss": 0.9521, "step": 3414 }, { "epoch": 0.18213333333333334, "grad_norm": 0.025897132758175886, "learning_rate": 0.0001, "loss": 0.9918, "step": 3415 }, { "epoch": 0.18218666666666666, "grad_norm": 0.02818584018538754, "learning_rate": 0.0001, "loss": 0.9683, "step": 3416 }, { "epoch": 0.18224, "grad_norm": 0.027049378353121305, "learning_rate": 0.0001, "loss": 0.958, "step": 3417 }, { "epoch": 0.18229333333333334, "grad_norm": 0.02719652785136033, "learning_rate": 0.0001, "loss": 0.9813, "step": 3418 }, { "epoch": 0.18234666666666666, "grad_norm": 0.025956379535244132, "learning_rate": 0.0001, "loss": 1.003, "step": 3419 }, { "epoch": 0.1824, "grad_norm": 0.02355652114916388, "learning_rate": 0.0001, "loss": 0.9479, "step": 3420 }, { "epoch": 0.18245333333333333, "grad_norm": 0.027175423258480758, "learning_rate": 0.0001, "loss": 0.9717, "step": 3421 }, { "epoch": 0.18250666666666668, "grad_norm": 0.02479632812414812, "learning_rate": 0.0001, "loss": 0.962, "step": 3422 }, { "epoch": 0.18256, "grad_norm": 0.02434525944908548, "learning_rate": 0.0001, "loss": 0.994, "step": 3423 }, { "epoch": 0.18261333333333332, "grad_norm": 0.024152741586693605, "learning_rate": 0.0001, "loss": 0.9441, "step": 3424 }, { "epoch": 0.18266666666666667, "grad_norm": 0.025923698298901243, "learning_rate": 0.0001, "loss": 1.029, "step": 3425 }, { "epoch": 0.18272, "grad_norm": 0.023881379800550724, "learning_rate": 0.0001, "loss": 0.9399, "step": 3426 }, { "epoch": 0.18277333333333334, "grad_norm": 0.025130436970779792, "learning_rate": 0.0001, "loss": 0.9557, "step": 3427 }, { "epoch": 0.18282666666666667, "grad_norm": 0.025910273530369423, "learning_rate": 0.0001, "loss": 0.9975, "step": 3428 }, { "epoch": 0.18288, "grad_norm": 0.022987892614521107, "learning_rate": 0.0001, "loss": 0.9782, "step": 3429 }, { "epoch": 0.18293333333333334, "grad_norm": 0.025216789935996364, "learning_rate": 0.0001, "loss": 0.9325, "step": 3430 }, { "epoch": 0.18298666666666666, "grad_norm": 0.022414665646417427, "learning_rate": 0.0001, "loss": 0.9648, "step": 3431 }, { "epoch": 0.18304, "grad_norm": 0.026144131000426726, "learning_rate": 0.0001, "loss": 0.9947, "step": 3432 }, { "epoch": 0.18309333333333333, "grad_norm": 0.026874572064510664, "learning_rate": 0.0001, "loss": 0.9954, "step": 3433 }, { "epoch": 0.18314666666666668, "grad_norm": 0.025354152592850787, "learning_rate": 0.0001, "loss": 1.0079, "step": 3434 }, { "epoch": 0.1832, "grad_norm": 0.027292528327281337, "learning_rate": 0.0001, "loss": 0.9862, "step": 3435 }, { "epoch": 0.18325333333333332, "grad_norm": 0.025792740216296954, "learning_rate": 0.0001, "loss": 1.0184, "step": 3436 }, { "epoch": 0.18330666666666667, "grad_norm": 0.028028936273908723, "learning_rate": 0.0001, "loss": 1.0168, "step": 3437 }, { "epoch": 0.18336, "grad_norm": 0.026069064151915237, "learning_rate": 0.0001, "loss": 1.0071, "step": 3438 }, { "epoch": 0.18341333333333334, "grad_norm": 0.025598157056008826, "learning_rate": 0.0001, "loss": 0.9627, "step": 3439 }, { "epoch": 0.18346666666666667, "grad_norm": 0.028918364437689793, "learning_rate": 0.0001, "loss": 1.0034, "step": 3440 }, { "epoch": 0.18352, "grad_norm": 0.024758234097893215, "learning_rate": 0.0001, "loss": 0.9636, "step": 3441 }, { "epoch": 0.18357333333333334, "grad_norm": 0.02588462313960585, "learning_rate": 0.0001, "loss": 0.9615, "step": 3442 }, { "epoch": 0.18362666666666666, "grad_norm": 0.026697745928053067, "learning_rate": 0.0001, "loss": 0.9611, "step": 3443 }, { "epoch": 0.18368, "grad_norm": 0.028080256300182117, "learning_rate": 0.0001, "loss": 1.0237, "step": 3444 }, { "epoch": 0.18373333333333333, "grad_norm": 0.026136989785748823, "learning_rate": 0.0001, "loss": 0.9848, "step": 3445 }, { "epoch": 0.18378666666666665, "grad_norm": 0.02833538675212735, "learning_rate": 0.0001, "loss": 0.9744, "step": 3446 }, { "epoch": 0.18384, "grad_norm": 0.02732873250591658, "learning_rate": 0.0001, "loss": 1.0157, "step": 3447 }, { "epoch": 0.18389333333333333, "grad_norm": 0.02620511472470825, "learning_rate": 0.0001, "loss": 1.0068, "step": 3448 }, { "epoch": 0.18394666666666667, "grad_norm": 0.02426819705710967, "learning_rate": 0.0001, "loss": 1.0267, "step": 3449 }, { "epoch": 0.184, "grad_norm": 0.02791431859195201, "learning_rate": 0.0001, "loss": 1.0194, "step": 3450 }, { "epoch": 0.18405333333333335, "grad_norm": 0.02558173110536595, "learning_rate": 0.0001, "loss": 1.0, "step": 3451 }, { "epoch": 0.18410666666666667, "grad_norm": 0.025035677618851535, "learning_rate": 0.0001, "loss": 0.9693, "step": 3452 }, { "epoch": 0.18416, "grad_norm": 0.02833836423072665, "learning_rate": 0.0001, "loss": 0.9806, "step": 3453 }, { "epoch": 0.18421333333333334, "grad_norm": 0.025505732240270182, "learning_rate": 0.0001, "loss": 1.0394, "step": 3454 }, { "epoch": 0.18426666666666666, "grad_norm": 0.02672197301873966, "learning_rate": 0.0001, "loss": 1.0016, "step": 3455 }, { "epoch": 0.18432, "grad_norm": 0.027576477931748763, "learning_rate": 0.0001, "loss": 0.9784, "step": 3456 }, { "epoch": 0.18437333333333333, "grad_norm": 0.027159731391570685, "learning_rate": 0.0001, "loss": 0.9679, "step": 3457 }, { "epoch": 0.18442666666666666, "grad_norm": 0.026955744534445016, "learning_rate": 0.0001, "loss": 0.9863, "step": 3458 }, { "epoch": 0.18448, "grad_norm": 0.027882522231527766, "learning_rate": 0.0001, "loss": 0.9942, "step": 3459 }, { "epoch": 0.18453333333333333, "grad_norm": 0.025523919294513243, "learning_rate": 0.0001, "loss": 1.0114, "step": 3460 }, { "epoch": 0.18458666666666668, "grad_norm": 0.028135753684217932, "learning_rate": 0.0001, "loss": 0.9957, "step": 3461 }, { "epoch": 0.18464, "grad_norm": 0.02919719550404935, "learning_rate": 0.0001, "loss": 0.9323, "step": 3462 }, { "epoch": 0.18469333333333332, "grad_norm": 0.030156908959569777, "learning_rate": 0.0001, "loss": 0.9849, "step": 3463 }, { "epoch": 0.18474666666666667, "grad_norm": 0.02483120909762595, "learning_rate": 0.0001, "loss": 0.9879, "step": 3464 }, { "epoch": 0.1848, "grad_norm": 0.027484478045092787, "learning_rate": 0.0001, "loss": 1.067, "step": 3465 }, { "epoch": 0.18485333333333334, "grad_norm": 0.028196399404294328, "learning_rate": 0.0001, "loss": 0.9661, "step": 3466 }, { "epoch": 0.18490666666666666, "grad_norm": 0.028376927999862345, "learning_rate": 0.0001, "loss": 0.977, "step": 3467 }, { "epoch": 0.18496, "grad_norm": 0.025303580311752186, "learning_rate": 0.0001, "loss": 1.0079, "step": 3468 }, { "epoch": 0.18501333333333334, "grad_norm": 0.02908489426235198, "learning_rate": 0.0001, "loss": 0.9893, "step": 3469 }, { "epoch": 0.18506666666666666, "grad_norm": 0.02633498621475778, "learning_rate": 0.0001, "loss": 1.0765, "step": 3470 }, { "epoch": 0.18512, "grad_norm": 0.02541710799380631, "learning_rate": 0.0001, "loss": 0.9357, "step": 3471 }, { "epoch": 0.18517333333333333, "grad_norm": 0.025950494509351205, "learning_rate": 0.0001, "loss": 0.9832, "step": 3472 }, { "epoch": 0.18522666666666668, "grad_norm": 0.027029085305819704, "learning_rate": 0.0001, "loss": 0.9396, "step": 3473 }, { "epoch": 0.18528, "grad_norm": 0.0255995620284965, "learning_rate": 0.0001, "loss": 0.9843, "step": 3474 }, { "epoch": 0.18533333333333332, "grad_norm": 0.026879805814112822, "learning_rate": 0.0001, "loss": 1.0493, "step": 3475 }, { "epoch": 0.18538666666666667, "grad_norm": 0.024992550638913955, "learning_rate": 0.0001, "loss": 0.9743, "step": 3476 }, { "epoch": 0.18544, "grad_norm": 0.02791509696450787, "learning_rate": 0.0001, "loss": 0.9421, "step": 3477 }, { "epoch": 0.18549333333333334, "grad_norm": 0.02427486396924571, "learning_rate": 0.0001, "loss": 1.0176, "step": 3478 }, { "epoch": 0.18554666666666667, "grad_norm": 0.026970205597306663, "learning_rate": 0.0001, "loss": 0.9875, "step": 3479 }, { "epoch": 0.1856, "grad_norm": 0.025142232348328398, "learning_rate": 0.0001, "loss": 0.9796, "step": 3480 }, { "epoch": 0.18565333333333334, "grad_norm": 0.024579284393436162, "learning_rate": 0.0001, "loss": 0.9858, "step": 3481 }, { "epoch": 0.18570666666666666, "grad_norm": 0.025199643763289835, "learning_rate": 0.0001, "loss": 1.0215, "step": 3482 }, { "epoch": 0.18576, "grad_norm": 0.02552305776156749, "learning_rate": 0.0001, "loss": 1.0521, "step": 3483 }, { "epoch": 0.18581333333333333, "grad_norm": 0.02590679008891178, "learning_rate": 0.0001, "loss": 0.9768, "step": 3484 }, { "epoch": 0.18586666666666668, "grad_norm": 0.02552023726323634, "learning_rate": 0.0001, "loss": 1.036, "step": 3485 }, { "epoch": 0.18592, "grad_norm": 0.02463898813792729, "learning_rate": 0.0001, "loss": 0.9765, "step": 3486 }, { "epoch": 0.18597333333333332, "grad_norm": 0.026545348869412597, "learning_rate": 0.0001, "loss": 1.0135, "step": 3487 }, { "epoch": 0.18602666666666667, "grad_norm": 0.024563805691566496, "learning_rate": 0.0001, "loss": 1.0447, "step": 3488 }, { "epoch": 0.18608, "grad_norm": 0.026147704213181175, "learning_rate": 0.0001, "loss": 1.0272, "step": 3489 }, { "epoch": 0.18613333333333335, "grad_norm": 0.024728224555209392, "learning_rate": 0.0001, "loss": 1.0028, "step": 3490 }, { "epoch": 0.18618666666666667, "grad_norm": 0.027092326426092835, "learning_rate": 0.0001, "loss": 0.9987, "step": 3491 }, { "epoch": 0.18624, "grad_norm": 0.029892874849365095, "learning_rate": 0.0001, "loss": 1.0004, "step": 3492 }, { "epoch": 0.18629333333333334, "grad_norm": 0.02538997906325339, "learning_rate": 0.0001, "loss": 0.9445, "step": 3493 }, { "epoch": 0.18634666666666666, "grad_norm": 0.023746872719874267, "learning_rate": 0.0001, "loss": 0.9301, "step": 3494 }, { "epoch": 0.1864, "grad_norm": 0.025789089572454276, "learning_rate": 0.0001, "loss": 0.9531, "step": 3495 }, { "epoch": 0.18645333333333333, "grad_norm": 0.025796761565649168, "learning_rate": 0.0001, "loss": 1.0463, "step": 3496 }, { "epoch": 0.18650666666666665, "grad_norm": 0.02335943707322247, "learning_rate": 0.0001, "loss": 0.9927, "step": 3497 }, { "epoch": 0.18656, "grad_norm": 0.02715244718661702, "learning_rate": 0.0001, "loss": 1.0061, "step": 3498 }, { "epoch": 0.18661333333333333, "grad_norm": 0.025536798513648803, "learning_rate": 0.0001, "loss": 0.9826, "step": 3499 }, { "epoch": 0.18666666666666668, "grad_norm": 0.026207805977841003, "learning_rate": 0.0001, "loss": 1.0124, "step": 3500 }, { "epoch": 0.18672, "grad_norm": 0.024706190809151228, "learning_rate": 0.0001, "loss": 1.0744, "step": 3501 }, { "epoch": 0.18677333333333335, "grad_norm": 0.024120531649981153, "learning_rate": 0.0001, "loss": 1.0186, "step": 3502 }, { "epoch": 0.18682666666666667, "grad_norm": 0.02739806030820672, "learning_rate": 0.0001, "loss": 1.0139, "step": 3503 }, { "epoch": 0.18688, "grad_norm": 0.02390316820868975, "learning_rate": 0.0001, "loss": 0.9896, "step": 3504 }, { "epoch": 0.18693333333333334, "grad_norm": 0.024413636650209524, "learning_rate": 0.0001, "loss": 0.9644, "step": 3505 }, { "epoch": 0.18698666666666666, "grad_norm": 0.024184848408398116, "learning_rate": 0.0001, "loss": 1.0262, "step": 3506 }, { "epoch": 0.18704, "grad_norm": 0.027179447094897002, "learning_rate": 0.0001, "loss": 1.0177, "step": 3507 }, { "epoch": 0.18709333333333333, "grad_norm": 0.02615699103404311, "learning_rate": 0.0001, "loss": 1.0285, "step": 3508 }, { "epoch": 0.18714666666666666, "grad_norm": 0.024523123947458123, "learning_rate": 0.0001, "loss": 1.0403, "step": 3509 }, { "epoch": 0.1872, "grad_norm": 0.025248483210581683, "learning_rate": 0.0001, "loss": 1.0154, "step": 3510 }, { "epoch": 0.18725333333333333, "grad_norm": 0.025302320572677943, "learning_rate": 0.0001, "loss": 1.0244, "step": 3511 }, { "epoch": 0.18730666666666668, "grad_norm": 0.027253578075014512, "learning_rate": 0.0001, "loss": 0.9942, "step": 3512 }, { "epoch": 0.18736, "grad_norm": 0.022861325841719914, "learning_rate": 0.0001, "loss": 0.9719, "step": 3513 }, { "epoch": 0.18741333333333332, "grad_norm": 0.024893480388474547, "learning_rate": 0.0001, "loss": 0.9351, "step": 3514 }, { "epoch": 0.18746666666666667, "grad_norm": 0.02592449821000051, "learning_rate": 0.0001, "loss": 1.0225, "step": 3515 }, { "epoch": 0.18752, "grad_norm": 0.023953847962230077, "learning_rate": 0.0001, "loss": 0.9338, "step": 3516 }, { "epoch": 0.18757333333333334, "grad_norm": 0.025104227828563, "learning_rate": 0.0001, "loss": 1.0288, "step": 3517 }, { "epoch": 0.18762666666666666, "grad_norm": 0.02478229841068402, "learning_rate": 0.0001, "loss": 0.981, "step": 3518 }, { "epoch": 0.18768, "grad_norm": 0.0239915080111181, "learning_rate": 0.0001, "loss": 1.0094, "step": 3519 }, { "epoch": 0.18773333333333334, "grad_norm": 0.02442893138764159, "learning_rate": 0.0001, "loss": 0.9447, "step": 3520 }, { "epoch": 0.18778666666666666, "grad_norm": 0.025652093385124586, "learning_rate": 0.0001, "loss": 0.9231, "step": 3521 }, { "epoch": 0.18784, "grad_norm": 0.025371196966063075, "learning_rate": 0.0001, "loss": 0.9954, "step": 3522 }, { "epoch": 0.18789333333333333, "grad_norm": 0.0248476163954093, "learning_rate": 0.0001, "loss": 0.9623, "step": 3523 }, { "epoch": 0.18794666666666668, "grad_norm": 0.0253167020577384, "learning_rate": 0.0001, "loss": 0.9716, "step": 3524 }, { "epoch": 0.188, "grad_norm": 0.02775090894238502, "learning_rate": 0.0001, "loss": 0.9864, "step": 3525 }, { "epoch": 0.18805333333333332, "grad_norm": 0.023501308997575115, "learning_rate": 0.0001, "loss": 0.9898, "step": 3526 }, { "epoch": 0.18810666666666667, "grad_norm": 0.027311165358979612, "learning_rate": 0.0001, "loss": 0.9919, "step": 3527 }, { "epoch": 0.18816, "grad_norm": 0.024838790706314003, "learning_rate": 0.0001, "loss": 0.9654, "step": 3528 }, { "epoch": 0.18821333333333334, "grad_norm": 0.025972614879531838, "learning_rate": 0.0001, "loss": 1.0321, "step": 3529 }, { "epoch": 0.18826666666666667, "grad_norm": 0.02498794777051121, "learning_rate": 0.0001, "loss": 0.9193, "step": 3530 }, { "epoch": 0.18832, "grad_norm": 0.024654044677827162, "learning_rate": 0.0001, "loss": 1.0305, "step": 3531 }, { "epoch": 0.18837333333333334, "grad_norm": 0.026046568551439976, "learning_rate": 0.0001, "loss": 1.047, "step": 3532 }, { "epoch": 0.18842666666666666, "grad_norm": 0.026949441411058376, "learning_rate": 0.0001, "loss": 0.9686, "step": 3533 }, { "epoch": 0.18848, "grad_norm": 0.02467053612107203, "learning_rate": 0.0001, "loss": 1.0009, "step": 3534 }, { "epoch": 0.18853333333333333, "grad_norm": 0.025870594614373455, "learning_rate": 0.0001, "loss": 1.0694, "step": 3535 }, { "epoch": 0.18858666666666668, "grad_norm": 0.023237968971323176, "learning_rate": 0.0001, "loss": 0.9722, "step": 3536 }, { "epoch": 0.18864, "grad_norm": 0.024620283622012153, "learning_rate": 0.0001, "loss": 1.008, "step": 3537 }, { "epoch": 0.18869333333333332, "grad_norm": 0.026938732703581054, "learning_rate": 0.0001, "loss": 0.9633, "step": 3538 }, { "epoch": 0.18874666666666667, "grad_norm": 0.02417372607076218, "learning_rate": 0.0001, "loss": 0.9743, "step": 3539 }, { "epoch": 0.1888, "grad_norm": 0.02448401593182751, "learning_rate": 0.0001, "loss": 0.992, "step": 3540 }, { "epoch": 0.18885333333333335, "grad_norm": 0.025142978607788923, "learning_rate": 0.0001, "loss": 0.9778, "step": 3541 }, { "epoch": 0.18890666666666667, "grad_norm": 0.025510598135688407, "learning_rate": 0.0001, "loss": 1.0436, "step": 3542 }, { "epoch": 0.18896, "grad_norm": 0.025848527123143197, "learning_rate": 0.0001, "loss": 1.0288, "step": 3543 }, { "epoch": 0.18901333333333334, "grad_norm": 0.02585960910265177, "learning_rate": 0.0001, "loss": 1.0577, "step": 3544 }, { "epoch": 0.18906666666666666, "grad_norm": 0.025832039061583597, "learning_rate": 0.0001, "loss": 0.9526, "step": 3545 }, { "epoch": 0.18912, "grad_norm": 0.026160370100400645, "learning_rate": 0.0001, "loss": 0.9903, "step": 3546 }, { "epoch": 0.18917333333333333, "grad_norm": 0.025483734998501248, "learning_rate": 0.0001, "loss": 0.9934, "step": 3547 }, { "epoch": 0.18922666666666665, "grad_norm": 0.025333360545155753, "learning_rate": 0.0001, "loss": 1.0645, "step": 3548 }, { "epoch": 0.18928, "grad_norm": 0.024779958119791726, "learning_rate": 0.0001, "loss": 1.0399, "step": 3549 }, { "epoch": 0.18933333333333333, "grad_norm": 0.026915940332873502, "learning_rate": 0.0001, "loss": 0.9783, "step": 3550 }, { "epoch": 0.18938666666666668, "grad_norm": 0.026869694538272173, "learning_rate": 0.0001, "loss": 1.0276, "step": 3551 }, { "epoch": 0.18944, "grad_norm": 0.024177499053490363, "learning_rate": 0.0001, "loss": 1.0206, "step": 3552 }, { "epoch": 0.18949333333333335, "grad_norm": 0.025049740588224262, "learning_rate": 0.0001, "loss": 1.0593, "step": 3553 }, { "epoch": 0.18954666666666667, "grad_norm": 0.025639618430278018, "learning_rate": 0.0001, "loss": 1.0374, "step": 3554 }, { "epoch": 0.1896, "grad_norm": 0.02653293793139913, "learning_rate": 0.0001, "loss": 1.0715, "step": 3555 }, { "epoch": 0.18965333333333334, "grad_norm": 0.025676541826989443, "learning_rate": 0.0001, "loss": 1.0267, "step": 3556 }, { "epoch": 0.18970666666666666, "grad_norm": 0.02516697577008408, "learning_rate": 0.0001, "loss": 0.9923, "step": 3557 }, { "epoch": 0.18976, "grad_norm": 0.0248231752157476, "learning_rate": 0.0001, "loss": 0.9855, "step": 3558 }, { "epoch": 0.18981333333333333, "grad_norm": 0.023818203842600437, "learning_rate": 0.0001, "loss": 0.9827, "step": 3559 }, { "epoch": 0.18986666666666666, "grad_norm": 0.02528214604773688, "learning_rate": 0.0001, "loss": 0.9936, "step": 3560 }, { "epoch": 0.18992, "grad_norm": 0.025212838508673178, "learning_rate": 0.0001, "loss": 0.9824, "step": 3561 }, { "epoch": 0.18997333333333333, "grad_norm": 0.02353122736053764, "learning_rate": 0.0001, "loss": 0.9607, "step": 3562 }, { "epoch": 0.19002666666666668, "grad_norm": 0.024634261509167442, "learning_rate": 0.0001, "loss": 1.0277, "step": 3563 }, { "epoch": 0.19008, "grad_norm": 0.027023723563781556, "learning_rate": 0.0001, "loss": 1.0055, "step": 3564 }, { "epoch": 0.19013333333333332, "grad_norm": 0.025110148656220743, "learning_rate": 0.0001, "loss": 0.9794, "step": 3565 }, { "epoch": 0.19018666666666667, "grad_norm": 0.026954089871143436, "learning_rate": 0.0001, "loss": 1.0365, "step": 3566 }, { "epoch": 0.19024, "grad_norm": 0.023971854684056673, "learning_rate": 0.0001, "loss": 0.9487, "step": 3567 }, { "epoch": 0.19029333333333334, "grad_norm": 0.026203484451579384, "learning_rate": 0.0001, "loss": 0.9721, "step": 3568 }, { "epoch": 0.19034666666666666, "grad_norm": 0.02387057954556583, "learning_rate": 0.0001, "loss": 0.9035, "step": 3569 }, { "epoch": 0.1904, "grad_norm": 0.0236108639796415, "learning_rate": 0.0001, "loss": 0.9492, "step": 3570 }, { "epoch": 0.19045333333333334, "grad_norm": 0.02706742958840352, "learning_rate": 0.0001, "loss": 1.0065, "step": 3571 }, { "epoch": 0.19050666666666666, "grad_norm": 0.024998928957616757, "learning_rate": 0.0001, "loss": 0.9807, "step": 3572 }, { "epoch": 0.19056, "grad_norm": 0.02600483332276982, "learning_rate": 0.0001, "loss": 0.9873, "step": 3573 }, { "epoch": 0.19061333333333333, "grad_norm": 0.024040156149145123, "learning_rate": 0.0001, "loss": 0.9661, "step": 3574 }, { "epoch": 0.19066666666666668, "grad_norm": 0.02379483291879239, "learning_rate": 0.0001, "loss": 0.9918, "step": 3575 }, { "epoch": 0.19072, "grad_norm": 0.022623264853640957, "learning_rate": 0.0001, "loss": 0.953, "step": 3576 }, { "epoch": 0.19077333333333332, "grad_norm": 0.024931770540795744, "learning_rate": 0.0001, "loss": 1.0316, "step": 3577 }, { "epoch": 0.19082666666666667, "grad_norm": 0.025337895268664052, "learning_rate": 0.0001, "loss": 1.0476, "step": 3578 }, { "epoch": 0.19088, "grad_norm": 0.02554606043802528, "learning_rate": 0.0001, "loss": 1.0462, "step": 3579 }, { "epoch": 0.19093333333333334, "grad_norm": 0.024500993538555747, "learning_rate": 0.0001, "loss": 0.9742, "step": 3580 }, { "epoch": 0.19098666666666667, "grad_norm": 0.023051430351425196, "learning_rate": 0.0001, "loss": 0.9899, "step": 3581 }, { "epoch": 0.19104, "grad_norm": 0.02525567403677667, "learning_rate": 0.0001, "loss": 0.9477, "step": 3582 }, { "epoch": 0.19109333333333334, "grad_norm": 0.023828146982157385, "learning_rate": 0.0001, "loss": 1.0045, "step": 3583 }, { "epoch": 0.19114666666666666, "grad_norm": 0.023606249021235145, "learning_rate": 0.0001, "loss": 0.9935, "step": 3584 }, { "epoch": 0.1912, "grad_norm": 0.024845600327747987, "learning_rate": 0.0001, "loss": 0.9604, "step": 3585 }, { "epoch": 0.19125333333333333, "grad_norm": 0.023738330457918008, "learning_rate": 0.0001, "loss": 0.9443, "step": 3586 }, { "epoch": 0.19130666666666668, "grad_norm": 0.025952689408167563, "learning_rate": 0.0001, "loss": 0.977, "step": 3587 }, { "epoch": 0.19136, "grad_norm": 0.0279980463767368, "learning_rate": 0.0001, "loss": 1.0103, "step": 3588 }, { "epoch": 0.19141333333333332, "grad_norm": 0.02617497340050425, "learning_rate": 0.0001, "loss": 0.9712, "step": 3589 }, { "epoch": 0.19146666666666667, "grad_norm": 0.024606101869877564, "learning_rate": 0.0001, "loss": 0.9609, "step": 3590 }, { "epoch": 0.19152, "grad_norm": 0.02501007808968401, "learning_rate": 0.0001, "loss": 0.951, "step": 3591 }, { "epoch": 0.19157333333333335, "grad_norm": 0.02316753054899678, "learning_rate": 0.0001, "loss": 0.927, "step": 3592 }, { "epoch": 0.19162666666666667, "grad_norm": 0.025186039134125485, "learning_rate": 0.0001, "loss": 1.033, "step": 3593 }, { "epoch": 0.19168, "grad_norm": 0.024511459809401785, "learning_rate": 0.0001, "loss": 0.9629, "step": 3594 }, { "epoch": 0.19173333333333334, "grad_norm": 0.023159418308673418, "learning_rate": 0.0001, "loss": 0.9681, "step": 3595 }, { "epoch": 0.19178666666666666, "grad_norm": 0.02617156770229588, "learning_rate": 0.0001, "loss": 0.9569, "step": 3596 }, { "epoch": 0.19184, "grad_norm": 0.021813341689924506, "learning_rate": 0.0001, "loss": 0.9727, "step": 3597 }, { "epoch": 0.19189333333333333, "grad_norm": 0.03098183094643312, "learning_rate": 0.0001, "loss": 1.0388, "step": 3598 }, { "epoch": 0.19194666666666665, "grad_norm": 0.024539351719329774, "learning_rate": 0.0001, "loss": 0.9761, "step": 3599 }, { "epoch": 0.192, "grad_norm": 0.02525617638084879, "learning_rate": 0.0001, "loss": 1.0586, "step": 3600 }, { "epoch": 0.192, "eval_accuracy": 0.6154520940717549, "eval_loss": 1.3799831867218018, "eval_runtime": 62.8814, "eval_samples_per_second": 15.903, "eval_steps_per_second": 0.509, "step": 3600 }, { "epoch": 0.19205333333333333, "grad_norm": 0.024791917491729012, "learning_rate": 0.0001, "loss": 1.0137, "step": 3601 }, { "epoch": 0.19210666666666668, "grad_norm": 0.024616725758454947, "learning_rate": 0.0001, "loss": 1.049, "step": 3602 }, { "epoch": 0.19216, "grad_norm": 0.023352453416244427, "learning_rate": 0.0001, "loss": 1.0601, "step": 3603 }, { "epoch": 0.19221333333333335, "grad_norm": 0.026110998122366037, "learning_rate": 0.0001, "loss": 0.9596, "step": 3604 }, { "epoch": 0.19226666666666667, "grad_norm": 0.022331335353308484, "learning_rate": 0.0001, "loss": 0.9986, "step": 3605 }, { "epoch": 0.19232, "grad_norm": 0.02321975066521064, "learning_rate": 0.0001, "loss": 0.975, "step": 3606 }, { "epoch": 0.19237333333333334, "grad_norm": 0.0250055747110722, "learning_rate": 0.0001, "loss": 1.0272, "step": 3607 }, { "epoch": 0.19242666666666666, "grad_norm": 0.026504121886228395, "learning_rate": 0.0001, "loss": 0.9492, "step": 3608 }, { "epoch": 0.19248, "grad_norm": 0.023741964417325435, "learning_rate": 0.0001, "loss": 0.9977, "step": 3609 }, { "epoch": 0.19253333333333333, "grad_norm": 0.025149179704440614, "learning_rate": 0.0001, "loss": 0.9563, "step": 3610 }, { "epoch": 0.19258666666666666, "grad_norm": 0.025741423800449435, "learning_rate": 0.0001, "loss": 0.9925, "step": 3611 }, { "epoch": 0.19264, "grad_norm": 0.02461265197607647, "learning_rate": 0.0001, "loss": 1.0215, "step": 3612 }, { "epoch": 0.19269333333333333, "grad_norm": 0.023928591276251195, "learning_rate": 0.0001, "loss": 1.0575, "step": 3613 }, { "epoch": 0.19274666666666668, "grad_norm": 0.023427816997769534, "learning_rate": 0.0001, "loss": 0.9955, "step": 3614 }, { "epoch": 0.1928, "grad_norm": 0.02322050453860059, "learning_rate": 0.0001, "loss": 0.987, "step": 3615 }, { "epoch": 0.19285333333333332, "grad_norm": 0.025410467985991607, "learning_rate": 0.0001, "loss": 0.9436, "step": 3616 }, { "epoch": 0.19290666666666667, "grad_norm": 0.02400055908851686, "learning_rate": 0.0001, "loss": 0.9864, "step": 3617 }, { "epoch": 0.19296, "grad_norm": 0.026357786101753298, "learning_rate": 0.0001, "loss": 0.9844, "step": 3618 }, { "epoch": 0.19301333333333334, "grad_norm": 0.024707052966720648, "learning_rate": 0.0001, "loss": 1.0037, "step": 3619 }, { "epoch": 0.19306666666666666, "grad_norm": 0.027444457300150136, "learning_rate": 0.0001, "loss": 0.9368, "step": 3620 }, { "epoch": 0.19312, "grad_norm": 0.02465745513195673, "learning_rate": 0.0001, "loss": 1.0232, "step": 3621 }, { "epoch": 0.19317333333333334, "grad_norm": 0.02512725002128322, "learning_rate": 0.0001, "loss": 1.0034, "step": 3622 }, { "epoch": 0.19322666666666666, "grad_norm": 0.026046396924255026, "learning_rate": 0.0001, "loss": 1.003, "step": 3623 }, { "epoch": 0.19328, "grad_norm": 0.024704042673263676, "learning_rate": 0.0001, "loss": 1.0137, "step": 3624 }, { "epoch": 0.19333333333333333, "grad_norm": 0.025933923324255575, "learning_rate": 0.0001, "loss": 0.977, "step": 3625 }, { "epoch": 0.19338666666666668, "grad_norm": 0.02633496854483942, "learning_rate": 0.0001, "loss": 0.9817, "step": 3626 }, { "epoch": 0.19344, "grad_norm": 0.02623837393680218, "learning_rate": 0.0001, "loss": 0.9617, "step": 3627 }, { "epoch": 0.19349333333333332, "grad_norm": 0.025552706354754484, "learning_rate": 0.0001, "loss": 0.9372, "step": 3628 }, { "epoch": 0.19354666666666667, "grad_norm": 0.02749257266191957, "learning_rate": 0.0001, "loss": 0.948, "step": 3629 }, { "epoch": 0.1936, "grad_norm": 0.02851493830300891, "learning_rate": 0.0001, "loss": 0.9566, "step": 3630 }, { "epoch": 0.19365333333333334, "grad_norm": 0.025807606515633734, "learning_rate": 0.0001, "loss": 0.9628, "step": 3631 }, { "epoch": 0.19370666666666667, "grad_norm": 0.026695313171951167, "learning_rate": 0.0001, "loss": 0.9839, "step": 3632 }, { "epoch": 0.19376, "grad_norm": 0.026493790099997923, "learning_rate": 0.0001, "loss": 0.9782, "step": 3633 }, { "epoch": 0.19381333333333334, "grad_norm": 0.03189821168016517, "learning_rate": 0.0001, "loss": 1.024, "step": 3634 }, { "epoch": 0.19386666666666666, "grad_norm": 0.025573592706431954, "learning_rate": 0.0001, "loss": 1.016, "step": 3635 }, { "epoch": 0.19392, "grad_norm": 0.022925120839929872, "learning_rate": 0.0001, "loss": 0.9505, "step": 3636 }, { "epoch": 0.19397333333333333, "grad_norm": 0.023222502013119362, "learning_rate": 0.0001, "loss": 0.9488, "step": 3637 }, { "epoch": 0.19402666666666665, "grad_norm": 0.02684147684640962, "learning_rate": 0.0001, "loss": 1.0009, "step": 3638 }, { "epoch": 0.19408, "grad_norm": 0.02415745033735449, "learning_rate": 0.0001, "loss": 1.0084, "step": 3639 }, { "epoch": 0.19413333333333332, "grad_norm": 0.025262349683537084, "learning_rate": 0.0001, "loss": 1.0319, "step": 3640 }, { "epoch": 0.19418666666666667, "grad_norm": 0.026889569671373355, "learning_rate": 0.0001, "loss": 1.0164, "step": 3641 }, { "epoch": 0.19424, "grad_norm": 0.027779882552581122, "learning_rate": 0.0001, "loss": 1.0595, "step": 3642 }, { "epoch": 0.19429333333333335, "grad_norm": 0.023003390587205057, "learning_rate": 0.0001, "loss": 0.9814, "step": 3643 }, { "epoch": 0.19434666666666667, "grad_norm": 0.028404683305478153, "learning_rate": 0.0001, "loss": 0.9845, "step": 3644 }, { "epoch": 0.1944, "grad_norm": 0.024757751761847288, "learning_rate": 0.0001, "loss": 0.9839, "step": 3645 }, { "epoch": 0.19445333333333334, "grad_norm": 0.02546845802827426, "learning_rate": 0.0001, "loss": 0.9635, "step": 3646 }, { "epoch": 0.19450666666666666, "grad_norm": 0.02783766413385135, "learning_rate": 0.0001, "loss": 1.0015, "step": 3647 }, { "epoch": 0.19456, "grad_norm": 0.023371912710149458, "learning_rate": 0.0001, "loss": 1.0115, "step": 3648 }, { "epoch": 0.19461333333333333, "grad_norm": 0.023907196966929042, "learning_rate": 0.0001, "loss": 0.9777, "step": 3649 }, { "epoch": 0.19466666666666665, "grad_norm": 0.027259425014316017, "learning_rate": 0.0001, "loss": 1.022, "step": 3650 }, { "epoch": 0.19472, "grad_norm": 0.02363261963820187, "learning_rate": 0.0001, "loss": 0.9833, "step": 3651 }, { "epoch": 0.19477333333333333, "grad_norm": 0.027307802520385276, "learning_rate": 0.0001, "loss": 1.0118, "step": 3652 }, { "epoch": 0.19482666666666668, "grad_norm": 0.02607828960889171, "learning_rate": 0.0001, "loss": 0.9588, "step": 3653 }, { "epoch": 0.19488, "grad_norm": 0.024041736312024806, "learning_rate": 0.0001, "loss": 0.9642, "step": 3654 }, { "epoch": 0.19493333333333332, "grad_norm": 0.026196735993107626, "learning_rate": 0.0001, "loss": 1.0223, "step": 3655 }, { "epoch": 0.19498666666666667, "grad_norm": 0.026472281559358293, "learning_rate": 0.0001, "loss": 1.0257, "step": 3656 }, { "epoch": 0.19504, "grad_norm": 0.026918906507798185, "learning_rate": 0.0001, "loss": 0.9651, "step": 3657 }, { "epoch": 0.19509333333333334, "grad_norm": 0.02581396300972499, "learning_rate": 0.0001, "loss": 1.0083, "step": 3658 }, { "epoch": 0.19514666666666666, "grad_norm": 0.02704061370875191, "learning_rate": 0.0001, "loss": 0.9709, "step": 3659 }, { "epoch": 0.1952, "grad_norm": 0.024647511183305895, "learning_rate": 0.0001, "loss": 0.9908, "step": 3660 }, { "epoch": 0.19525333333333333, "grad_norm": 0.025903646432295178, "learning_rate": 0.0001, "loss": 0.972, "step": 3661 }, { "epoch": 0.19530666666666666, "grad_norm": 0.02579657133362515, "learning_rate": 0.0001, "loss": 0.9203, "step": 3662 }, { "epoch": 0.19536, "grad_norm": 0.02790382339175459, "learning_rate": 0.0001, "loss": 1.0306, "step": 3663 }, { "epoch": 0.19541333333333333, "grad_norm": 0.025906346817223327, "learning_rate": 0.0001, "loss": 0.9497, "step": 3664 }, { "epoch": 0.19546666666666668, "grad_norm": 0.02735645522275257, "learning_rate": 0.0001, "loss": 0.9996, "step": 3665 }, { "epoch": 0.19552, "grad_norm": 0.027401876835391838, "learning_rate": 0.0001, "loss": 0.9898, "step": 3666 }, { "epoch": 0.19557333333333332, "grad_norm": 0.026985162806974883, "learning_rate": 0.0001, "loss": 1.0018, "step": 3667 }, { "epoch": 0.19562666666666667, "grad_norm": 0.028031223967979142, "learning_rate": 0.0001, "loss": 0.9519, "step": 3668 }, { "epoch": 0.19568, "grad_norm": 0.02574595417487729, "learning_rate": 0.0001, "loss": 0.964, "step": 3669 }, { "epoch": 0.19573333333333334, "grad_norm": 0.026185999030864524, "learning_rate": 0.0001, "loss": 1.0519, "step": 3670 }, { "epoch": 0.19578666666666666, "grad_norm": 0.025721592671271915, "learning_rate": 0.0001, "loss": 1.0029, "step": 3671 }, { "epoch": 0.19584, "grad_norm": 0.02625063800281071, "learning_rate": 0.0001, "loss": 0.982, "step": 3672 }, { "epoch": 0.19589333333333334, "grad_norm": 0.02849329487704224, "learning_rate": 0.0001, "loss": 0.963, "step": 3673 }, { "epoch": 0.19594666666666666, "grad_norm": 0.02439895461068646, "learning_rate": 0.0001, "loss": 0.9785, "step": 3674 }, { "epoch": 0.196, "grad_norm": 0.024837637626310954, "learning_rate": 0.0001, "loss": 1.0042, "step": 3675 }, { "epoch": 0.19605333333333333, "grad_norm": 0.02764462891998952, "learning_rate": 0.0001, "loss": 0.9852, "step": 3676 }, { "epoch": 0.19610666666666668, "grad_norm": 0.024420825290900054, "learning_rate": 0.0001, "loss": 0.9804, "step": 3677 }, { "epoch": 0.19616, "grad_norm": 0.024940603221638782, "learning_rate": 0.0001, "loss": 0.9906, "step": 3678 }, { "epoch": 0.19621333333333332, "grad_norm": 0.026638880506615, "learning_rate": 0.0001, "loss": 0.9891, "step": 3679 }, { "epoch": 0.19626666666666667, "grad_norm": 0.02447615462285521, "learning_rate": 0.0001, "loss": 1.0128, "step": 3680 }, { "epoch": 0.19632, "grad_norm": 0.023346794747188232, "learning_rate": 0.0001, "loss": 1.0095, "step": 3681 }, { "epoch": 0.19637333333333334, "grad_norm": 0.0275302696166071, "learning_rate": 0.0001, "loss": 0.9929, "step": 3682 }, { "epoch": 0.19642666666666667, "grad_norm": 0.02708553382970011, "learning_rate": 0.0001, "loss": 1.0151, "step": 3683 }, { "epoch": 0.19648, "grad_norm": 0.024417432913200587, "learning_rate": 0.0001, "loss": 1.0802, "step": 3684 }, { "epoch": 0.19653333333333334, "grad_norm": 0.027668548703664964, "learning_rate": 0.0001, "loss": 0.986, "step": 3685 }, { "epoch": 0.19658666666666666, "grad_norm": 0.02754645547090657, "learning_rate": 0.0001, "loss": 1.0345, "step": 3686 }, { "epoch": 0.19664, "grad_norm": 0.025540740658579746, "learning_rate": 0.0001, "loss": 1.0083, "step": 3687 }, { "epoch": 0.19669333333333333, "grad_norm": 0.024242447669713212, "learning_rate": 0.0001, "loss": 0.9772, "step": 3688 }, { "epoch": 0.19674666666666665, "grad_norm": 0.026037753717685092, "learning_rate": 0.0001, "loss": 0.9515, "step": 3689 }, { "epoch": 0.1968, "grad_norm": 0.02377169212702068, "learning_rate": 0.0001, "loss": 1.028, "step": 3690 }, { "epoch": 0.19685333333333332, "grad_norm": 0.024044858929617323, "learning_rate": 0.0001, "loss": 0.9693, "step": 3691 }, { "epoch": 0.19690666666666667, "grad_norm": 0.025499128783070008, "learning_rate": 0.0001, "loss": 0.9643, "step": 3692 }, { "epoch": 0.19696, "grad_norm": 0.025900685863266635, "learning_rate": 0.0001, "loss": 1.0176, "step": 3693 }, { "epoch": 0.19701333333333335, "grad_norm": 0.02587906628277292, "learning_rate": 0.0001, "loss": 1.0158, "step": 3694 }, { "epoch": 0.19706666666666667, "grad_norm": 0.025280489473282052, "learning_rate": 0.0001, "loss": 1.0019, "step": 3695 }, { "epoch": 0.19712, "grad_norm": 0.025186264154007244, "learning_rate": 0.0001, "loss": 1.0135, "step": 3696 }, { "epoch": 0.19717333333333334, "grad_norm": 0.02247670440571041, "learning_rate": 0.0001, "loss": 1.0084, "step": 3697 }, { "epoch": 0.19722666666666666, "grad_norm": 0.022879763987245498, "learning_rate": 0.0001, "loss": 0.9643, "step": 3698 }, { "epoch": 0.19728, "grad_norm": 0.02749369867061824, "learning_rate": 0.0001, "loss": 0.9518, "step": 3699 }, { "epoch": 0.19733333333333333, "grad_norm": 0.027654290598640604, "learning_rate": 0.0001, "loss": 1.0003, "step": 3700 }, { "epoch": 0.19738666666666665, "grad_norm": 0.024051078434315323, "learning_rate": 0.0001, "loss": 0.9114, "step": 3701 }, { "epoch": 0.19744, "grad_norm": 0.025424997308673276, "learning_rate": 0.0001, "loss": 0.9999, "step": 3702 }, { "epoch": 0.19749333333333333, "grad_norm": 0.026795722677970438, "learning_rate": 0.0001, "loss": 0.8685, "step": 3703 }, { "epoch": 0.19754666666666668, "grad_norm": 0.02409147229606473, "learning_rate": 0.0001, "loss": 1.0095, "step": 3704 }, { "epoch": 0.1976, "grad_norm": 0.03045727363341014, "learning_rate": 0.0001, "loss": 1.0044, "step": 3705 }, { "epoch": 0.19765333333333332, "grad_norm": 0.02756989193109836, "learning_rate": 0.0001, "loss": 0.9856, "step": 3706 }, { "epoch": 0.19770666666666667, "grad_norm": 0.02415310055539668, "learning_rate": 0.0001, "loss": 1.039, "step": 3707 }, { "epoch": 0.19776, "grad_norm": 0.025336275768586276, "learning_rate": 0.0001, "loss": 0.971, "step": 3708 }, { "epoch": 0.19781333333333334, "grad_norm": 0.02898139651495417, "learning_rate": 0.0001, "loss": 0.9746, "step": 3709 }, { "epoch": 0.19786666666666666, "grad_norm": 0.02651434307661715, "learning_rate": 0.0001, "loss": 0.9563, "step": 3710 }, { "epoch": 0.19792, "grad_norm": 0.023739460396023107, "learning_rate": 0.0001, "loss": 1.0134, "step": 3711 }, { "epoch": 0.19797333333333333, "grad_norm": 0.02512279421082305, "learning_rate": 0.0001, "loss": 0.9321, "step": 3712 }, { "epoch": 0.19802666666666666, "grad_norm": 0.02277507376072582, "learning_rate": 0.0001, "loss": 0.982, "step": 3713 }, { "epoch": 0.19808, "grad_norm": 0.024832561109122298, "learning_rate": 0.0001, "loss": 0.9984, "step": 3714 }, { "epoch": 0.19813333333333333, "grad_norm": 0.023916545558309885, "learning_rate": 0.0001, "loss": 0.9195, "step": 3715 }, { "epoch": 0.19818666666666668, "grad_norm": 0.025080199404929268, "learning_rate": 0.0001, "loss": 1.005, "step": 3716 }, { "epoch": 0.19824, "grad_norm": 0.02408285135466368, "learning_rate": 0.0001, "loss": 0.978, "step": 3717 }, { "epoch": 0.19829333333333332, "grad_norm": 0.025882560285844455, "learning_rate": 0.0001, "loss": 0.9621, "step": 3718 }, { "epoch": 0.19834666666666667, "grad_norm": 0.022458135460567685, "learning_rate": 0.0001, "loss": 0.8725, "step": 3719 }, { "epoch": 0.1984, "grad_norm": 0.022909997984635295, "learning_rate": 0.0001, "loss": 1.0114, "step": 3720 }, { "epoch": 0.19845333333333334, "grad_norm": 0.023778868057754275, "learning_rate": 0.0001, "loss": 0.9593, "step": 3721 }, { "epoch": 0.19850666666666666, "grad_norm": 0.025273450317901954, "learning_rate": 0.0001, "loss": 0.9989, "step": 3722 }, { "epoch": 0.19856, "grad_norm": 0.02404703069173558, "learning_rate": 0.0001, "loss": 1.0482, "step": 3723 }, { "epoch": 0.19861333333333334, "grad_norm": 0.023684785435321622, "learning_rate": 0.0001, "loss": 1.0149, "step": 3724 }, { "epoch": 0.19866666666666666, "grad_norm": 0.02779843087905376, "learning_rate": 0.0001, "loss": 1.0111, "step": 3725 }, { "epoch": 0.19872, "grad_norm": 0.023229786389898102, "learning_rate": 0.0001, "loss": 1.008, "step": 3726 }, { "epoch": 0.19877333333333333, "grad_norm": 0.024189147230062887, "learning_rate": 0.0001, "loss": 0.9855, "step": 3727 }, { "epoch": 0.19882666666666668, "grad_norm": 0.024817448932531853, "learning_rate": 0.0001, "loss": 1.0167, "step": 3728 }, { "epoch": 0.19888, "grad_norm": 0.02465571495183219, "learning_rate": 0.0001, "loss": 0.9676, "step": 3729 }, { "epoch": 0.19893333333333332, "grad_norm": 0.0237866121208367, "learning_rate": 0.0001, "loss": 1.0055, "step": 3730 }, { "epoch": 0.19898666666666667, "grad_norm": 0.024365423201641742, "learning_rate": 0.0001, "loss": 0.9644, "step": 3731 }, { "epoch": 0.19904, "grad_norm": 0.025162883880848374, "learning_rate": 0.0001, "loss": 1.0038, "step": 3732 }, { "epoch": 0.19909333333333334, "grad_norm": 0.024477981102318438, "learning_rate": 0.0001, "loss": 0.9974, "step": 3733 }, { "epoch": 0.19914666666666667, "grad_norm": 0.02377156536687535, "learning_rate": 0.0001, "loss": 1.0243, "step": 3734 }, { "epoch": 0.1992, "grad_norm": 0.025617010108787207, "learning_rate": 0.0001, "loss": 1.0112, "step": 3735 }, { "epoch": 0.19925333333333334, "grad_norm": 0.026209587276197734, "learning_rate": 0.0001, "loss": 1.0222, "step": 3736 }, { "epoch": 0.19930666666666666, "grad_norm": 0.02235037149951266, "learning_rate": 0.0001, "loss": 1.0396, "step": 3737 }, { "epoch": 0.19936, "grad_norm": 0.025714588931102053, "learning_rate": 0.0001, "loss": 0.9301, "step": 3738 }, { "epoch": 0.19941333333333333, "grad_norm": 0.026930362372302584, "learning_rate": 0.0001, "loss": 0.9248, "step": 3739 }, { "epoch": 0.19946666666666665, "grad_norm": 0.026131806238581166, "learning_rate": 0.0001, "loss": 0.9643, "step": 3740 }, { "epoch": 0.19952, "grad_norm": 0.025286782127623694, "learning_rate": 0.0001, "loss": 1.0172, "step": 3741 }, { "epoch": 0.19957333333333332, "grad_norm": 0.027316706917672375, "learning_rate": 0.0001, "loss": 1.0267, "step": 3742 }, { "epoch": 0.19962666666666667, "grad_norm": 0.026745623654205124, "learning_rate": 0.0001, "loss": 1.0143, "step": 3743 }, { "epoch": 0.19968, "grad_norm": 0.026199884405598, "learning_rate": 0.0001, "loss": 0.9248, "step": 3744 }, { "epoch": 0.19973333333333335, "grad_norm": 0.025682544820224206, "learning_rate": 0.0001, "loss": 0.9399, "step": 3745 }, { "epoch": 0.19978666666666667, "grad_norm": 0.025580766642949296, "learning_rate": 0.0001, "loss": 0.9323, "step": 3746 }, { "epoch": 0.19984, "grad_norm": 0.0245724762396678, "learning_rate": 0.0001, "loss": 0.9999, "step": 3747 }, { "epoch": 0.19989333333333334, "grad_norm": 0.026573387539112734, "learning_rate": 0.0001, "loss": 0.9568, "step": 3748 }, { "epoch": 0.19994666666666666, "grad_norm": 0.024893891883652996, "learning_rate": 0.0001, "loss": 1.0125, "step": 3749 }, { "epoch": 0.2, "grad_norm": 0.023737414788091098, "learning_rate": 0.0001, "loss": 1.0078, "step": 3750 }, { "epoch": 1.0000533333333332, "grad_norm": 0.02583156688549282, "learning_rate": 0.0001, "loss": 0.969, "step": 3751 }, { "epoch": 1.0001066666666667, "grad_norm": 0.025767466056066373, "learning_rate": 0.0001, "loss": 0.9517, "step": 3752 }, { "epoch": 1.00016, "grad_norm": 0.023190266713711563, "learning_rate": 0.0001, "loss": 1.0269, "step": 3753 }, { "epoch": 1.0002133333333334, "grad_norm": 0.024068071963363528, "learning_rate": 0.0001, "loss": 0.9344, "step": 3754 }, { "epoch": 1.0002666666666666, "grad_norm": 0.024698629782457838, "learning_rate": 0.0001, "loss": 0.9436, "step": 3755 }, { "epoch": 1.00032, "grad_norm": 0.025675555265607906, "learning_rate": 0.0001, "loss": 1.0053, "step": 3756 }, { "epoch": 1.0003733333333333, "grad_norm": 0.025284813922952305, "learning_rate": 0.0001, "loss": 0.9646, "step": 3757 }, { "epoch": 1.0004266666666666, "grad_norm": 0.026656838635101782, "learning_rate": 0.0001, "loss": 0.989, "step": 3758 }, { "epoch": 1.00048, "grad_norm": 0.024492340764220032, "learning_rate": 0.0001, "loss": 0.9519, "step": 3759 }, { "epoch": 1.0005333333333333, "grad_norm": 0.02732808376026254, "learning_rate": 0.0001, "loss": 1.0382, "step": 3760 }, { "epoch": 1.0005866666666667, "grad_norm": 0.02633970557836499, "learning_rate": 0.0001, "loss": 0.9623, "step": 3761 }, { "epoch": 1.00064, "grad_norm": 0.024122880625484826, "learning_rate": 0.0001, "loss": 1.0633, "step": 3762 }, { "epoch": 1.0006933333333334, "grad_norm": 0.025902440165373398, "learning_rate": 0.0001, "loss": 0.9689, "step": 3763 }, { "epoch": 1.0007466666666667, "grad_norm": 0.024959689762436676, "learning_rate": 0.0001, "loss": 1.0171, "step": 3764 }, { "epoch": 1.0008, "grad_norm": 0.023597387979281032, "learning_rate": 0.0001, "loss": 1.0097, "step": 3765 }, { "epoch": 1.0008533333333334, "grad_norm": 0.024290691876415485, "learning_rate": 0.0001, "loss": 0.9987, "step": 3766 }, { "epoch": 1.0009066666666666, "grad_norm": 0.024424096330799287, "learning_rate": 0.0001, "loss": 1.0003, "step": 3767 }, { "epoch": 1.00096, "grad_norm": 0.024906420192111048, "learning_rate": 0.0001, "loss": 0.9993, "step": 3768 }, { "epoch": 1.0010133333333333, "grad_norm": 0.026737977038396483, "learning_rate": 0.0001, "loss": 0.9776, "step": 3769 }, { "epoch": 1.0010666666666668, "grad_norm": 0.025471343808850327, "learning_rate": 0.0001, "loss": 0.9091, "step": 3770 }, { "epoch": 1.00112, "grad_norm": 0.02422831139123784, "learning_rate": 0.0001, "loss": 0.943, "step": 3771 }, { "epoch": 1.0011733333333332, "grad_norm": 0.026959526279475662, "learning_rate": 0.0001, "loss": 1.017, "step": 3772 }, { "epoch": 1.0012266666666667, "grad_norm": 0.025588070743008312, "learning_rate": 0.0001, "loss": 1.0003, "step": 3773 }, { "epoch": 1.00128, "grad_norm": 0.023180874823010574, "learning_rate": 0.0001, "loss": 1.0122, "step": 3774 }, { "epoch": 1.0013333333333334, "grad_norm": 0.02532615302502994, "learning_rate": 0.0001, "loss": 0.9504, "step": 3775 }, { "epoch": 1.0013866666666666, "grad_norm": 0.024971424816228688, "learning_rate": 0.0001, "loss": 1.0135, "step": 3776 }, { "epoch": 1.00144, "grad_norm": 0.025114845658459596, "learning_rate": 0.0001, "loss": 0.979, "step": 3777 }, { "epoch": 1.0014933333333333, "grad_norm": 0.025751500235605494, "learning_rate": 0.0001, "loss": 1.0207, "step": 3778 }, { "epoch": 1.0015466666666666, "grad_norm": 0.026734131475627965, "learning_rate": 0.0001, "loss": 1.0173, "step": 3779 }, { "epoch": 1.0016, "grad_norm": 0.024870494690413282, "learning_rate": 0.0001, "loss": 0.9592, "step": 3780 }, { "epoch": 1.0016533333333333, "grad_norm": 0.024180328853293184, "learning_rate": 0.0001, "loss": 1.0172, "step": 3781 }, { "epoch": 1.0017066666666667, "grad_norm": 0.025123868598353753, "learning_rate": 0.0001, "loss": 0.9466, "step": 3782 }, { "epoch": 1.00176, "grad_norm": 0.02382614320796107, "learning_rate": 0.0001, "loss": 0.9916, "step": 3783 }, { "epoch": 1.0018133333333332, "grad_norm": 0.027970412257055932, "learning_rate": 0.0001, "loss": 0.9915, "step": 3784 }, { "epoch": 1.0018666666666667, "grad_norm": 0.024919940175561473, "learning_rate": 0.0001, "loss": 1.037, "step": 3785 }, { "epoch": 1.00192, "grad_norm": 0.025921238321606126, "learning_rate": 0.0001, "loss": 0.9393, "step": 3786 }, { "epoch": 1.0019733333333334, "grad_norm": 0.025651710213165885, "learning_rate": 0.0001, "loss": 0.9923, "step": 3787 }, { "epoch": 1.0020266666666666, "grad_norm": 0.026151744066692167, "learning_rate": 0.0001, "loss": 1.007, "step": 3788 }, { "epoch": 1.00208, "grad_norm": 0.028067804418459005, "learning_rate": 0.0001, "loss": 0.9893, "step": 3789 }, { "epoch": 1.0021333333333333, "grad_norm": 0.02383620860440485, "learning_rate": 0.0001, "loss": 0.9311, "step": 3790 }, { "epoch": 1.0021866666666666, "grad_norm": 0.024445530135626326, "learning_rate": 0.0001, "loss": 1.0057, "step": 3791 }, { "epoch": 1.00224, "grad_norm": 0.02787918238493275, "learning_rate": 0.0001, "loss": 1.0022, "step": 3792 }, { "epoch": 1.0022933333333333, "grad_norm": 0.025442137057842738, "learning_rate": 0.0001, "loss": 0.9762, "step": 3793 }, { "epoch": 1.0023466666666667, "grad_norm": 0.024497796956759726, "learning_rate": 0.0001, "loss": 0.9993, "step": 3794 }, { "epoch": 1.0024, "grad_norm": 0.02684164629802733, "learning_rate": 0.0001, "loss": 0.9812, "step": 3795 }, { "epoch": 1.0024533333333334, "grad_norm": 0.026595629506693776, "learning_rate": 0.0001, "loss": 0.9538, "step": 3796 }, { "epoch": 1.0025066666666667, "grad_norm": 0.024263126691609137, "learning_rate": 0.0001, "loss": 0.9972, "step": 3797 }, { "epoch": 1.00256, "grad_norm": 0.024859150556965786, "learning_rate": 0.0001, "loss": 0.9343, "step": 3798 }, { "epoch": 1.0026133333333334, "grad_norm": 0.024944097721154367, "learning_rate": 0.0001, "loss": 1.0017, "step": 3799 }, { "epoch": 1.0026666666666666, "grad_norm": 0.024998940149307168, "learning_rate": 0.0001, "loss": 1.0006, "step": 3800 }, { "epoch": 1.0026666666666666, "eval_accuracy": 0.6157979728513443, "eval_loss": 1.3785719871520996, "eval_runtime": 62.3541, "eval_samples_per_second": 16.037, "eval_steps_per_second": 0.513, "step": 3800 }, { "epoch": 1.00272, "grad_norm": 0.02676081968569236, "learning_rate": 0.0001, "loss": 0.9999, "step": 3801 }, { "epoch": 1.0027733333333333, "grad_norm": 0.02477033221128215, "learning_rate": 0.0001, "loss": 1.0145, "step": 3802 }, { "epoch": 1.0028266666666668, "grad_norm": 0.02541571130122805, "learning_rate": 0.0001, "loss": 0.9741, "step": 3803 }, { "epoch": 1.00288, "grad_norm": 0.024541224579099834, "learning_rate": 0.0001, "loss": 1.0018, "step": 3804 }, { "epoch": 1.0029333333333332, "grad_norm": 0.025648522846961612, "learning_rate": 0.0001, "loss": 1.001, "step": 3805 }, { "epoch": 1.0029866666666667, "grad_norm": 0.023858318524824867, "learning_rate": 0.0001, "loss": 0.9256, "step": 3806 }, { "epoch": 1.00304, "grad_norm": 0.025049654995340273, "learning_rate": 0.0001, "loss": 0.9574, "step": 3807 }, { "epoch": 1.0030933333333334, "grad_norm": 0.024949732571705685, "learning_rate": 0.0001, "loss": 0.9497, "step": 3808 }, { "epoch": 1.0031466666666666, "grad_norm": 0.02564584060086987, "learning_rate": 0.0001, "loss": 0.9263, "step": 3809 }, { "epoch": 1.0032, "grad_norm": 0.026973217919570792, "learning_rate": 0.0001, "loss": 0.9812, "step": 3810 }, { "epoch": 1.0032533333333333, "grad_norm": 0.027077102384985577, "learning_rate": 0.0001, "loss": 1.0009, "step": 3811 }, { "epoch": 1.0033066666666666, "grad_norm": 0.026690750793033714, "learning_rate": 0.0001, "loss": 0.9072, "step": 3812 }, { "epoch": 1.00336, "grad_norm": 0.025856664830476023, "learning_rate": 0.0001, "loss": 0.9952, "step": 3813 }, { "epoch": 1.0034133333333333, "grad_norm": 0.028384591640819024, "learning_rate": 0.0001, "loss": 0.9396, "step": 3814 }, { "epoch": 1.0034666666666667, "grad_norm": 0.027722817047142564, "learning_rate": 0.0001, "loss": 1.0354, "step": 3815 }, { "epoch": 1.00352, "grad_norm": 0.025488262282887, "learning_rate": 0.0001, "loss": 0.9958, "step": 3816 }, { "epoch": 1.0035733333333334, "grad_norm": 0.030019038306814454, "learning_rate": 0.0001, "loss": 1.0126, "step": 3817 }, { "epoch": 1.0036266666666667, "grad_norm": 0.02629645823318278, "learning_rate": 0.0001, "loss": 1.0159, "step": 3818 }, { "epoch": 1.00368, "grad_norm": 0.027243965030957763, "learning_rate": 0.0001, "loss": 0.9749, "step": 3819 }, { "epoch": 1.0037333333333334, "grad_norm": 0.026195299873453207, "learning_rate": 0.0001, "loss": 1.0183, "step": 3820 }, { "epoch": 1.0037866666666666, "grad_norm": 0.026525040834195754, "learning_rate": 0.0001, "loss": 0.9361, "step": 3821 }, { "epoch": 1.00384, "grad_norm": 0.027066842011141658, "learning_rate": 0.0001, "loss": 1.0625, "step": 3822 }, { "epoch": 1.0038933333333333, "grad_norm": 0.02690871906514206, "learning_rate": 0.0001, "loss": 0.9528, "step": 3823 }, { "epoch": 1.0039466666666668, "grad_norm": 0.028042714402612523, "learning_rate": 0.0001, "loss": 0.934, "step": 3824 }, { "epoch": 1.004, "grad_norm": 0.027483002895225952, "learning_rate": 0.0001, "loss": 0.9812, "step": 3825 }, { "epoch": 1.0040533333333332, "grad_norm": 0.02549475557459848, "learning_rate": 0.0001, "loss": 0.9898, "step": 3826 }, { "epoch": 1.0041066666666667, "grad_norm": 0.028867818505548464, "learning_rate": 0.0001, "loss": 0.9787, "step": 3827 }, { "epoch": 1.00416, "grad_norm": 0.027840721097360882, "learning_rate": 0.0001, "loss": 0.9403, "step": 3828 }, { "epoch": 1.0042133333333334, "grad_norm": 0.028739634734158522, "learning_rate": 0.0001, "loss": 1.0051, "step": 3829 }, { "epoch": 1.0042666666666666, "grad_norm": 0.029358516605755804, "learning_rate": 0.0001, "loss": 0.9842, "step": 3830 }, { "epoch": 1.00432, "grad_norm": 0.024433513954576016, "learning_rate": 0.0001, "loss": 1.0085, "step": 3831 }, { "epoch": 1.0043733333333333, "grad_norm": 0.02542992876746367, "learning_rate": 0.0001, "loss": 0.9656, "step": 3832 }, { "epoch": 1.0044266666666666, "grad_norm": 0.027128584019290154, "learning_rate": 0.0001, "loss": 1.0082, "step": 3833 }, { "epoch": 1.00448, "grad_norm": 0.024676446454077985, "learning_rate": 0.0001, "loss": 0.9632, "step": 3834 }, { "epoch": 1.0045333333333333, "grad_norm": 0.028389944773164737, "learning_rate": 0.0001, "loss": 0.9747, "step": 3835 }, { "epoch": 1.0045866666666667, "grad_norm": 0.024912339157538776, "learning_rate": 0.0001, "loss": 1.0229, "step": 3836 }, { "epoch": 1.00464, "grad_norm": 0.026911879634413164, "learning_rate": 0.0001, "loss": 0.941, "step": 3837 }, { "epoch": 1.0046933333333334, "grad_norm": 0.02433614037110017, "learning_rate": 0.0001, "loss": 0.9709, "step": 3838 }, { "epoch": 1.0047466666666667, "grad_norm": 0.02361020269784555, "learning_rate": 0.0001, "loss": 0.9676, "step": 3839 }, { "epoch": 1.0048, "grad_norm": 0.02356740682536174, "learning_rate": 0.0001, "loss": 1.0094, "step": 3840 }, { "epoch": 1.0048533333333334, "grad_norm": 0.023288668709623876, "learning_rate": 0.0001, "loss": 0.9866, "step": 3841 }, { "epoch": 1.0049066666666666, "grad_norm": 0.024066905474937058, "learning_rate": 0.0001, "loss": 0.9972, "step": 3842 }, { "epoch": 1.00496, "grad_norm": 0.024166394354955326, "learning_rate": 0.0001, "loss": 0.99, "step": 3843 }, { "epoch": 1.0050133333333333, "grad_norm": 0.026007638091742613, "learning_rate": 0.0001, "loss": 0.9763, "step": 3844 }, { "epoch": 1.0050666666666668, "grad_norm": 0.02370967808483521, "learning_rate": 0.0001, "loss": 1.0394, "step": 3845 }, { "epoch": 1.00512, "grad_norm": 0.022946534268108297, "learning_rate": 0.0001, "loss": 0.9743, "step": 3846 }, { "epoch": 1.0051733333333333, "grad_norm": 0.024230813296235713, "learning_rate": 0.0001, "loss": 0.9858, "step": 3847 }, { "epoch": 1.0052266666666667, "grad_norm": 0.02492538319142767, "learning_rate": 0.0001, "loss": 0.9663, "step": 3848 }, { "epoch": 1.00528, "grad_norm": 0.024241620251644502, "learning_rate": 0.0001, "loss": 1.0067, "step": 3849 }, { "epoch": 1.0053333333333334, "grad_norm": 0.02819803066565441, "learning_rate": 0.0001, "loss": 0.9244, "step": 3850 }, { "epoch": 1.0053866666666667, "grad_norm": 0.026367339032643284, "learning_rate": 0.0001, "loss": 0.9711, "step": 3851 }, { "epoch": 1.0054400000000001, "grad_norm": 0.026739471013831836, "learning_rate": 0.0001, "loss": 1.0729, "step": 3852 }, { "epoch": 1.0054933333333334, "grad_norm": 0.023863081744223535, "learning_rate": 0.0001, "loss": 0.9784, "step": 3853 }, { "epoch": 1.0055466666666666, "grad_norm": 0.023948223319405243, "learning_rate": 0.0001, "loss": 0.9435, "step": 3854 }, { "epoch": 1.0056, "grad_norm": 0.023754696749724448, "learning_rate": 0.0001, "loss": 0.9964, "step": 3855 }, { "epoch": 1.0056533333333333, "grad_norm": 0.024714904031646112, "learning_rate": 0.0001, "loss": 1.0153, "step": 3856 }, { "epoch": 1.0057066666666667, "grad_norm": 0.02338660274367247, "learning_rate": 0.0001, "loss": 0.9861, "step": 3857 }, { "epoch": 1.00576, "grad_norm": 0.023556395855848792, "learning_rate": 0.0001, "loss": 1.0091, "step": 3858 }, { "epoch": 1.0058133333333332, "grad_norm": 0.025186956686858414, "learning_rate": 0.0001, "loss": 0.9453, "step": 3859 }, { "epoch": 1.0058666666666667, "grad_norm": 0.024518714045880595, "learning_rate": 0.0001, "loss": 1.0089, "step": 3860 }, { "epoch": 1.00592, "grad_norm": 0.02368122266291138, "learning_rate": 0.0001, "loss": 0.9054, "step": 3861 }, { "epoch": 1.0059733333333334, "grad_norm": 0.024944739480370987, "learning_rate": 0.0001, "loss": 1.0076, "step": 3862 }, { "epoch": 1.0060266666666666, "grad_norm": 0.023518169222986534, "learning_rate": 0.0001, "loss": 0.9718, "step": 3863 }, { "epoch": 1.00608, "grad_norm": 0.02517444198431426, "learning_rate": 0.0001, "loss": 0.9772, "step": 3864 }, { "epoch": 1.0061333333333333, "grad_norm": 0.025304002093735657, "learning_rate": 0.0001, "loss": 0.9341, "step": 3865 }, { "epoch": 1.0061866666666666, "grad_norm": 0.023000230861759997, "learning_rate": 0.0001, "loss": 1.0419, "step": 3866 }, { "epoch": 1.00624, "grad_norm": 0.02580258604109287, "learning_rate": 0.0001, "loss": 1.0165, "step": 3867 }, { "epoch": 1.0062933333333333, "grad_norm": 0.02870867445488332, "learning_rate": 0.0001, "loss": 0.9631, "step": 3868 }, { "epoch": 1.0063466666666667, "grad_norm": 0.02313878180800255, "learning_rate": 0.0001, "loss": 0.9551, "step": 3869 }, { "epoch": 1.0064, "grad_norm": 0.02472746442555317, "learning_rate": 0.0001, "loss": 1.041, "step": 3870 }, { "epoch": 1.0064533333333334, "grad_norm": 0.023698142171947, "learning_rate": 0.0001, "loss": 1.0161, "step": 3871 }, { "epoch": 1.0065066666666667, "grad_norm": 0.022870216701590215, "learning_rate": 0.0001, "loss": 1.0082, "step": 3872 }, { "epoch": 1.00656, "grad_norm": 0.02372377929899294, "learning_rate": 0.0001, "loss": 0.9958, "step": 3873 }, { "epoch": 1.0066133333333334, "grad_norm": 0.02408693347142562, "learning_rate": 0.0001, "loss": 1.0086, "step": 3874 }, { "epoch": 1.0066666666666666, "grad_norm": 0.02352546623984074, "learning_rate": 0.0001, "loss": 1.0069, "step": 3875 }, { "epoch": 1.00672, "grad_norm": 0.025157397473635622, "learning_rate": 0.0001, "loss": 0.9531, "step": 3876 }, { "epoch": 1.0067733333333333, "grad_norm": 0.02575128063178392, "learning_rate": 0.0001, "loss": 0.9834, "step": 3877 }, { "epoch": 1.0068266666666668, "grad_norm": 0.025326275022360796, "learning_rate": 0.0001, "loss": 0.9784, "step": 3878 }, { "epoch": 1.00688, "grad_norm": 0.025939841327391758, "learning_rate": 0.0001, "loss": 1.0596, "step": 3879 }, { "epoch": 1.0069333333333332, "grad_norm": 0.02377417489879775, "learning_rate": 0.0001, "loss": 0.9674, "step": 3880 }, { "epoch": 1.0069866666666667, "grad_norm": 0.025410850430155393, "learning_rate": 0.0001, "loss": 1.0393, "step": 3881 }, { "epoch": 1.00704, "grad_norm": 0.024475426964721915, "learning_rate": 0.0001, "loss": 0.9371, "step": 3882 }, { "epoch": 1.0070933333333334, "grad_norm": 0.024786067375904268, "learning_rate": 0.0001, "loss": 0.9718, "step": 3883 }, { "epoch": 1.0071466666666666, "grad_norm": 0.02634910784073417, "learning_rate": 0.0001, "loss": 1.0171, "step": 3884 }, { "epoch": 1.0072, "grad_norm": 0.02492780368449725, "learning_rate": 0.0001, "loss": 0.9597, "step": 3885 }, { "epoch": 1.0072533333333333, "grad_norm": 0.02513263545153101, "learning_rate": 0.0001, "loss": 0.9388, "step": 3886 }, { "epoch": 1.0073066666666666, "grad_norm": 0.02306762440181721, "learning_rate": 0.0001, "loss": 0.9533, "step": 3887 }, { "epoch": 1.00736, "grad_norm": 0.03183415485160566, "learning_rate": 0.0001, "loss": 0.9386, "step": 3888 }, { "epoch": 1.0074133333333333, "grad_norm": 0.024637118161564903, "learning_rate": 0.0001, "loss": 0.9909, "step": 3889 }, { "epoch": 1.0074666666666667, "grad_norm": 0.026275857452338625, "learning_rate": 0.0001, "loss": 0.9637, "step": 3890 }, { "epoch": 1.00752, "grad_norm": 0.024990904414050916, "learning_rate": 0.0001, "loss": 0.9488, "step": 3891 }, { "epoch": 1.0075733333333334, "grad_norm": 0.025281662100547057, "learning_rate": 0.0001, "loss": 1.0322, "step": 3892 }, { "epoch": 1.0076266666666667, "grad_norm": 0.02395083557628087, "learning_rate": 0.0001, "loss": 1.0, "step": 3893 }, { "epoch": 1.00768, "grad_norm": 0.02422446580071551, "learning_rate": 0.0001, "loss": 1.0211, "step": 3894 }, { "epoch": 1.0077333333333334, "grad_norm": 0.024066486254591603, "learning_rate": 0.0001, "loss": 1.0202, "step": 3895 }, { "epoch": 1.0077866666666666, "grad_norm": 0.024478756761334316, "learning_rate": 0.0001, "loss": 0.9626, "step": 3896 }, { "epoch": 1.00784, "grad_norm": 0.02492771068975414, "learning_rate": 0.0001, "loss": 0.9958, "step": 3897 }, { "epoch": 1.0078933333333333, "grad_norm": 0.02316381871817615, "learning_rate": 0.0001, "loss": 1.0165, "step": 3898 }, { "epoch": 1.0079466666666668, "grad_norm": 0.024045023185481573, "learning_rate": 0.0001, "loss": 1.0058, "step": 3899 }, { "epoch": 1.008, "grad_norm": 0.024201023608132647, "learning_rate": 0.0001, "loss": 0.9634, "step": 3900 }, { "epoch": 1.0080533333333332, "grad_norm": 0.02519619252479933, "learning_rate": 0.0001, "loss": 0.9832, "step": 3901 }, { "epoch": 1.0081066666666667, "grad_norm": 0.024983110720075363, "learning_rate": 0.0001, "loss": 0.9675, "step": 3902 }, { "epoch": 1.00816, "grad_norm": 0.025996222696692026, "learning_rate": 0.0001, "loss": 0.9623, "step": 3903 }, { "epoch": 1.0082133333333334, "grad_norm": 0.02415428830548552, "learning_rate": 0.0001, "loss": 0.9319, "step": 3904 }, { "epoch": 1.0082666666666666, "grad_norm": 0.025816059098976184, "learning_rate": 0.0001, "loss": 1.0152, "step": 3905 }, { "epoch": 1.00832, "grad_norm": 0.02460610825175619, "learning_rate": 0.0001, "loss": 1.0121, "step": 3906 }, { "epoch": 1.0083733333333333, "grad_norm": 0.024922569865508743, "learning_rate": 0.0001, "loss": 1.0155, "step": 3907 }, { "epoch": 1.0084266666666666, "grad_norm": 0.02385833601886371, "learning_rate": 0.0001, "loss": 1.0157, "step": 3908 }, { "epoch": 1.00848, "grad_norm": 0.028487739023755433, "learning_rate": 0.0001, "loss": 0.9686, "step": 3909 }, { "epoch": 1.0085333333333333, "grad_norm": 0.024221722699809912, "learning_rate": 0.0001, "loss": 0.9544, "step": 3910 }, { "epoch": 1.0085866666666667, "grad_norm": 0.02412116896201808, "learning_rate": 0.0001, "loss": 0.9866, "step": 3911 }, { "epoch": 1.00864, "grad_norm": 0.023853438086638173, "learning_rate": 0.0001, "loss": 1.0404, "step": 3912 }, { "epoch": 1.0086933333333334, "grad_norm": 0.025379814422142766, "learning_rate": 0.0001, "loss": 1.0142, "step": 3913 }, { "epoch": 1.0087466666666667, "grad_norm": 0.02584030350418239, "learning_rate": 0.0001, "loss": 0.9854, "step": 3914 }, { "epoch": 1.0088, "grad_norm": 0.02573667152334552, "learning_rate": 0.0001, "loss": 0.9684, "step": 3915 }, { "epoch": 1.0088533333333334, "grad_norm": 0.023662823012658922, "learning_rate": 0.0001, "loss": 0.9751, "step": 3916 }, { "epoch": 1.0089066666666666, "grad_norm": 0.02310282829034401, "learning_rate": 0.0001, "loss": 0.9236, "step": 3917 }, { "epoch": 1.00896, "grad_norm": 0.02397406133501, "learning_rate": 0.0001, "loss": 0.9716, "step": 3918 }, { "epoch": 1.0090133333333333, "grad_norm": 0.02685420607446201, "learning_rate": 0.0001, "loss": 0.9712, "step": 3919 }, { "epoch": 1.0090666666666666, "grad_norm": 0.02429517539211287, "learning_rate": 0.0001, "loss": 0.9978, "step": 3920 }, { "epoch": 1.00912, "grad_norm": 0.02397681407753184, "learning_rate": 0.0001, "loss": 0.9789, "step": 3921 }, { "epoch": 1.0091733333333333, "grad_norm": 0.025469894167383652, "learning_rate": 0.0001, "loss": 1.0403, "step": 3922 }, { "epoch": 1.0092266666666667, "grad_norm": 0.024472834585150597, "learning_rate": 0.0001, "loss": 1.0312, "step": 3923 }, { "epoch": 1.00928, "grad_norm": 0.025758701520334885, "learning_rate": 0.0001, "loss": 1.0013, "step": 3924 }, { "epoch": 1.0093333333333334, "grad_norm": 0.02686868870186343, "learning_rate": 0.0001, "loss": 0.9843, "step": 3925 }, { "epoch": 1.0093866666666667, "grad_norm": 0.027070017538439996, "learning_rate": 0.0001, "loss": 0.9323, "step": 3926 }, { "epoch": 1.00944, "grad_norm": 0.02627622425993862, "learning_rate": 0.0001, "loss": 1.0077, "step": 3927 }, { "epoch": 1.0094933333333334, "grad_norm": 0.026679032660493252, "learning_rate": 0.0001, "loss": 1.0319, "step": 3928 }, { "epoch": 1.0095466666666666, "grad_norm": 0.02378349567813148, "learning_rate": 0.0001, "loss": 1.025, "step": 3929 }, { "epoch": 1.0096, "grad_norm": 0.029272395542631825, "learning_rate": 0.0001, "loss": 0.922, "step": 3930 }, { "epoch": 1.0096533333333333, "grad_norm": 0.025007187701308414, "learning_rate": 0.0001, "loss": 1.0122, "step": 3931 }, { "epoch": 1.0097066666666668, "grad_norm": 0.02566341332410845, "learning_rate": 0.0001, "loss": 0.9675, "step": 3932 }, { "epoch": 1.00976, "grad_norm": 0.02359052261343419, "learning_rate": 0.0001, "loss": 1.049, "step": 3933 }, { "epoch": 1.0098133333333332, "grad_norm": 0.024915786571942964, "learning_rate": 0.0001, "loss": 1.0307, "step": 3934 }, { "epoch": 1.0098666666666667, "grad_norm": 0.023903042905324617, "learning_rate": 0.0001, "loss": 0.9947, "step": 3935 }, { "epoch": 1.00992, "grad_norm": 0.02532916927496072, "learning_rate": 0.0001, "loss": 0.9717, "step": 3936 }, { "epoch": 1.0099733333333334, "grad_norm": 0.024214396435361586, "learning_rate": 0.0001, "loss": 0.9991, "step": 3937 }, { "epoch": 1.0100266666666666, "grad_norm": 0.02473817481196218, "learning_rate": 0.0001, "loss": 0.9798, "step": 3938 }, { "epoch": 1.01008, "grad_norm": 0.027558083922269924, "learning_rate": 0.0001, "loss": 0.963, "step": 3939 }, { "epoch": 1.0101333333333333, "grad_norm": 0.026634231032450318, "learning_rate": 0.0001, "loss": 1.0061, "step": 3940 }, { "epoch": 1.0101866666666666, "grad_norm": 0.025605328208565297, "learning_rate": 0.0001, "loss": 1.0273, "step": 3941 }, { "epoch": 1.01024, "grad_norm": 0.024913270335292004, "learning_rate": 0.0001, "loss": 0.9813, "step": 3942 }, { "epoch": 1.0102933333333333, "grad_norm": 0.027137800430893772, "learning_rate": 0.0001, "loss": 0.9418, "step": 3943 }, { "epoch": 1.0103466666666667, "grad_norm": 0.022508277294662083, "learning_rate": 0.0001, "loss": 0.947, "step": 3944 }, { "epoch": 1.0104, "grad_norm": 0.026156829849488854, "learning_rate": 0.0001, "loss": 1.0003, "step": 3945 }, { "epoch": 1.0104533333333334, "grad_norm": 0.024856597141466527, "learning_rate": 0.0001, "loss": 0.9806, "step": 3946 }, { "epoch": 1.0105066666666667, "grad_norm": 0.02587737558736356, "learning_rate": 0.0001, "loss": 1.0069, "step": 3947 }, { "epoch": 1.01056, "grad_norm": 0.025866966914672312, "learning_rate": 0.0001, "loss": 1.002, "step": 3948 }, { "epoch": 1.0106133333333334, "grad_norm": 0.02578345355089943, "learning_rate": 0.0001, "loss": 0.9885, "step": 3949 }, { "epoch": 1.0106666666666666, "grad_norm": 0.024272730842819067, "learning_rate": 0.0001, "loss": 0.9969, "step": 3950 }, { "epoch": 1.01072, "grad_norm": 0.02454699127260331, "learning_rate": 0.0001, "loss": 0.9871, "step": 3951 }, { "epoch": 1.0107733333333333, "grad_norm": 0.025084289388201862, "learning_rate": 0.0001, "loss": 0.9932, "step": 3952 }, { "epoch": 1.0108266666666668, "grad_norm": 0.025110014537504905, "learning_rate": 0.0001, "loss": 1.0286, "step": 3953 }, { "epoch": 1.01088, "grad_norm": 0.025461352803916277, "learning_rate": 0.0001, "loss": 0.8733, "step": 3954 }, { "epoch": 1.0109333333333332, "grad_norm": 0.025551794767601287, "learning_rate": 0.0001, "loss": 0.9828, "step": 3955 }, { "epoch": 1.0109866666666667, "grad_norm": 0.02453816479545975, "learning_rate": 0.0001, "loss": 0.9339, "step": 3956 }, { "epoch": 1.01104, "grad_norm": 0.024866890430422138, "learning_rate": 0.0001, "loss": 0.984, "step": 3957 }, { "epoch": 1.0110933333333334, "grad_norm": 0.024973532375632223, "learning_rate": 0.0001, "loss": 0.9579, "step": 3958 }, { "epoch": 1.0111466666666666, "grad_norm": 0.02431623027174192, "learning_rate": 0.0001, "loss": 0.9753, "step": 3959 }, { "epoch": 1.0112, "grad_norm": 0.025963366166829958, "learning_rate": 0.0001, "loss": 1.018, "step": 3960 }, { "epoch": 1.0112533333333333, "grad_norm": 0.024512873443969338, "learning_rate": 0.0001, "loss": 0.9495, "step": 3961 }, { "epoch": 1.0113066666666666, "grad_norm": 0.024690236963096312, "learning_rate": 0.0001, "loss": 1.0138, "step": 3962 }, { "epoch": 1.01136, "grad_norm": 0.026952975233490533, "learning_rate": 0.0001, "loss": 0.9717, "step": 3963 }, { "epoch": 1.0114133333333333, "grad_norm": 0.025970917220198307, "learning_rate": 0.0001, "loss": 1.0182, "step": 3964 }, { "epoch": 1.0114666666666667, "grad_norm": 0.028044438358287054, "learning_rate": 0.0001, "loss": 0.942, "step": 3965 }, { "epoch": 1.01152, "grad_norm": 0.024586269578215227, "learning_rate": 0.0001, "loss": 1.0192, "step": 3966 }, { "epoch": 1.0115733333333334, "grad_norm": 0.024749090695704298, "learning_rate": 0.0001, "loss": 1.0176, "step": 3967 }, { "epoch": 1.0116266666666667, "grad_norm": 0.024798089095539357, "learning_rate": 0.0001, "loss": 0.9343, "step": 3968 }, { "epoch": 1.01168, "grad_norm": 0.02241221459139068, "learning_rate": 0.0001, "loss": 0.9105, "step": 3969 }, { "epoch": 1.0117333333333334, "grad_norm": 0.0254296600033354, "learning_rate": 0.0001, "loss": 0.9817, "step": 3970 }, { "epoch": 1.0117866666666666, "grad_norm": 0.0254723803964814, "learning_rate": 0.0001, "loss": 0.983, "step": 3971 }, { "epoch": 1.01184, "grad_norm": 0.025381602148877195, "learning_rate": 0.0001, "loss": 0.9237, "step": 3972 }, { "epoch": 1.0118933333333333, "grad_norm": 0.023837126630587492, "learning_rate": 0.0001, "loss": 0.9348, "step": 3973 }, { "epoch": 1.0119466666666668, "grad_norm": 0.024620497736742967, "learning_rate": 0.0001, "loss": 0.983, "step": 3974 }, { "epoch": 1.012, "grad_norm": 0.02473227159088827, "learning_rate": 0.0001, "loss": 0.957, "step": 3975 }, { "epoch": 1.0120533333333332, "grad_norm": 0.02517371402328296, "learning_rate": 0.0001, "loss": 0.9337, "step": 3976 }, { "epoch": 1.0121066666666667, "grad_norm": 0.02455988206688856, "learning_rate": 0.0001, "loss": 0.9646, "step": 3977 }, { "epoch": 1.01216, "grad_norm": 0.02457190786840691, "learning_rate": 0.0001, "loss": 0.9357, "step": 3978 }, { "epoch": 1.0122133333333334, "grad_norm": 0.024610392641510402, "learning_rate": 0.0001, "loss": 0.9939, "step": 3979 }, { "epoch": 1.0122666666666666, "grad_norm": 0.02498208024904959, "learning_rate": 0.0001, "loss": 1.0262, "step": 3980 }, { "epoch": 1.01232, "grad_norm": 0.023628188763282973, "learning_rate": 0.0001, "loss": 0.9663, "step": 3981 }, { "epoch": 1.0123733333333333, "grad_norm": 0.027172493495719062, "learning_rate": 0.0001, "loss": 0.9941, "step": 3982 }, { "epoch": 1.0124266666666666, "grad_norm": 0.024535346568434632, "learning_rate": 0.0001, "loss": 0.9499, "step": 3983 }, { "epoch": 1.01248, "grad_norm": 0.02555108171437443, "learning_rate": 0.0001, "loss": 0.9294, "step": 3984 }, { "epoch": 1.0125333333333333, "grad_norm": 0.025212243792050403, "learning_rate": 0.0001, "loss": 0.9603, "step": 3985 }, { "epoch": 1.0125866666666667, "grad_norm": 0.02779406650842899, "learning_rate": 0.0001, "loss": 1.0161, "step": 3986 }, { "epoch": 1.01264, "grad_norm": 0.025746386753390013, "learning_rate": 0.0001, "loss": 1.0195, "step": 3987 }, { "epoch": 1.0126933333333332, "grad_norm": 0.02383907129600073, "learning_rate": 0.0001, "loss": 0.9765, "step": 3988 }, { "epoch": 1.0127466666666667, "grad_norm": 0.02493137688748293, "learning_rate": 0.0001, "loss": 1.0231, "step": 3989 }, { "epoch": 1.0128, "grad_norm": 0.024319146593413474, "learning_rate": 0.0001, "loss": 1.0322, "step": 3990 }, { "epoch": 1.0128533333333334, "grad_norm": 0.02377903980775023, "learning_rate": 0.0001, "loss": 1.0029, "step": 3991 }, { "epoch": 1.0129066666666666, "grad_norm": 0.023545792662725357, "learning_rate": 0.0001, "loss": 1.0181, "step": 3992 }, { "epoch": 1.01296, "grad_norm": 0.023825684225529657, "learning_rate": 0.0001, "loss": 1.0028, "step": 3993 }, { "epoch": 1.0130133333333333, "grad_norm": 0.025730787037393635, "learning_rate": 0.0001, "loss": 0.9858, "step": 3994 }, { "epoch": 1.0130666666666666, "grad_norm": 0.022567936666779954, "learning_rate": 0.0001, "loss": 0.9804, "step": 3995 }, { "epoch": 1.01312, "grad_norm": 0.024661724532625325, "learning_rate": 0.0001, "loss": 0.9422, "step": 3996 }, { "epoch": 1.0131733333333333, "grad_norm": 0.027402951746011203, "learning_rate": 0.0001, "loss": 0.924, "step": 3997 }, { "epoch": 1.0132266666666667, "grad_norm": 0.02300211429546036, "learning_rate": 0.0001, "loss": 0.949, "step": 3998 }, { "epoch": 1.01328, "grad_norm": 0.02459167375639152, "learning_rate": 0.0001, "loss": 0.9511, "step": 3999 }, { "epoch": 1.0133333333333334, "grad_norm": 0.025300118203461036, "learning_rate": 0.0001, "loss": 1.0238, "step": 4000 }, { "epoch": 1.0133333333333334, "eval_accuracy": 0.6161377233270118, "eval_loss": 1.3768357038497925, "eval_runtime": 62.9053, "eval_samples_per_second": 15.897, "eval_steps_per_second": 0.509, "step": 4000 }, { "epoch": 1.0133866666666667, "grad_norm": 0.024401736334903317, "learning_rate": 0.0001, "loss": 0.9818, "step": 4001 }, { "epoch": 1.01344, "grad_norm": 0.023402635337184424, "learning_rate": 0.0001, "loss": 0.9708, "step": 4002 }, { "epoch": 1.0134933333333334, "grad_norm": 0.02497774166628667, "learning_rate": 0.0001, "loss": 0.9473, "step": 4003 }, { "epoch": 1.0135466666666666, "grad_norm": 0.02419492904661464, "learning_rate": 0.0001, "loss": 1.0225, "step": 4004 }, { "epoch": 1.0136, "grad_norm": 0.02299012056879063, "learning_rate": 0.0001, "loss": 1.0157, "step": 4005 }, { "epoch": 1.0136533333333333, "grad_norm": 0.026349668112276726, "learning_rate": 0.0001, "loss": 1.0222, "step": 4006 }, { "epoch": 1.0137066666666668, "grad_norm": 0.024598253297648823, "learning_rate": 0.0001, "loss": 1.0073, "step": 4007 }, { "epoch": 1.01376, "grad_norm": 0.023309102052932056, "learning_rate": 0.0001, "loss": 0.9801, "step": 4008 }, { "epoch": 1.0138133333333332, "grad_norm": 0.02424135192534958, "learning_rate": 0.0001, "loss": 0.9553, "step": 4009 }, { "epoch": 1.0138666666666667, "grad_norm": 0.025371776868437983, "learning_rate": 0.0001, "loss": 0.9693, "step": 4010 }, { "epoch": 1.01392, "grad_norm": 0.024813713429698656, "learning_rate": 0.0001, "loss": 0.9857, "step": 4011 }, { "epoch": 1.0139733333333334, "grad_norm": 0.025245780676116235, "learning_rate": 0.0001, "loss": 0.9853, "step": 4012 }, { "epoch": 1.0140266666666666, "grad_norm": 0.024615087755400396, "learning_rate": 0.0001, "loss": 0.9747, "step": 4013 }, { "epoch": 1.01408, "grad_norm": 0.026190527911027765, "learning_rate": 0.0001, "loss": 0.9785, "step": 4014 }, { "epoch": 1.0141333333333333, "grad_norm": 0.024047436758947036, "learning_rate": 0.0001, "loss": 0.9604, "step": 4015 }, { "epoch": 1.0141866666666666, "grad_norm": 0.025549809797534087, "learning_rate": 0.0001, "loss": 0.89, "step": 4016 }, { "epoch": 1.01424, "grad_norm": 0.02406558530305454, "learning_rate": 0.0001, "loss": 0.9834, "step": 4017 }, { "epoch": 1.0142933333333333, "grad_norm": 0.024026534000748667, "learning_rate": 0.0001, "loss": 0.9999, "step": 4018 }, { "epoch": 1.0143466666666667, "grad_norm": 0.024051943080777256, "learning_rate": 0.0001, "loss": 0.9655, "step": 4019 }, { "epoch": 1.0144, "grad_norm": 0.024397535425769865, "learning_rate": 0.0001, "loss": 1.0189, "step": 4020 }, { "epoch": 1.0144533333333334, "grad_norm": 0.025146324396967155, "learning_rate": 0.0001, "loss": 0.9533, "step": 4021 }, { "epoch": 1.0145066666666667, "grad_norm": 0.02591941322480823, "learning_rate": 0.0001, "loss": 1.0114, "step": 4022 }, { "epoch": 1.01456, "grad_norm": 0.024450737815708903, "learning_rate": 0.0001, "loss": 0.9919, "step": 4023 }, { "epoch": 1.0146133333333334, "grad_norm": 0.024729552651682703, "learning_rate": 0.0001, "loss": 0.9886, "step": 4024 }, { "epoch": 1.0146666666666666, "grad_norm": 0.02429522960476348, "learning_rate": 0.0001, "loss": 1.0018, "step": 4025 }, { "epoch": 1.01472, "grad_norm": 0.02403209266263719, "learning_rate": 0.0001, "loss": 0.9514, "step": 4026 }, { "epoch": 1.0147733333333333, "grad_norm": 0.02691841914983897, "learning_rate": 0.0001, "loss": 1.0073, "step": 4027 }, { "epoch": 1.0148266666666668, "grad_norm": 0.023168551860072908, "learning_rate": 0.0001, "loss": 0.9494, "step": 4028 }, { "epoch": 1.01488, "grad_norm": 0.02401694891768317, "learning_rate": 0.0001, "loss": 1.0635, "step": 4029 }, { "epoch": 1.0149333333333332, "grad_norm": 0.027310443599578148, "learning_rate": 0.0001, "loss": 1.0053, "step": 4030 }, { "epoch": 1.0149866666666667, "grad_norm": 0.02303301050801776, "learning_rate": 0.0001, "loss": 1.016, "step": 4031 }, { "epoch": 1.01504, "grad_norm": 0.026779989522999547, "learning_rate": 0.0001, "loss": 1.0298, "step": 4032 }, { "epoch": 1.0150933333333334, "grad_norm": 0.02504550359186479, "learning_rate": 0.0001, "loss": 1.0015, "step": 4033 }, { "epoch": 1.0151466666666666, "grad_norm": 0.023393612089213586, "learning_rate": 0.0001, "loss": 0.9489, "step": 4034 }, { "epoch": 1.0152, "grad_norm": 0.024182630595674392, "learning_rate": 0.0001, "loss": 0.9895, "step": 4035 }, { "epoch": 1.0152533333333333, "grad_norm": 0.024542390551731717, "learning_rate": 0.0001, "loss": 1.0128, "step": 4036 }, { "epoch": 1.0153066666666666, "grad_norm": 0.023969144773092012, "learning_rate": 0.0001, "loss": 0.966, "step": 4037 }, { "epoch": 1.01536, "grad_norm": 0.02291007402333025, "learning_rate": 0.0001, "loss": 0.9198, "step": 4038 }, { "epoch": 1.0154133333333333, "grad_norm": 0.025245568094686928, "learning_rate": 0.0001, "loss": 0.9658, "step": 4039 }, { "epoch": 1.0154666666666667, "grad_norm": 0.024970843564914694, "learning_rate": 0.0001, "loss": 1.0622, "step": 4040 }, { "epoch": 1.01552, "grad_norm": 0.023429104818229865, "learning_rate": 0.0001, "loss": 0.9832, "step": 4041 }, { "epoch": 1.0155733333333334, "grad_norm": 0.02434959741679764, "learning_rate": 0.0001, "loss": 0.9836, "step": 4042 }, { "epoch": 1.0156266666666667, "grad_norm": 0.02375572110687424, "learning_rate": 0.0001, "loss": 1.0189, "step": 4043 }, { "epoch": 1.01568, "grad_norm": 0.026574508512991344, "learning_rate": 0.0001, "loss": 0.9504, "step": 4044 }, { "epoch": 1.0157333333333334, "grad_norm": 0.024431818279765077, "learning_rate": 0.0001, "loss": 0.9453, "step": 4045 }, { "epoch": 1.0157866666666666, "grad_norm": 0.023777427544750915, "learning_rate": 0.0001, "loss": 0.9832, "step": 4046 }, { "epoch": 1.01584, "grad_norm": 0.025062910784340715, "learning_rate": 0.0001, "loss": 0.9962, "step": 4047 }, { "epoch": 1.0158933333333333, "grad_norm": 0.023794493320734536, "learning_rate": 0.0001, "loss": 0.9746, "step": 4048 }, { "epoch": 1.0159466666666668, "grad_norm": 0.024085905171688026, "learning_rate": 0.0001, "loss": 0.9894, "step": 4049 }, { "epoch": 1.016, "grad_norm": 0.024223923209526387, "learning_rate": 0.0001, "loss": 1.033, "step": 4050 }, { "epoch": 1.0160533333333333, "grad_norm": 0.025194317917699497, "learning_rate": 0.0001, "loss": 0.9578, "step": 4051 }, { "epoch": 1.0161066666666667, "grad_norm": 0.024968025709456148, "learning_rate": 0.0001, "loss": 0.9592, "step": 4052 }, { "epoch": 1.01616, "grad_norm": 0.024216756749862272, "learning_rate": 0.0001, "loss": 0.9876, "step": 4053 }, { "epoch": 1.0162133333333334, "grad_norm": 0.024117816729277014, "learning_rate": 0.0001, "loss": 0.9617, "step": 4054 }, { "epoch": 1.0162666666666667, "grad_norm": 0.025676151494944354, "learning_rate": 0.0001, "loss": 0.9961, "step": 4055 }, { "epoch": 1.01632, "grad_norm": 0.024080141217131198, "learning_rate": 0.0001, "loss": 1.0059, "step": 4056 }, { "epoch": 1.0163733333333334, "grad_norm": 0.024149229752895424, "learning_rate": 0.0001, "loss": 1.0015, "step": 4057 }, { "epoch": 1.0164266666666666, "grad_norm": 0.023416754536336102, "learning_rate": 0.0001, "loss": 1.0077, "step": 4058 }, { "epoch": 1.01648, "grad_norm": 0.023816267182400135, "learning_rate": 0.0001, "loss": 0.9323, "step": 4059 }, { "epoch": 1.0165333333333333, "grad_norm": 0.025524821110679243, "learning_rate": 0.0001, "loss": 0.9075, "step": 4060 }, { "epoch": 1.0165866666666667, "grad_norm": 0.024900996036066107, "learning_rate": 0.0001, "loss": 0.9891, "step": 4061 }, { "epoch": 1.01664, "grad_norm": 0.022898840636870473, "learning_rate": 0.0001, "loss": 0.9297, "step": 4062 }, { "epoch": 1.0166933333333332, "grad_norm": 0.02390264006647945, "learning_rate": 0.0001, "loss": 0.9756, "step": 4063 }, { "epoch": 1.0167466666666667, "grad_norm": 0.02692670940626363, "learning_rate": 0.0001, "loss": 0.9812, "step": 4064 }, { "epoch": 1.0168, "grad_norm": 0.02417870633043578, "learning_rate": 0.0001, "loss": 0.9865, "step": 4065 }, { "epoch": 1.0168533333333334, "grad_norm": 0.022452071696152848, "learning_rate": 0.0001, "loss": 0.9392, "step": 4066 }, { "epoch": 1.0169066666666666, "grad_norm": 0.027166134747440597, "learning_rate": 0.0001, "loss": 0.9958, "step": 4067 }, { "epoch": 1.01696, "grad_norm": 0.024389623165115743, "learning_rate": 0.0001, "loss": 0.9829, "step": 4068 }, { "epoch": 1.0170133333333333, "grad_norm": 0.027244323896705912, "learning_rate": 0.0001, "loss": 1.0196, "step": 4069 }, { "epoch": 1.0170666666666666, "grad_norm": 0.024583748425092932, "learning_rate": 0.0001, "loss": 0.9998, "step": 4070 }, { "epoch": 1.01712, "grad_norm": 0.027111702844846472, "learning_rate": 0.0001, "loss": 0.9265, "step": 4071 }, { "epoch": 1.0171733333333333, "grad_norm": 0.025525220157123316, "learning_rate": 0.0001, "loss": 0.99, "step": 4072 }, { "epoch": 1.0172266666666667, "grad_norm": 0.02443430865262133, "learning_rate": 0.0001, "loss": 0.9893, "step": 4073 }, { "epoch": 1.01728, "grad_norm": 0.02589414859861792, "learning_rate": 0.0001, "loss": 0.9881, "step": 4074 }, { "epoch": 1.0173333333333334, "grad_norm": 0.027781153821673298, "learning_rate": 0.0001, "loss": 0.9605, "step": 4075 }, { "epoch": 1.0173866666666667, "grad_norm": 0.024385649993450255, "learning_rate": 0.0001, "loss": 1.0133, "step": 4076 }, { "epoch": 1.01744, "grad_norm": 0.025145601432764404, "learning_rate": 0.0001, "loss": 0.9726, "step": 4077 }, { "epoch": 1.0174933333333334, "grad_norm": 0.023627818063698913, "learning_rate": 0.0001, "loss": 1.0298, "step": 4078 }, { "epoch": 1.0175466666666666, "grad_norm": 0.025863232127185786, "learning_rate": 0.0001, "loss": 0.9883, "step": 4079 }, { "epoch": 1.0176, "grad_norm": 0.02415786960376307, "learning_rate": 0.0001, "loss": 1.027, "step": 4080 }, { "epoch": 1.0176533333333333, "grad_norm": 0.022401420445532387, "learning_rate": 0.0001, "loss": 0.9905, "step": 4081 }, { "epoch": 1.0177066666666668, "grad_norm": 0.023892468048364507, "learning_rate": 0.0001, "loss": 1.0035, "step": 4082 }, { "epoch": 1.01776, "grad_norm": 0.024805797385968723, "learning_rate": 0.0001, "loss": 0.9902, "step": 4083 }, { "epoch": 1.0178133333333332, "grad_norm": 0.02529069363410495, "learning_rate": 0.0001, "loss": 0.9747, "step": 4084 }, { "epoch": 1.0178666666666667, "grad_norm": 0.0266347508649238, "learning_rate": 0.0001, "loss": 1.0264, "step": 4085 }, { "epoch": 1.01792, "grad_norm": 0.025288145408278596, "learning_rate": 0.0001, "loss": 0.9943, "step": 4086 }, { "epoch": 1.0179733333333334, "grad_norm": 0.027402681329733586, "learning_rate": 0.0001, "loss": 0.9726, "step": 4087 }, { "epoch": 1.0180266666666666, "grad_norm": 0.024045769225857952, "learning_rate": 0.0001, "loss": 1.0117, "step": 4088 }, { "epoch": 1.01808, "grad_norm": 0.02728435886219315, "learning_rate": 0.0001, "loss": 1.0374, "step": 4089 }, { "epoch": 1.0181333333333333, "grad_norm": 0.02424342889023854, "learning_rate": 0.0001, "loss": 0.9581, "step": 4090 }, { "epoch": 1.0181866666666666, "grad_norm": 0.02425626815271567, "learning_rate": 0.0001, "loss": 0.9588, "step": 4091 }, { "epoch": 1.01824, "grad_norm": 0.026728037033616505, "learning_rate": 0.0001, "loss": 1.0259, "step": 4092 }, { "epoch": 1.0182933333333333, "grad_norm": 0.02572072699101144, "learning_rate": 0.0001, "loss": 1.0143, "step": 4093 }, { "epoch": 1.0183466666666667, "grad_norm": 0.026001246581351466, "learning_rate": 0.0001, "loss": 1.0004, "step": 4094 }, { "epoch": 1.0184, "grad_norm": 0.02415717685516126, "learning_rate": 0.0001, "loss": 1.059, "step": 4095 }, { "epoch": 1.0184533333333334, "grad_norm": 0.025311895054499572, "learning_rate": 0.0001, "loss": 1.0487, "step": 4096 }, { "epoch": 1.0185066666666667, "grad_norm": 0.028551152825276697, "learning_rate": 0.0001, "loss": 0.9838, "step": 4097 }, { "epoch": 1.01856, "grad_norm": 0.023966585706657082, "learning_rate": 0.0001, "loss": 0.9953, "step": 4098 }, { "epoch": 1.0186133333333334, "grad_norm": 0.02747707946971332, "learning_rate": 0.0001, "loss": 0.9968, "step": 4099 }, { "epoch": 1.0186666666666666, "grad_norm": 0.02666619967922408, "learning_rate": 0.0001, "loss": 0.9271, "step": 4100 }, { "epoch": 1.01872, "grad_norm": 0.02493553000123412, "learning_rate": 0.0001, "loss": 0.975, "step": 4101 }, { "epoch": 1.0187733333333333, "grad_norm": 0.025303131629016814, "learning_rate": 0.0001, "loss": 1.0137, "step": 4102 }, { "epoch": 1.0188266666666668, "grad_norm": 0.02336137932285871, "learning_rate": 0.0001, "loss": 0.9564, "step": 4103 }, { "epoch": 1.01888, "grad_norm": 0.024758310752105085, "learning_rate": 0.0001, "loss": 0.9517, "step": 4104 }, { "epoch": 1.0189333333333332, "grad_norm": 0.023055098682861964, "learning_rate": 0.0001, "loss": 0.9556, "step": 4105 }, { "epoch": 1.0189866666666667, "grad_norm": 0.024169489796884106, "learning_rate": 0.0001, "loss": 0.9978, "step": 4106 }, { "epoch": 1.01904, "grad_norm": 0.023721781034357355, "learning_rate": 0.0001, "loss": 0.9731, "step": 4107 }, { "epoch": 1.0190933333333334, "grad_norm": 0.022618999494931243, "learning_rate": 0.0001, "loss": 1.0247, "step": 4108 }, { "epoch": 1.0191466666666666, "grad_norm": 0.022910364900022497, "learning_rate": 0.0001, "loss": 1.0294, "step": 4109 }, { "epoch": 1.0192, "grad_norm": 0.023620911972919097, "learning_rate": 0.0001, "loss": 1.0164, "step": 4110 }, { "epoch": 1.0192533333333333, "grad_norm": 0.024055717715391535, "learning_rate": 0.0001, "loss": 0.9387, "step": 4111 }, { "epoch": 1.0193066666666666, "grad_norm": 0.02370950132239785, "learning_rate": 0.0001, "loss": 0.957, "step": 4112 }, { "epoch": 1.01936, "grad_norm": 0.024351229965112582, "learning_rate": 0.0001, "loss": 1.0425, "step": 4113 }, { "epoch": 1.0194133333333333, "grad_norm": 0.02450065003645881, "learning_rate": 0.0001, "loss": 0.9259, "step": 4114 }, { "epoch": 1.0194666666666667, "grad_norm": 0.024324340524869238, "learning_rate": 0.0001, "loss": 0.9462, "step": 4115 }, { "epoch": 1.01952, "grad_norm": 0.026641537297933622, "learning_rate": 0.0001, "loss": 1.0397, "step": 4116 }, { "epoch": 1.0195733333333334, "grad_norm": 0.025506364472169096, "learning_rate": 0.0001, "loss": 0.9699, "step": 4117 }, { "epoch": 1.0196266666666667, "grad_norm": 0.024630710957555407, "learning_rate": 0.0001, "loss": 1.0045, "step": 4118 }, { "epoch": 1.01968, "grad_norm": 0.025051292008608856, "learning_rate": 0.0001, "loss": 0.9806, "step": 4119 }, { "epoch": 1.0197333333333334, "grad_norm": 0.025467829572196843, "learning_rate": 0.0001, "loss": 0.9074, "step": 4120 }, { "epoch": 1.0197866666666666, "grad_norm": 0.02743346218508081, "learning_rate": 0.0001, "loss": 1.0279, "step": 4121 }, { "epoch": 1.01984, "grad_norm": 0.02601745208831305, "learning_rate": 0.0001, "loss": 0.9906, "step": 4122 }, { "epoch": 1.0198933333333333, "grad_norm": 0.02903390203321502, "learning_rate": 0.0001, "loss": 1.0284, "step": 4123 }, { "epoch": 1.0199466666666668, "grad_norm": 0.025683327480831745, "learning_rate": 0.0001, "loss": 0.9778, "step": 4124 }, { "epoch": 1.02, "grad_norm": 0.025153452159095372, "learning_rate": 0.0001, "loss": 1.0026, "step": 4125 }, { "epoch": 1.0200533333333333, "grad_norm": 0.027200766342311482, "learning_rate": 0.0001, "loss": 0.9843, "step": 4126 }, { "epoch": 1.0201066666666667, "grad_norm": 0.023780357847930044, "learning_rate": 0.0001, "loss": 0.9685, "step": 4127 }, { "epoch": 1.02016, "grad_norm": 0.024822824017287352, "learning_rate": 0.0001, "loss": 0.9263, "step": 4128 }, { "epoch": 1.0202133333333334, "grad_norm": 0.024840871724469853, "learning_rate": 0.0001, "loss": 0.9687, "step": 4129 }, { "epoch": 1.0202666666666667, "grad_norm": 0.024890630484610606, "learning_rate": 0.0001, "loss": 1.0348, "step": 4130 }, { "epoch": 1.02032, "grad_norm": 0.024998941243433395, "learning_rate": 0.0001, "loss": 0.9891, "step": 4131 }, { "epoch": 1.0203733333333334, "grad_norm": 0.026874930646019864, "learning_rate": 0.0001, "loss": 0.989, "step": 4132 }, { "epoch": 1.0204266666666666, "grad_norm": 0.02554332070339355, "learning_rate": 0.0001, "loss": 0.99, "step": 4133 }, { "epoch": 1.02048, "grad_norm": 0.025183354741602923, "learning_rate": 0.0001, "loss": 0.9369, "step": 4134 }, { "epoch": 1.0205333333333333, "grad_norm": 0.025269493984554588, "learning_rate": 0.0001, "loss": 1.0412, "step": 4135 }, { "epoch": 1.0205866666666668, "grad_norm": 0.027601872952328098, "learning_rate": 0.0001, "loss": 0.9847, "step": 4136 }, { "epoch": 1.02064, "grad_norm": 0.025037202311629606, "learning_rate": 0.0001, "loss": 0.9977, "step": 4137 }, { "epoch": 1.0206933333333332, "grad_norm": 0.025137580913825897, "learning_rate": 0.0001, "loss": 0.9892, "step": 4138 }, { "epoch": 1.0207466666666667, "grad_norm": 0.02455992193506293, "learning_rate": 0.0001, "loss": 0.9874, "step": 4139 }, { "epoch": 1.0208, "grad_norm": 0.02484563850529631, "learning_rate": 0.0001, "loss": 0.9826, "step": 4140 }, { "epoch": 1.0208533333333334, "grad_norm": 0.024308699085402764, "learning_rate": 0.0001, "loss": 0.9658, "step": 4141 }, { "epoch": 1.0209066666666666, "grad_norm": 0.02428214467306464, "learning_rate": 0.0001, "loss": 0.9546, "step": 4142 }, { "epoch": 1.02096, "grad_norm": 0.025557876713386184, "learning_rate": 0.0001, "loss": 1.019, "step": 4143 }, { "epoch": 1.0210133333333333, "grad_norm": 0.023962139855590255, "learning_rate": 0.0001, "loss": 0.9513, "step": 4144 }, { "epoch": 1.0210666666666666, "grad_norm": 0.025337579379357815, "learning_rate": 0.0001, "loss": 1.0168, "step": 4145 }, { "epoch": 1.02112, "grad_norm": 0.02640176571145335, "learning_rate": 0.0001, "loss": 0.9945, "step": 4146 }, { "epoch": 1.0211733333333333, "grad_norm": 0.024657297930128243, "learning_rate": 0.0001, "loss": 1.0095, "step": 4147 }, { "epoch": 1.0212266666666667, "grad_norm": 0.026551045089252306, "learning_rate": 0.0001, "loss": 0.9692, "step": 4148 }, { "epoch": 1.02128, "grad_norm": 0.028461246081560882, "learning_rate": 0.0001, "loss": 1.0321, "step": 4149 }, { "epoch": 1.0213333333333334, "grad_norm": 0.02469780131154835, "learning_rate": 0.0001, "loss": 0.9469, "step": 4150 }, { "epoch": 1.0213866666666667, "grad_norm": 0.02433568030963084, "learning_rate": 0.0001, "loss": 0.982, "step": 4151 }, { "epoch": 1.02144, "grad_norm": 0.026237101797698188, "learning_rate": 0.0001, "loss": 1.0093, "step": 4152 }, { "epoch": 1.0214933333333334, "grad_norm": 0.026802775825936494, "learning_rate": 0.0001, "loss": 0.9595, "step": 4153 }, { "epoch": 1.0215466666666666, "grad_norm": 0.028156450452574942, "learning_rate": 0.0001, "loss": 1.0156, "step": 4154 }, { "epoch": 1.0216, "grad_norm": 0.023727973803753705, "learning_rate": 0.0001, "loss": 1.0037, "step": 4155 }, { "epoch": 1.0216533333333333, "grad_norm": 0.02522283179229633, "learning_rate": 0.0001, "loss": 0.9382, "step": 4156 }, { "epoch": 1.0217066666666668, "grad_norm": 0.027478685831952232, "learning_rate": 0.0001, "loss": 0.9917, "step": 4157 }, { "epoch": 1.02176, "grad_norm": 0.024920031103950604, "learning_rate": 0.0001, "loss": 1.0197, "step": 4158 }, { "epoch": 1.0218133333333332, "grad_norm": 0.024504692151936566, "learning_rate": 0.0001, "loss": 0.9405, "step": 4159 }, { "epoch": 1.0218666666666667, "grad_norm": 0.024260429066378746, "learning_rate": 0.0001, "loss": 0.9757, "step": 4160 }, { "epoch": 1.02192, "grad_norm": 0.023630107797452223, "learning_rate": 0.0001, "loss": 0.9681, "step": 4161 }, { "epoch": 1.0219733333333334, "grad_norm": 0.022815903287836063, "learning_rate": 0.0001, "loss": 0.9942, "step": 4162 }, { "epoch": 1.0220266666666666, "grad_norm": 0.025335160376828387, "learning_rate": 0.0001, "loss": 0.9618, "step": 4163 }, { "epoch": 1.02208, "grad_norm": 0.023801613003010504, "learning_rate": 0.0001, "loss": 0.9105, "step": 4164 }, { "epoch": 1.0221333333333333, "grad_norm": 0.025765969566585438, "learning_rate": 0.0001, "loss": 0.9913, "step": 4165 }, { "epoch": 1.0221866666666666, "grad_norm": 0.024706388519419517, "learning_rate": 0.0001, "loss": 0.9767, "step": 4166 }, { "epoch": 1.02224, "grad_norm": 0.02401186234107778, "learning_rate": 0.0001, "loss": 0.9677, "step": 4167 }, { "epoch": 1.0222933333333333, "grad_norm": 0.023986236191737748, "learning_rate": 0.0001, "loss": 0.9589, "step": 4168 }, { "epoch": 1.0223466666666667, "grad_norm": 0.026289493691338265, "learning_rate": 0.0001, "loss": 0.9787, "step": 4169 }, { "epoch": 1.0224, "grad_norm": 0.02580269656502028, "learning_rate": 0.0001, "loss": 1.0282, "step": 4170 }, { "epoch": 1.0224533333333334, "grad_norm": 0.025636308556642784, "learning_rate": 0.0001, "loss": 0.9843, "step": 4171 }, { "epoch": 1.0225066666666667, "grad_norm": 0.02499546340605594, "learning_rate": 0.0001, "loss": 0.962, "step": 4172 }, { "epoch": 1.02256, "grad_norm": 0.027178549477794973, "learning_rate": 0.0001, "loss": 0.9937, "step": 4173 }, { "epoch": 1.0226133333333334, "grad_norm": 0.02583047036758767, "learning_rate": 0.0001, "loss": 1.0053, "step": 4174 }, { "epoch": 1.0226666666666666, "grad_norm": 0.024759252493346113, "learning_rate": 0.0001, "loss": 0.9589, "step": 4175 }, { "epoch": 1.02272, "grad_norm": 0.024439241924788545, "learning_rate": 0.0001, "loss": 1.0136, "step": 4176 }, { "epoch": 1.0227733333333333, "grad_norm": 0.026144269417161206, "learning_rate": 0.0001, "loss": 0.9252, "step": 4177 }, { "epoch": 1.0228266666666668, "grad_norm": 0.023662733735556274, "learning_rate": 0.0001, "loss": 1.0158, "step": 4178 }, { "epoch": 1.02288, "grad_norm": 0.024509834819547736, "learning_rate": 0.0001, "loss": 1.0185, "step": 4179 }, { "epoch": 1.0229333333333333, "grad_norm": 0.02378596626010149, "learning_rate": 0.0001, "loss": 0.9898, "step": 4180 }, { "epoch": 1.0229866666666667, "grad_norm": 0.023872125258735732, "learning_rate": 0.0001, "loss": 1.0012, "step": 4181 }, { "epoch": 1.02304, "grad_norm": 0.024248945886809987, "learning_rate": 0.0001, "loss": 1.0095, "step": 4182 }, { "epoch": 1.0230933333333334, "grad_norm": 0.02638296427452288, "learning_rate": 0.0001, "loss": 0.9711, "step": 4183 }, { "epoch": 1.0231466666666666, "grad_norm": 0.023752798479666513, "learning_rate": 0.0001, "loss": 0.9796, "step": 4184 }, { "epoch": 1.0232, "grad_norm": 0.0244903761632705, "learning_rate": 0.0001, "loss": 1.0132, "step": 4185 }, { "epoch": 1.0232533333333333, "grad_norm": 0.02400288051199754, "learning_rate": 0.0001, "loss": 1.0209, "step": 4186 }, { "epoch": 1.0233066666666666, "grad_norm": 0.02470766224948326, "learning_rate": 0.0001, "loss": 1.0381, "step": 4187 }, { "epoch": 1.02336, "grad_norm": 0.02355413659345114, "learning_rate": 0.0001, "loss": 0.9814, "step": 4188 }, { "epoch": 1.0234133333333333, "grad_norm": 0.02388100247943962, "learning_rate": 0.0001, "loss": 0.9646, "step": 4189 }, { "epoch": 1.0234666666666667, "grad_norm": 0.025357342699613802, "learning_rate": 0.0001, "loss": 1.018, "step": 4190 }, { "epoch": 1.02352, "grad_norm": 0.02575088633592105, "learning_rate": 0.0001, "loss": 1.0206, "step": 4191 }, { "epoch": 1.0235733333333332, "grad_norm": 0.029527897800382896, "learning_rate": 0.0001, "loss": 1.0282, "step": 4192 }, { "epoch": 1.0236266666666667, "grad_norm": 0.025043147558702156, "learning_rate": 0.0001, "loss": 0.9015, "step": 4193 }, { "epoch": 1.02368, "grad_norm": 0.024580433160842255, "learning_rate": 0.0001, "loss": 0.961, "step": 4194 }, { "epoch": 1.0237333333333334, "grad_norm": 0.02340031743784862, "learning_rate": 0.0001, "loss": 0.9368, "step": 4195 }, { "epoch": 1.0237866666666666, "grad_norm": 0.02420780125366667, "learning_rate": 0.0001, "loss": 0.9748, "step": 4196 }, { "epoch": 1.02384, "grad_norm": 0.026050326311486207, "learning_rate": 0.0001, "loss": 0.9945, "step": 4197 }, { "epoch": 1.0238933333333333, "grad_norm": 0.025149369827947087, "learning_rate": 0.0001, "loss": 1.0157, "step": 4198 }, { "epoch": 1.0239466666666666, "grad_norm": 0.023892363656792412, "learning_rate": 0.0001, "loss": 1.0185, "step": 4199 }, { "epoch": 1.024, "grad_norm": 0.02566189572365672, "learning_rate": 0.0001, "loss": 1.0397, "step": 4200 }, { "epoch": 1.024, "eval_accuracy": 0.6163969977237055, "eval_loss": 1.3754934072494507, "eval_runtime": 63.0025, "eval_samples_per_second": 15.872, "eval_steps_per_second": 0.508, "step": 4200 }, { "epoch": 1.0240533333333333, "grad_norm": 0.025757819350837697, "learning_rate": 0.0001, "loss": 1.0339, "step": 4201 }, { "epoch": 1.0241066666666667, "grad_norm": 0.02274859172447308, "learning_rate": 0.0001, "loss": 0.9495, "step": 4202 }, { "epoch": 1.02416, "grad_norm": 0.023509825243217135, "learning_rate": 0.0001, "loss": 0.9566, "step": 4203 }, { "epoch": 1.0242133333333334, "grad_norm": 0.025230977021746055, "learning_rate": 0.0001, "loss": 0.9614, "step": 4204 }, { "epoch": 1.0242666666666667, "grad_norm": 0.024245317829138035, "learning_rate": 0.0001, "loss": 0.9866, "step": 4205 }, { "epoch": 1.02432, "grad_norm": 0.027243114802443805, "learning_rate": 0.0001, "loss": 1.0232, "step": 4206 }, { "epoch": 1.0243733333333334, "grad_norm": 0.02443178643907904, "learning_rate": 0.0001, "loss": 0.9984, "step": 4207 }, { "epoch": 1.0244266666666666, "grad_norm": 0.02383922271287295, "learning_rate": 0.0001, "loss": 0.965, "step": 4208 }, { "epoch": 1.02448, "grad_norm": 0.023755291448099566, "learning_rate": 0.0001, "loss": 0.9866, "step": 4209 }, { "epoch": 1.0245333333333333, "grad_norm": 0.026294497879866312, "learning_rate": 0.0001, "loss": 0.9128, "step": 4210 }, { "epoch": 1.0245866666666668, "grad_norm": 0.02690498125505039, "learning_rate": 0.0001, "loss": 1.0432, "step": 4211 }, { "epoch": 1.02464, "grad_norm": 0.02477867275406131, "learning_rate": 0.0001, "loss": 1.0045, "step": 4212 }, { "epoch": 1.0246933333333332, "grad_norm": 0.024827954229988305, "learning_rate": 0.0001, "loss": 1.0086, "step": 4213 }, { "epoch": 1.0247466666666667, "grad_norm": 0.024371325373032684, "learning_rate": 0.0001, "loss": 0.9951, "step": 4214 }, { "epoch": 1.0248, "grad_norm": 0.02561491411833602, "learning_rate": 0.0001, "loss": 0.9881, "step": 4215 }, { "epoch": 1.0248533333333334, "grad_norm": 0.02796261491312149, "learning_rate": 0.0001, "loss": 0.9938, "step": 4216 }, { "epoch": 1.0249066666666666, "grad_norm": 0.026632895693282723, "learning_rate": 0.0001, "loss": 1.022, "step": 4217 }, { "epoch": 1.02496, "grad_norm": 0.02589439772571267, "learning_rate": 0.0001, "loss": 0.9488, "step": 4218 }, { "epoch": 1.0250133333333333, "grad_norm": 0.02521081036334982, "learning_rate": 0.0001, "loss": 0.9876, "step": 4219 }, { "epoch": 1.0250666666666666, "grad_norm": 0.02529107487237992, "learning_rate": 0.0001, "loss": 1.003, "step": 4220 }, { "epoch": 1.02512, "grad_norm": 0.024515291844046043, "learning_rate": 0.0001, "loss": 1.0483, "step": 4221 }, { "epoch": 1.0251733333333333, "grad_norm": 0.024838117340690215, "learning_rate": 0.0001, "loss": 1.0325, "step": 4222 }, { "epoch": 1.0252266666666667, "grad_norm": 0.023670168335518684, "learning_rate": 0.0001, "loss": 0.9958, "step": 4223 }, { "epoch": 1.02528, "grad_norm": 0.02661077691417788, "learning_rate": 0.0001, "loss": 0.9624, "step": 4224 }, { "epoch": 1.0253333333333334, "grad_norm": 0.02478137932288543, "learning_rate": 0.0001, "loss": 0.984, "step": 4225 }, { "epoch": 1.0253866666666667, "grad_norm": 0.025248234730067518, "learning_rate": 0.0001, "loss": 1.0537, "step": 4226 }, { "epoch": 1.02544, "grad_norm": 0.027711947373968007, "learning_rate": 0.0001, "loss": 0.951, "step": 4227 }, { "epoch": 1.0254933333333334, "grad_norm": 0.023258435108042007, "learning_rate": 0.0001, "loss": 1.0048, "step": 4228 }, { "epoch": 1.0255466666666666, "grad_norm": 0.02754599791450017, "learning_rate": 0.0001, "loss": 0.9063, "step": 4229 }, { "epoch": 1.0256, "grad_norm": 0.024617906423117997, "learning_rate": 0.0001, "loss": 1.005, "step": 4230 }, { "epoch": 1.0256533333333333, "grad_norm": 0.028169952580668345, "learning_rate": 0.0001, "loss": 0.9533, "step": 4231 }, { "epoch": 1.0257066666666668, "grad_norm": 0.025525385289548435, "learning_rate": 0.0001, "loss": 0.9548, "step": 4232 }, { "epoch": 1.02576, "grad_norm": 0.022582059247794162, "learning_rate": 0.0001, "loss": 1.0072, "step": 4233 }, { "epoch": 1.0258133333333332, "grad_norm": 0.02616881260705403, "learning_rate": 0.0001, "loss": 0.9236, "step": 4234 }, { "epoch": 1.0258666666666667, "grad_norm": 0.02423244185384149, "learning_rate": 0.0001, "loss": 0.9537, "step": 4235 }, { "epoch": 1.02592, "grad_norm": 0.025208082299036275, "learning_rate": 0.0001, "loss": 0.9682, "step": 4236 }, { "epoch": 1.0259733333333334, "grad_norm": 0.02399358357271551, "learning_rate": 0.0001, "loss": 1.0263, "step": 4237 }, { "epoch": 1.0260266666666666, "grad_norm": 0.023129095037977093, "learning_rate": 0.0001, "loss": 0.9521, "step": 4238 }, { "epoch": 1.02608, "grad_norm": 0.025159819790718747, "learning_rate": 0.0001, "loss": 1.0249, "step": 4239 }, { "epoch": 1.0261333333333333, "grad_norm": 0.024229836119730334, "learning_rate": 0.0001, "loss": 0.979, "step": 4240 }, { "epoch": 1.0261866666666666, "grad_norm": 0.023716819218191073, "learning_rate": 0.0001, "loss": 0.9508, "step": 4241 }, { "epoch": 1.02624, "grad_norm": 0.024265561245790438, "learning_rate": 0.0001, "loss": 1.0504, "step": 4242 }, { "epoch": 1.0262933333333333, "grad_norm": 0.026910018087133, "learning_rate": 0.0001, "loss": 0.9984, "step": 4243 }, { "epoch": 1.0263466666666667, "grad_norm": 0.02377315183034239, "learning_rate": 0.0001, "loss": 1.0145, "step": 4244 }, { "epoch": 1.0264, "grad_norm": 0.023817492941111462, "learning_rate": 0.0001, "loss": 0.9838, "step": 4245 }, { "epoch": 1.0264533333333334, "grad_norm": 0.024700992675754836, "learning_rate": 0.0001, "loss": 1.0342, "step": 4246 }, { "epoch": 1.0265066666666667, "grad_norm": 0.02258932091016264, "learning_rate": 0.0001, "loss": 0.9476, "step": 4247 }, { "epoch": 1.02656, "grad_norm": 0.023189136344470427, "learning_rate": 0.0001, "loss": 0.9551, "step": 4248 }, { "epoch": 1.0266133333333334, "grad_norm": 0.025482108281791246, "learning_rate": 0.0001, "loss": 0.9967, "step": 4249 }, { "epoch": 1.0266666666666666, "grad_norm": 0.022444208622756475, "learning_rate": 0.0001, "loss": 1.0457, "step": 4250 }, { "epoch": 1.02672, "grad_norm": 0.02395312958551581, "learning_rate": 0.0001, "loss": 0.8937, "step": 4251 }, { "epoch": 1.0267733333333333, "grad_norm": 0.025047043149197097, "learning_rate": 0.0001, "loss": 0.9837, "step": 4252 }, { "epoch": 1.0268266666666666, "grad_norm": 0.024540772470668364, "learning_rate": 0.0001, "loss": 0.9347, "step": 4253 }, { "epoch": 1.02688, "grad_norm": 0.024210391743783276, "learning_rate": 0.0001, "loss": 0.9789, "step": 4254 }, { "epoch": 1.0269333333333333, "grad_norm": 0.026500925885753687, "learning_rate": 0.0001, "loss": 0.9829, "step": 4255 }, { "epoch": 1.0269866666666667, "grad_norm": 0.025699284347707484, "learning_rate": 0.0001, "loss": 1.0075, "step": 4256 }, { "epoch": 1.02704, "grad_norm": 0.02491254462299456, "learning_rate": 0.0001, "loss": 0.9482, "step": 4257 }, { "epoch": 1.0270933333333334, "grad_norm": 0.025494990959672805, "learning_rate": 0.0001, "loss": 1.0415, "step": 4258 }, { "epoch": 1.0271466666666667, "grad_norm": 0.02677047645596867, "learning_rate": 0.0001, "loss": 1.0012, "step": 4259 }, { "epoch": 1.0272, "grad_norm": 0.0228694195959811, "learning_rate": 0.0001, "loss": 0.9665, "step": 4260 }, { "epoch": 1.0272533333333334, "grad_norm": 0.02467011446118184, "learning_rate": 0.0001, "loss": 1.0166, "step": 4261 }, { "epoch": 1.0273066666666666, "grad_norm": 0.023509740813012624, "learning_rate": 0.0001, "loss": 0.9498, "step": 4262 }, { "epoch": 1.02736, "grad_norm": 0.0236942917588092, "learning_rate": 0.0001, "loss": 1.0122, "step": 4263 }, { "epoch": 1.0274133333333333, "grad_norm": 0.02643805327802295, "learning_rate": 0.0001, "loss": 0.9946, "step": 4264 }, { "epoch": 1.0274666666666668, "grad_norm": 0.026363647734668354, "learning_rate": 0.0001, "loss": 1.0355, "step": 4265 }, { "epoch": 1.02752, "grad_norm": 0.02458946230102932, "learning_rate": 0.0001, "loss": 0.9565, "step": 4266 }, { "epoch": 1.0275733333333332, "grad_norm": 0.022917276261132907, "learning_rate": 0.0001, "loss": 0.9852, "step": 4267 }, { "epoch": 1.0276266666666667, "grad_norm": 0.022764512109325844, "learning_rate": 0.0001, "loss": 1.0096, "step": 4268 }, { "epoch": 1.02768, "grad_norm": 0.0253911903715269, "learning_rate": 0.0001, "loss": 0.9645, "step": 4269 }, { "epoch": 1.0277333333333334, "grad_norm": 0.025978849899519714, "learning_rate": 0.0001, "loss": 0.9722, "step": 4270 }, { "epoch": 1.0277866666666666, "grad_norm": 0.023669500576070084, "learning_rate": 0.0001, "loss": 0.9987, "step": 4271 }, { "epoch": 1.02784, "grad_norm": 0.02536997140677609, "learning_rate": 0.0001, "loss": 0.9795, "step": 4272 }, { "epoch": 1.0278933333333333, "grad_norm": 0.029368914681030072, "learning_rate": 0.0001, "loss": 0.9395, "step": 4273 }, { "epoch": 1.0279466666666666, "grad_norm": 0.02575754226644346, "learning_rate": 0.0001, "loss": 1.0414, "step": 4274 }, { "epoch": 1.028, "grad_norm": 0.02566301120318066, "learning_rate": 0.0001, "loss": 0.9845, "step": 4275 }, { "epoch": 1.0280533333333333, "grad_norm": 0.027820438785357296, "learning_rate": 0.0001, "loss": 1.0077, "step": 4276 }, { "epoch": 1.0281066666666667, "grad_norm": 0.026220877601838923, "learning_rate": 0.0001, "loss": 1.0219, "step": 4277 }, { "epoch": 1.02816, "grad_norm": 0.02617707499339664, "learning_rate": 0.0001, "loss": 0.9816, "step": 4278 }, { "epoch": 1.0282133333333334, "grad_norm": 0.02878241245412763, "learning_rate": 0.0001, "loss": 0.9911, "step": 4279 }, { "epoch": 1.0282666666666667, "grad_norm": 0.025783527859206606, "learning_rate": 0.0001, "loss": 1.0311, "step": 4280 }, { "epoch": 1.02832, "grad_norm": 0.025777751046414533, "learning_rate": 0.0001, "loss": 0.9699, "step": 4281 }, { "epoch": 1.0283733333333334, "grad_norm": 0.025639495857233675, "learning_rate": 0.0001, "loss": 1.0272, "step": 4282 }, { "epoch": 1.0284266666666666, "grad_norm": 0.02738738279656186, "learning_rate": 0.0001, "loss": 0.9275, "step": 4283 }, { "epoch": 1.02848, "grad_norm": 0.026323120954187942, "learning_rate": 0.0001, "loss": 1.0142, "step": 4284 }, { "epoch": 1.0285333333333333, "grad_norm": 0.028426308662848874, "learning_rate": 0.0001, "loss": 0.9676, "step": 4285 }, { "epoch": 1.0285866666666668, "grad_norm": 0.026593542417480034, "learning_rate": 0.0001, "loss": 1.0081, "step": 4286 }, { "epoch": 1.02864, "grad_norm": 0.02524807215116622, "learning_rate": 0.0001, "loss": 0.9386, "step": 4287 }, { "epoch": 1.0286933333333332, "grad_norm": 0.028335361699683093, "learning_rate": 0.0001, "loss": 0.9628, "step": 4288 }, { "epoch": 1.0287466666666667, "grad_norm": 0.027583180918601458, "learning_rate": 0.0001, "loss": 0.9204, "step": 4289 }, { "epoch": 1.0288, "grad_norm": 0.026026566587630674, "learning_rate": 0.0001, "loss": 1.018, "step": 4290 }, { "epoch": 1.0288533333333334, "grad_norm": 0.025576501420392746, "learning_rate": 0.0001, "loss": 0.9316, "step": 4291 }, { "epoch": 1.0289066666666666, "grad_norm": 0.026925961628276047, "learning_rate": 0.0001, "loss": 1.0196, "step": 4292 }, { "epoch": 1.02896, "grad_norm": 0.029254960243026016, "learning_rate": 0.0001, "loss": 0.9665, "step": 4293 }, { "epoch": 1.0290133333333333, "grad_norm": 0.0268116988921987, "learning_rate": 0.0001, "loss": 0.9059, "step": 4294 }, { "epoch": 1.0290666666666666, "grad_norm": 0.027067795729607037, "learning_rate": 0.0001, "loss": 1.0078, "step": 4295 }, { "epoch": 1.02912, "grad_norm": 0.026317178572110196, "learning_rate": 0.0001, "loss": 0.9605, "step": 4296 }, { "epoch": 1.0291733333333333, "grad_norm": 0.026895896496077362, "learning_rate": 0.0001, "loss": 0.9812, "step": 4297 }, { "epoch": 1.0292266666666667, "grad_norm": 0.025020189761913756, "learning_rate": 0.0001, "loss": 1.0226, "step": 4298 }, { "epoch": 1.02928, "grad_norm": 0.025448591993093708, "learning_rate": 0.0001, "loss": 1.0156, "step": 4299 }, { "epoch": 1.0293333333333334, "grad_norm": 0.02567631742769724, "learning_rate": 0.0001, "loss": 1.0024, "step": 4300 }, { "epoch": 1.0293866666666667, "grad_norm": 0.024411978842765438, "learning_rate": 0.0001, "loss": 0.9517, "step": 4301 }, { "epoch": 1.02944, "grad_norm": 0.02377654433828922, "learning_rate": 0.0001, "loss": 1.0203, "step": 4302 }, { "epoch": 1.0294933333333334, "grad_norm": 0.024108862755279806, "learning_rate": 0.0001, "loss": 1.0267, "step": 4303 }, { "epoch": 1.0295466666666666, "grad_norm": 0.025463742668227995, "learning_rate": 0.0001, "loss": 0.9564, "step": 4304 }, { "epoch": 1.0296, "grad_norm": 0.02321989052038827, "learning_rate": 0.0001, "loss": 0.9606, "step": 4305 }, { "epoch": 1.0296533333333333, "grad_norm": 0.023776664862300022, "learning_rate": 0.0001, "loss": 1.005, "step": 4306 }, { "epoch": 1.0297066666666668, "grad_norm": 0.02344914079716262, "learning_rate": 0.0001, "loss": 1.0103, "step": 4307 }, { "epoch": 1.02976, "grad_norm": 0.025229423651016686, "learning_rate": 0.0001, "loss": 0.9747, "step": 4308 }, { "epoch": 1.0298133333333332, "grad_norm": 0.025456256348178403, "learning_rate": 0.0001, "loss": 0.9943, "step": 4309 }, { "epoch": 1.0298666666666667, "grad_norm": 0.025128603417346716, "learning_rate": 0.0001, "loss": 1.0218, "step": 4310 }, { "epoch": 1.02992, "grad_norm": 0.026242289675936965, "learning_rate": 0.0001, "loss": 1.0065, "step": 4311 }, { "epoch": 1.0299733333333334, "grad_norm": 0.02399052406729695, "learning_rate": 0.0001, "loss": 0.9954, "step": 4312 }, { "epoch": 1.0300266666666666, "grad_norm": 0.025982513311280386, "learning_rate": 0.0001, "loss": 0.9937, "step": 4313 }, { "epoch": 1.03008, "grad_norm": 0.02411895177416584, "learning_rate": 0.0001, "loss": 0.9963, "step": 4314 }, { "epoch": 1.0301333333333333, "grad_norm": 0.024923100606675592, "learning_rate": 0.0001, "loss": 1.0571, "step": 4315 }, { "epoch": 1.0301866666666666, "grad_norm": 0.024973431470361115, "learning_rate": 0.0001, "loss": 0.9979, "step": 4316 }, { "epoch": 1.03024, "grad_norm": 0.023395798526695103, "learning_rate": 0.0001, "loss": 0.9952, "step": 4317 }, { "epoch": 1.0302933333333333, "grad_norm": 0.022264920284184406, "learning_rate": 0.0001, "loss": 0.9557, "step": 4318 }, { "epoch": 1.0303466666666667, "grad_norm": 0.025568730874433107, "learning_rate": 0.0001, "loss": 1.0496, "step": 4319 }, { "epoch": 1.0304, "grad_norm": 0.024048287978844292, "learning_rate": 0.0001, "loss": 1.0231, "step": 4320 }, { "epoch": 1.0304533333333334, "grad_norm": 0.02389408744299466, "learning_rate": 0.0001, "loss": 1.0144, "step": 4321 }, { "epoch": 1.0305066666666667, "grad_norm": 0.024444186986998705, "learning_rate": 0.0001, "loss": 0.9462, "step": 4322 }, { "epoch": 1.03056, "grad_norm": 0.0246123745556494, "learning_rate": 0.0001, "loss": 0.9694, "step": 4323 }, { "epoch": 1.0306133333333334, "grad_norm": 0.02567902852490298, "learning_rate": 0.0001, "loss": 0.9901, "step": 4324 }, { "epoch": 1.0306666666666666, "grad_norm": 0.022670618974959617, "learning_rate": 0.0001, "loss": 1.0097, "step": 4325 }, { "epoch": 1.03072, "grad_norm": 0.02720792095462256, "learning_rate": 0.0001, "loss": 0.9774, "step": 4326 }, { "epoch": 1.0307733333333333, "grad_norm": 0.026527306967050735, "learning_rate": 0.0001, "loss": 0.9785, "step": 4327 }, { "epoch": 1.0308266666666666, "grad_norm": 0.026399010240317766, "learning_rate": 0.0001, "loss": 0.9627, "step": 4328 }, { "epoch": 1.03088, "grad_norm": 0.02607285711339187, "learning_rate": 0.0001, "loss": 0.9581, "step": 4329 }, { "epoch": 1.0309333333333333, "grad_norm": 0.024319620784189835, "learning_rate": 0.0001, "loss": 0.9534, "step": 4330 }, { "epoch": 1.0309866666666667, "grad_norm": 0.03120793890497213, "learning_rate": 0.0001, "loss": 1.0297, "step": 4331 }, { "epoch": 1.03104, "grad_norm": 0.024867933106001095, "learning_rate": 0.0001, "loss": 1.0019, "step": 4332 }, { "epoch": 1.0310933333333334, "grad_norm": 0.029699794311045774, "learning_rate": 0.0001, "loss": 0.9753, "step": 4333 }, { "epoch": 1.0311466666666667, "grad_norm": 0.024974075195886382, "learning_rate": 0.0001, "loss": 0.9696, "step": 4334 }, { "epoch": 1.0312, "grad_norm": 0.025947215881945374, "learning_rate": 0.0001, "loss": 0.9862, "step": 4335 }, { "epoch": 1.0312533333333334, "grad_norm": 0.024864597663456292, "learning_rate": 0.0001, "loss": 0.9662, "step": 4336 }, { "epoch": 1.0313066666666666, "grad_norm": 0.02599251211695308, "learning_rate": 0.0001, "loss": 0.9606, "step": 4337 }, { "epoch": 1.03136, "grad_norm": 0.026387564099077946, "learning_rate": 0.0001, "loss": 1.0048, "step": 4338 }, { "epoch": 1.0314133333333333, "grad_norm": 0.023118325636099984, "learning_rate": 0.0001, "loss": 0.9523, "step": 4339 }, { "epoch": 1.0314666666666668, "grad_norm": 0.029289524021950678, "learning_rate": 0.0001, "loss": 1.0345, "step": 4340 }, { "epoch": 1.03152, "grad_norm": 0.024628058818613775, "learning_rate": 0.0001, "loss": 0.9151, "step": 4341 }, { "epoch": 1.0315733333333332, "grad_norm": 0.023918913275264474, "learning_rate": 0.0001, "loss": 0.9795, "step": 4342 }, { "epoch": 1.0316266666666667, "grad_norm": 0.024016165892047164, "learning_rate": 0.0001, "loss": 0.9924, "step": 4343 }, { "epoch": 1.03168, "grad_norm": 0.024874708892190175, "learning_rate": 0.0001, "loss": 0.9925, "step": 4344 }, { "epoch": 1.0317333333333334, "grad_norm": 0.025756089413754617, "learning_rate": 0.0001, "loss": 0.9949, "step": 4345 }, { "epoch": 1.0317866666666666, "grad_norm": 0.02739419143286228, "learning_rate": 0.0001, "loss": 0.9481, "step": 4346 }, { "epoch": 1.03184, "grad_norm": 0.02550908599923386, "learning_rate": 0.0001, "loss": 0.9584, "step": 4347 }, { "epoch": 1.0318933333333333, "grad_norm": 0.024175868408284566, "learning_rate": 0.0001, "loss": 0.9563, "step": 4348 }, { "epoch": 1.0319466666666666, "grad_norm": 0.025480675286379352, "learning_rate": 0.0001, "loss": 0.9152, "step": 4349 }, { "epoch": 1.032, "grad_norm": 0.03042768661310683, "learning_rate": 0.0001, "loss": 0.9823, "step": 4350 }, { "epoch": 1.0320533333333333, "grad_norm": 0.027414447490000722, "learning_rate": 0.0001, "loss": 0.9829, "step": 4351 }, { "epoch": 1.0321066666666667, "grad_norm": 0.02415670855053957, "learning_rate": 0.0001, "loss": 0.9758, "step": 4352 }, { "epoch": 1.03216, "grad_norm": 0.02394215615722101, "learning_rate": 0.0001, "loss": 0.9676, "step": 4353 }, { "epoch": 1.0322133333333334, "grad_norm": 0.024373744392058975, "learning_rate": 0.0001, "loss": 0.9794, "step": 4354 }, { "epoch": 1.0322666666666667, "grad_norm": 0.023928272493046434, "learning_rate": 0.0001, "loss": 1.0224, "step": 4355 }, { "epoch": 1.03232, "grad_norm": 0.02494705803990358, "learning_rate": 0.0001, "loss": 0.9495, "step": 4356 }, { "epoch": 1.0323733333333334, "grad_norm": 0.024775685601080556, "learning_rate": 0.0001, "loss": 0.9385, "step": 4357 }, { "epoch": 1.0324266666666666, "grad_norm": 0.026350505294905728, "learning_rate": 0.0001, "loss": 1.0198, "step": 4358 }, { "epoch": 1.03248, "grad_norm": 0.024342431861324797, "learning_rate": 0.0001, "loss": 0.9451, "step": 4359 }, { "epoch": 1.0325333333333333, "grad_norm": 0.025861767045243466, "learning_rate": 0.0001, "loss": 0.9999, "step": 4360 }, { "epoch": 1.0325866666666668, "grad_norm": 0.02542389993367001, "learning_rate": 0.0001, "loss": 0.9386, "step": 4361 }, { "epoch": 1.03264, "grad_norm": 0.0254856966498487, "learning_rate": 0.0001, "loss": 0.9658, "step": 4362 }, { "epoch": 1.0326933333333332, "grad_norm": 0.024961515761701414, "learning_rate": 0.0001, "loss": 1.0979, "step": 4363 }, { "epoch": 1.0327466666666667, "grad_norm": 0.02408427021790226, "learning_rate": 0.0001, "loss": 0.9918, "step": 4364 }, { "epoch": 1.0328, "grad_norm": 0.02604187145292836, "learning_rate": 0.0001, "loss": 0.9604, "step": 4365 }, { "epoch": 1.0328533333333334, "grad_norm": 0.025536238711197246, "learning_rate": 0.0001, "loss": 0.9795, "step": 4366 }, { "epoch": 1.0329066666666666, "grad_norm": 0.025052212850444885, "learning_rate": 0.0001, "loss": 0.9593, "step": 4367 }, { "epoch": 1.03296, "grad_norm": 0.025049713283329163, "learning_rate": 0.0001, "loss": 0.9423, "step": 4368 }, { "epoch": 1.0330133333333333, "grad_norm": 0.025583061501768364, "learning_rate": 0.0001, "loss": 0.9284, "step": 4369 }, { "epoch": 1.0330666666666666, "grad_norm": 0.025446083855381187, "learning_rate": 0.0001, "loss": 1.0653, "step": 4370 }, { "epoch": 1.03312, "grad_norm": 0.027154509040958185, "learning_rate": 0.0001, "loss": 0.9907, "step": 4371 }, { "epoch": 1.0331733333333333, "grad_norm": 0.026169098415782403, "learning_rate": 0.0001, "loss": 1.0141, "step": 4372 }, { "epoch": 1.0332266666666667, "grad_norm": 0.02448927409727445, "learning_rate": 0.0001, "loss": 1.0122, "step": 4373 }, { "epoch": 1.03328, "grad_norm": 0.024224463171966883, "learning_rate": 0.0001, "loss": 1.0004, "step": 4374 }, { "epoch": 1.0333333333333334, "grad_norm": 0.022864155479363917, "learning_rate": 0.0001, "loss": 1.0447, "step": 4375 }, { "epoch": 1.0333866666666667, "grad_norm": 0.024570795695502766, "learning_rate": 0.0001, "loss": 1.0142, "step": 4376 }, { "epoch": 1.03344, "grad_norm": 0.023470169794178562, "learning_rate": 0.0001, "loss": 0.9603, "step": 4377 }, { "epoch": 1.0334933333333334, "grad_norm": 0.02421188030212079, "learning_rate": 0.0001, "loss": 0.9922, "step": 4378 }, { "epoch": 1.0335466666666666, "grad_norm": 0.024810686093180826, "learning_rate": 0.0001, "loss": 0.9797, "step": 4379 }, { "epoch": 1.0336, "grad_norm": 0.023861613388549138, "learning_rate": 0.0001, "loss": 1.0323, "step": 4380 }, { "epoch": 1.0336533333333333, "grad_norm": 0.025491489683430218, "learning_rate": 0.0001, "loss": 0.9932, "step": 4381 }, { "epoch": 1.0337066666666668, "grad_norm": 0.025993701394744727, "learning_rate": 0.0001, "loss": 1.0305, "step": 4382 }, { "epoch": 1.03376, "grad_norm": 0.028484331654828977, "learning_rate": 0.0001, "loss": 0.9758, "step": 4383 }, { "epoch": 1.0338133333333333, "grad_norm": 0.02575526118439295, "learning_rate": 0.0001, "loss": 0.9453, "step": 4384 }, { "epoch": 1.0338666666666667, "grad_norm": 0.02464909841573038, "learning_rate": 0.0001, "loss": 0.9632, "step": 4385 }, { "epoch": 1.03392, "grad_norm": 0.027648024537842472, "learning_rate": 0.0001, "loss": 0.9658, "step": 4386 }, { "epoch": 1.0339733333333334, "grad_norm": 0.02465296509018974, "learning_rate": 0.0001, "loss": 1.0161, "step": 4387 }, { "epoch": 1.0340266666666666, "grad_norm": 0.02327347911343244, "learning_rate": 0.0001, "loss": 1.0396, "step": 4388 }, { "epoch": 1.0340799999999999, "grad_norm": 0.025094085935789507, "learning_rate": 0.0001, "loss": 0.9922, "step": 4389 }, { "epoch": 1.0341333333333333, "grad_norm": 0.022611752861814643, "learning_rate": 0.0001, "loss": 0.9518, "step": 4390 }, { "epoch": 1.0341866666666666, "grad_norm": 0.024234671436660374, "learning_rate": 0.0001, "loss": 0.9572, "step": 4391 }, { "epoch": 1.03424, "grad_norm": 0.026565131905770013, "learning_rate": 0.0001, "loss": 0.9851, "step": 4392 }, { "epoch": 1.0342933333333333, "grad_norm": 0.024886736108678517, "learning_rate": 0.0001, "loss": 0.9457, "step": 4393 }, { "epoch": 1.0343466666666667, "grad_norm": 0.022436182394740323, "learning_rate": 0.0001, "loss": 0.9527, "step": 4394 }, { "epoch": 1.0344, "grad_norm": 0.024456048953384407, "learning_rate": 0.0001, "loss": 0.9776, "step": 4395 }, { "epoch": 1.0344533333333334, "grad_norm": 0.025697543185784523, "learning_rate": 0.0001, "loss": 1.0365, "step": 4396 }, { "epoch": 1.0345066666666667, "grad_norm": 0.026508310036915467, "learning_rate": 0.0001, "loss": 0.9909, "step": 4397 }, { "epoch": 1.03456, "grad_norm": 0.023465710991408192, "learning_rate": 0.0001, "loss": 0.9623, "step": 4398 }, { "epoch": 1.0346133333333334, "grad_norm": 0.025845382036942893, "learning_rate": 0.0001, "loss": 0.9719, "step": 4399 }, { "epoch": 1.0346666666666666, "grad_norm": 0.023304480038983468, "learning_rate": 0.0001, "loss": 0.9875, "step": 4400 }, { "epoch": 1.0346666666666666, "eval_accuracy": 0.6166564741523967, "eval_loss": 1.3741999864578247, "eval_runtime": 62.299, "eval_samples_per_second": 16.052, "eval_steps_per_second": 0.514, "step": 4400 }, { "epoch": 1.03472, "grad_norm": 0.027116480772113826, "learning_rate": 0.0001, "loss": 0.9467, "step": 4401 }, { "epoch": 1.0347733333333333, "grad_norm": 0.02401692387355954, "learning_rate": 0.0001, "loss": 0.9466, "step": 4402 }, { "epoch": 1.0348266666666666, "grad_norm": 0.025800299630515323, "learning_rate": 0.0001, "loss": 0.9667, "step": 4403 }, { "epoch": 1.03488, "grad_norm": 0.027287051463186805, "learning_rate": 0.0001, "loss": 0.9722, "step": 4404 }, { "epoch": 1.0349333333333333, "grad_norm": 0.023910189765620996, "learning_rate": 0.0001, "loss": 0.9808, "step": 4405 }, { "epoch": 1.0349866666666667, "grad_norm": 0.027022402361306323, "learning_rate": 0.0001, "loss": 0.9746, "step": 4406 }, { "epoch": 1.03504, "grad_norm": 0.02632668916401222, "learning_rate": 0.0001, "loss": 1.0007, "step": 4407 }, { "epoch": 1.0350933333333334, "grad_norm": 0.02276799220710144, "learning_rate": 0.0001, "loss": 0.908, "step": 4408 }, { "epoch": 1.0351466666666667, "grad_norm": 0.025844124098613974, "learning_rate": 0.0001, "loss": 0.9307, "step": 4409 }, { "epoch": 1.0352, "grad_norm": 0.02380432568556784, "learning_rate": 0.0001, "loss": 0.9413, "step": 4410 }, { "epoch": 1.0352533333333334, "grad_norm": 0.025276555802474995, "learning_rate": 0.0001, "loss": 0.9553, "step": 4411 }, { "epoch": 1.0353066666666666, "grad_norm": 0.026404769700472577, "learning_rate": 0.0001, "loss": 0.987, "step": 4412 }, { "epoch": 1.03536, "grad_norm": 0.02636272118449618, "learning_rate": 0.0001, "loss": 0.9325, "step": 4413 }, { "epoch": 1.0354133333333333, "grad_norm": 0.02544410829690844, "learning_rate": 0.0001, "loss": 1.0048, "step": 4414 }, { "epoch": 1.0354666666666668, "grad_norm": 0.0238391877976126, "learning_rate": 0.0001, "loss": 1.0333, "step": 4415 }, { "epoch": 1.03552, "grad_norm": 0.027974711173806815, "learning_rate": 0.0001, "loss": 0.9873, "step": 4416 }, { "epoch": 1.0355733333333332, "grad_norm": 0.0270989837347207, "learning_rate": 0.0001, "loss": 0.9559, "step": 4417 }, { "epoch": 1.0356266666666667, "grad_norm": 0.02555008918054024, "learning_rate": 0.0001, "loss": 0.9867, "step": 4418 }, { "epoch": 1.03568, "grad_norm": 0.025744912568249952, "learning_rate": 0.0001, "loss": 1.0412, "step": 4419 }, { "epoch": 1.0357333333333334, "grad_norm": 0.025425896519866095, "learning_rate": 0.0001, "loss": 0.9698, "step": 4420 }, { "epoch": 1.0357866666666666, "grad_norm": 0.023162149685641748, "learning_rate": 0.0001, "loss": 0.9136, "step": 4421 }, { "epoch": 1.03584, "grad_norm": 0.026213839644814885, "learning_rate": 0.0001, "loss": 0.9788, "step": 4422 }, { "epoch": 1.0358933333333333, "grad_norm": 0.024066356112987648, "learning_rate": 0.0001, "loss": 1.0115, "step": 4423 }, { "epoch": 1.0359466666666666, "grad_norm": 0.02347285057489438, "learning_rate": 0.0001, "loss": 0.9434, "step": 4424 }, { "epoch": 1.036, "grad_norm": 0.023313961231884485, "learning_rate": 0.0001, "loss": 0.9787, "step": 4425 }, { "epoch": 1.0360533333333333, "grad_norm": 0.024123586953697915, "learning_rate": 0.0001, "loss": 1.0144, "step": 4426 }, { "epoch": 1.0361066666666667, "grad_norm": 0.024735930442330613, "learning_rate": 0.0001, "loss": 1.006, "step": 4427 }, { "epoch": 1.03616, "grad_norm": 0.024990214156672012, "learning_rate": 0.0001, "loss": 0.9392, "step": 4428 }, { "epoch": 1.0362133333333334, "grad_norm": 0.02577260111469301, "learning_rate": 0.0001, "loss": 0.9656, "step": 4429 }, { "epoch": 1.0362666666666667, "grad_norm": 0.02532575443472955, "learning_rate": 0.0001, "loss": 1.0083, "step": 4430 }, { "epoch": 1.03632, "grad_norm": 0.023122510409245314, "learning_rate": 0.0001, "loss": 0.945, "step": 4431 }, { "epoch": 1.0363733333333334, "grad_norm": 0.024866071017654767, "learning_rate": 0.0001, "loss": 1.0126, "step": 4432 }, { "epoch": 1.0364266666666666, "grad_norm": 0.023101538386004993, "learning_rate": 0.0001, "loss": 0.9698, "step": 4433 }, { "epoch": 1.03648, "grad_norm": 0.024213214148099422, "learning_rate": 0.0001, "loss": 1.0318, "step": 4434 }, { "epoch": 1.0365333333333333, "grad_norm": 0.023955866136895963, "learning_rate": 0.0001, "loss": 1.0157, "step": 4435 }, { "epoch": 1.0365866666666668, "grad_norm": 0.02691565641191495, "learning_rate": 0.0001, "loss": 0.9268, "step": 4436 }, { "epoch": 1.03664, "grad_norm": 0.024125860642450623, "learning_rate": 0.0001, "loss": 0.9886, "step": 4437 }, { "epoch": 1.0366933333333332, "grad_norm": 0.025236960092368057, "learning_rate": 0.0001, "loss": 1.0522, "step": 4438 }, { "epoch": 1.0367466666666667, "grad_norm": 0.024072237589028746, "learning_rate": 0.0001, "loss": 1.0009, "step": 4439 }, { "epoch": 1.0368, "grad_norm": 0.02408611059289758, "learning_rate": 0.0001, "loss": 0.9837, "step": 4440 }, { "epoch": 1.0368533333333334, "grad_norm": 0.024075662883812056, "learning_rate": 0.0001, "loss": 0.9935, "step": 4441 }, { "epoch": 1.0369066666666666, "grad_norm": 0.027080702287202923, "learning_rate": 0.0001, "loss": 0.9961, "step": 4442 }, { "epoch": 1.03696, "grad_norm": 0.023619155522881435, "learning_rate": 0.0001, "loss": 1.0282, "step": 4443 }, { "epoch": 1.0370133333333333, "grad_norm": 0.023587880284994416, "learning_rate": 0.0001, "loss": 0.9989, "step": 4444 }, { "epoch": 1.0370666666666666, "grad_norm": 0.025067367082562565, "learning_rate": 0.0001, "loss": 0.9472, "step": 4445 }, { "epoch": 1.03712, "grad_norm": 0.02817739406678738, "learning_rate": 0.0001, "loss": 0.9864, "step": 4446 }, { "epoch": 1.0371733333333333, "grad_norm": 0.024489101589444576, "learning_rate": 0.0001, "loss": 0.9514, "step": 4447 }, { "epoch": 1.0372266666666667, "grad_norm": 0.024294513424600834, "learning_rate": 0.0001, "loss": 0.91, "step": 4448 }, { "epoch": 1.03728, "grad_norm": 0.02478770222471264, "learning_rate": 0.0001, "loss": 1.0083, "step": 4449 }, { "epoch": 1.0373333333333334, "grad_norm": 0.024451154059373606, "learning_rate": 0.0001, "loss": 1.0023, "step": 4450 }, { "epoch": 1.0373866666666667, "grad_norm": 0.02420203351117213, "learning_rate": 0.0001, "loss": 0.9479, "step": 4451 }, { "epoch": 1.03744, "grad_norm": 0.025282594045943366, "learning_rate": 0.0001, "loss": 0.9827, "step": 4452 }, { "epoch": 1.0374933333333334, "grad_norm": 0.02489921646500652, "learning_rate": 0.0001, "loss": 0.9835, "step": 4453 }, { "epoch": 1.0375466666666666, "grad_norm": 0.02480739654250344, "learning_rate": 0.0001, "loss": 0.9833, "step": 4454 }, { "epoch": 1.0376, "grad_norm": 0.025569647172893846, "learning_rate": 0.0001, "loss": 0.9315, "step": 4455 }, { "epoch": 1.0376533333333333, "grad_norm": 0.02663170866217121, "learning_rate": 0.0001, "loss": 0.9924, "step": 4456 }, { "epoch": 1.0377066666666668, "grad_norm": 0.023481199862477337, "learning_rate": 0.0001, "loss": 1.0326, "step": 4457 }, { "epoch": 1.03776, "grad_norm": 0.025786338837010897, "learning_rate": 0.0001, "loss": 1.0355, "step": 4458 }, { "epoch": 1.0378133333333333, "grad_norm": 0.025144151538960515, "learning_rate": 0.0001, "loss": 0.9324, "step": 4459 }, { "epoch": 1.0378666666666667, "grad_norm": 0.024965583324808104, "learning_rate": 0.0001, "loss": 1.0058, "step": 4460 }, { "epoch": 1.03792, "grad_norm": 0.023492374751200515, "learning_rate": 0.0001, "loss": 1.0131, "step": 4461 }, { "epoch": 1.0379733333333334, "grad_norm": 0.023979212888402865, "learning_rate": 0.0001, "loss": 0.9579, "step": 4462 }, { "epoch": 1.0380266666666667, "grad_norm": 0.026591357140337956, "learning_rate": 0.0001, "loss": 0.9508, "step": 4463 }, { "epoch": 1.03808, "grad_norm": 0.02607645364605039, "learning_rate": 0.0001, "loss": 1.0138, "step": 4464 }, { "epoch": 1.0381333333333334, "grad_norm": 0.02444469568987499, "learning_rate": 0.0001, "loss": 0.965, "step": 4465 }, { "epoch": 1.0381866666666666, "grad_norm": 0.025245895101101236, "learning_rate": 0.0001, "loss": 0.9452, "step": 4466 }, { "epoch": 1.03824, "grad_norm": 0.024939180907881185, "learning_rate": 0.0001, "loss": 0.9991, "step": 4467 }, { "epoch": 1.0382933333333333, "grad_norm": 0.025966268075698757, "learning_rate": 0.0001, "loss": 1.0356, "step": 4468 }, { "epoch": 1.0383466666666668, "grad_norm": 0.024337117024424947, "learning_rate": 0.0001, "loss": 1.0026, "step": 4469 }, { "epoch": 1.0384, "grad_norm": 0.024475508927404112, "learning_rate": 0.0001, "loss": 0.956, "step": 4470 }, { "epoch": 1.0384533333333332, "grad_norm": 0.02614709205103336, "learning_rate": 0.0001, "loss": 1.0344, "step": 4471 }, { "epoch": 1.0385066666666667, "grad_norm": 0.02426120113071668, "learning_rate": 0.0001, "loss": 0.9814, "step": 4472 }, { "epoch": 1.03856, "grad_norm": 0.026300878063701526, "learning_rate": 0.0001, "loss": 0.9695, "step": 4473 }, { "epoch": 1.0386133333333334, "grad_norm": 0.025247763767449447, "learning_rate": 0.0001, "loss": 0.9558, "step": 4474 }, { "epoch": 1.0386666666666666, "grad_norm": 0.02278396203942889, "learning_rate": 0.0001, "loss": 1.029, "step": 4475 }, { "epoch": 1.03872, "grad_norm": 0.024630879624903696, "learning_rate": 0.0001, "loss": 0.9956, "step": 4476 }, { "epoch": 1.0387733333333333, "grad_norm": 0.024963410048783084, "learning_rate": 0.0001, "loss": 0.9013, "step": 4477 }, { "epoch": 1.0388266666666666, "grad_norm": 0.023901081271432742, "learning_rate": 0.0001, "loss": 0.9874, "step": 4478 }, { "epoch": 1.03888, "grad_norm": 0.025340266619465476, "learning_rate": 0.0001, "loss": 0.9143, "step": 4479 }, { "epoch": 1.0389333333333333, "grad_norm": 0.0245353356806933, "learning_rate": 0.0001, "loss": 0.9366, "step": 4480 }, { "epoch": 1.0389866666666667, "grad_norm": 0.03905487242881286, "learning_rate": 0.0001, "loss": 0.9787, "step": 4481 }, { "epoch": 1.03904, "grad_norm": 0.027193343506409746, "learning_rate": 0.0001, "loss": 1.0565, "step": 4482 }, { "epoch": 1.0390933333333334, "grad_norm": 0.027272960212350327, "learning_rate": 0.0001, "loss": 0.9064, "step": 4483 }, { "epoch": 1.0391466666666667, "grad_norm": 0.0228718200696725, "learning_rate": 0.0001, "loss": 0.9472, "step": 4484 }, { "epoch": 1.0392, "grad_norm": 0.02683101721383208, "learning_rate": 0.0001, "loss": 1.0097, "step": 4485 }, { "epoch": 1.0392533333333334, "grad_norm": 0.023974053110856403, "learning_rate": 0.0001, "loss": 0.9464, "step": 4486 }, { "epoch": 1.0393066666666666, "grad_norm": 0.02550482353459311, "learning_rate": 0.0001, "loss": 0.9628, "step": 4487 }, { "epoch": 1.03936, "grad_norm": 0.027987214724039724, "learning_rate": 0.0001, "loss": 1.0355, "step": 4488 }, { "epoch": 1.0394133333333333, "grad_norm": 0.02400081727067451, "learning_rate": 0.0001, "loss": 0.9736, "step": 4489 }, { "epoch": 1.0394666666666668, "grad_norm": 0.027156578774371193, "learning_rate": 0.0001, "loss": 1.0099, "step": 4490 }, { "epoch": 1.03952, "grad_norm": 0.02437435696510714, "learning_rate": 0.0001, "loss": 1.027, "step": 4491 }, { "epoch": 1.0395733333333332, "grad_norm": 0.024651744631625203, "learning_rate": 0.0001, "loss": 1.0042, "step": 4492 }, { "epoch": 1.0396266666666667, "grad_norm": 0.025072490297579606, "learning_rate": 0.0001, "loss": 0.9846, "step": 4493 }, { "epoch": 1.03968, "grad_norm": 0.025607110050825013, "learning_rate": 0.0001, "loss": 0.9811, "step": 4494 }, { "epoch": 1.0397333333333334, "grad_norm": 0.027109865722087973, "learning_rate": 0.0001, "loss": 0.933, "step": 4495 }, { "epoch": 1.0397866666666666, "grad_norm": 0.02360725268976757, "learning_rate": 0.0001, "loss": 1.0133, "step": 4496 }, { "epoch": 1.03984, "grad_norm": 0.02819133325988624, "learning_rate": 0.0001, "loss": 0.9884, "step": 4497 }, { "epoch": 1.0398933333333333, "grad_norm": 0.024789812463013927, "learning_rate": 0.0001, "loss": 0.9791, "step": 4498 }, { "epoch": 1.0399466666666666, "grad_norm": 0.024464652674272957, "learning_rate": 0.0001, "loss": 1.0492, "step": 4499 }, { "epoch": 1.04, "grad_norm": 0.02596819314543035, "learning_rate": 0.0001, "loss": 1.0199, "step": 4500 }, { "epoch": 1.0400533333333333, "grad_norm": 0.024790172482480638, "learning_rate": 0.0001, "loss": 1.0053, "step": 4501 }, { "epoch": 1.0401066666666667, "grad_norm": 0.026010801235574057, "learning_rate": 0.0001, "loss": 0.931, "step": 4502 }, { "epoch": 1.04016, "grad_norm": 0.02582622327731876, "learning_rate": 0.0001, "loss": 0.9834, "step": 4503 }, { "epoch": 1.0402133333333334, "grad_norm": 0.026765130068596193, "learning_rate": 0.0001, "loss": 1.005, "step": 4504 }, { "epoch": 1.0402666666666667, "grad_norm": 0.025088402752272365, "learning_rate": 0.0001, "loss": 0.9579, "step": 4505 }, { "epoch": 1.04032, "grad_norm": 0.027724809343285507, "learning_rate": 0.0001, "loss": 0.9334, "step": 4506 }, { "epoch": 1.0403733333333334, "grad_norm": 0.025271051755231574, "learning_rate": 0.0001, "loss": 0.926, "step": 4507 }, { "epoch": 1.0404266666666666, "grad_norm": 0.023736336411044747, "learning_rate": 0.0001, "loss": 0.9231, "step": 4508 }, { "epoch": 1.04048, "grad_norm": 0.025632362303793968, "learning_rate": 0.0001, "loss": 0.9742, "step": 4509 }, { "epoch": 1.0405333333333333, "grad_norm": 0.028446325731549798, "learning_rate": 0.0001, "loss": 0.9807, "step": 4510 }, { "epoch": 1.0405866666666668, "grad_norm": 0.023979329003568743, "learning_rate": 0.0001, "loss": 1.0224, "step": 4511 }, { "epoch": 1.04064, "grad_norm": 0.023886036428375744, "learning_rate": 0.0001, "loss": 0.9888, "step": 4512 }, { "epoch": 1.0406933333333332, "grad_norm": 0.02451916390541396, "learning_rate": 0.0001, "loss": 1.0004, "step": 4513 }, { "epoch": 1.0407466666666667, "grad_norm": 0.025049500326144544, "learning_rate": 0.0001, "loss": 0.9553, "step": 4514 }, { "epoch": 1.0408, "grad_norm": 0.0235203574431286, "learning_rate": 0.0001, "loss": 0.9981, "step": 4515 }, { "epoch": 1.0408533333333334, "grad_norm": 0.023897460277742078, "learning_rate": 0.0001, "loss": 0.9417, "step": 4516 }, { "epoch": 1.0409066666666666, "grad_norm": 0.023694076091394733, "learning_rate": 0.0001, "loss": 0.928, "step": 4517 }, { "epoch": 1.04096, "grad_norm": 0.023340033290487863, "learning_rate": 0.0001, "loss": 1.0017, "step": 4518 }, { "epoch": 1.0410133333333333, "grad_norm": 0.02534117624844101, "learning_rate": 0.0001, "loss": 0.9623, "step": 4519 }, { "epoch": 1.0410666666666666, "grad_norm": 0.024055934364912848, "learning_rate": 0.0001, "loss": 0.9642, "step": 4520 }, { "epoch": 1.04112, "grad_norm": 0.023858028423329024, "learning_rate": 0.0001, "loss": 0.9895, "step": 4521 }, { "epoch": 1.0411733333333333, "grad_norm": 0.023704208975235917, "learning_rate": 0.0001, "loss": 1.0025, "step": 4522 }, { "epoch": 1.0412266666666667, "grad_norm": 0.023070841363613166, "learning_rate": 0.0001, "loss": 0.9792, "step": 4523 }, { "epoch": 1.04128, "grad_norm": 0.02406657765301327, "learning_rate": 0.0001, "loss": 0.9482, "step": 4524 }, { "epoch": 1.0413333333333332, "grad_norm": 0.02679264341009875, "learning_rate": 0.0001, "loss": 0.9982, "step": 4525 }, { "epoch": 1.0413866666666667, "grad_norm": 0.026888432968897626, "learning_rate": 0.0001, "loss": 0.9523, "step": 4526 }, { "epoch": 1.04144, "grad_norm": 0.024123607871148648, "learning_rate": 0.0001, "loss": 1.022, "step": 4527 }, { "epoch": 1.0414933333333334, "grad_norm": 0.023566369461423764, "learning_rate": 0.0001, "loss": 1.0263, "step": 4528 }, { "epoch": 1.0415466666666666, "grad_norm": 0.0239291037045171, "learning_rate": 0.0001, "loss": 1.0137, "step": 4529 }, { "epoch": 1.0416, "grad_norm": 0.02657468649716144, "learning_rate": 0.0001, "loss": 1.0369, "step": 4530 }, { "epoch": 1.0416533333333333, "grad_norm": 0.023984798780702365, "learning_rate": 0.0001, "loss": 0.9398, "step": 4531 }, { "epoch": 1.0417066666666668, "grad_norm": 0.025571757980399394, "learning_rate": 0.0001, "loss": 1.0084, "step": 4532 }, { "epoch": 1.04176, "grad_norm": 0.024319106908739677, "learning_rate": 0.0001, "loss": 1.021, "step": 4533 }, { "epoch": 1.0418133333333333, "grad_norm": 0.025544295945672462, "learning_rate": 0.0001, "loss": 1.0401, "step": 4534 }, { "epoch": 1.0418666666666667, "grad_norm": 0.024764598668316283, "learning_rate": 0.0001, "loss": 1.0074, "step": 4535 }, { "epoch": 1.04192, "grad_norm": 0.024949071258798763, "learning_rate": 0.0001, "loss": 1.0163, "step": 4536 }, { "epoch": 1.0419733333333334, "grad_norm": 0.025195932687757133, "learning_rate": 0.0001, "loss": 1.0207, "step": 4537 }, { "epoch": 1.0420266666666667, "grad_norm": 0.023269465957548578, "learning_rate": 0.0001, "loss": 1.0088, "step": 4538 }, { "epoch": 1.04208, "grad_norm": 0.024410308204329212, "learning_rate": 0.0001, "loss": 0.968, "step": 4539 }, { "epoch": 1.0421333333333334, "grad_norm": 0.02486814927121173, "learning_rate": 0.0001, "loss": 0.9675, "step": 4540 }, { "epoch": 1.0421866666666666, "grad_norm": 0.023447112431081666, "learning_rate": 0.0001, "loss": 0.9507, "step": 4541 }, { "epoch": 1.04224, "grad_norm": 0.024101005980671768, "learning_rate": 0.0001, "loss": 0.9285, "step": 4542 }, { "epoch": 1.0422933333333333, "grad_norm": 0.02531607311717079, "learning_rate": 0.0001, "loss": 0.9677, "step": 4543 }, { "epoch": 1.0423466666666668, "grad_norm": 0.023747713270462767, "learning_rate": 0.0001, "loss": 0.9909, "step": 4544 }, { "epoch": 1.0424, "grad_norm": 0.025165212436178128, "learning_rate": 0.0001, "loss": 0.9665, "step": 4545 }, { "epoch": 1.0424533333333332, "grad_norm": 0.02635156888408271, "learning_rate": 0.0001, "loss": 1.0079, "step": 4546 }, { "epoch": 1.0425066666666667, "grad_norm": 0.028349284518643388, "learning_rate": 0.0001, "loss": 0.9714, "step": 4547 }, { "epoch": 1.04256, "grad_norm": 0.02270046618575519, "learning_rate": 0.0001, "loss": 0.9497, "step": 4548 }, { "epoch": 1.0426133333333334, "grad_norm": 0.028260368627069748, "learning_rate": 0.0001, "loss": 0.995, "step": 4549 }, { "epoch": 1.0426666666666666, "grad_norm": 0.024667387831793744, "learning_rate": 0.0001, "loss": 1.0141, "step": 4550 }, { "epoch": 1.04272, "grad_norm": 0.02788057728319677, "learning_rate": 0.0001, "loss": 0.9604, "step": 4551 }, { "epoch": 1.0427733333333333, "grad_norm": 0.025483996445298418, "learning_rate": 0.0001, "loss": 0.9814, "step": 4552 }, { "epoch": 1.0428266666666666, "grad_norm": 0.02475064356816004, "learning_rate": 0.0001, "loss": 0.9616, "step": 4553 }, { "epoch": 1.04288, "grad_norm": 0.027401259418959344, "learning_rate": 0.0001, "loss": 0.9335, "step": 4554 }, { "epoch": 1.0429333333333333, "grad_norm": 0.026621269842579138, "learning_rate": 0.0001, "loss": 0.9709, "step": 4555 }, { "epoch": 1.0429866666666667, "grad_norm": 0.02458399136076081, "learning_rate": 0.0001, "loss": 0.9976, "step": 4556 }, { "epoch": 1.04304, "grad_norm": 0.026338745537164938, "learning_rate": 0.0001, "loss": 1.0432, "step": 4557 }, { "epoch": 1.0430933333333334, "grad_norm": 0.025430109834033265, "learning_rate": 0.0001, "loss": 1.021, "step": 4558 }, { "epoch": 1.0431466666666667, "grad_norm": 0.025255403879022024, "learning_rate": 0.0001, "loss": 0.9934, "step": 4559 }, { "epoch": 1.0432, "grad_norm": 0.025233842263503926, "learning_rate": 0.0001, "loss": 0.9888, "step": 4560 }, { "epoch": 1.0432533333333334, "grad_norm": 0.024876465122339098, "learning_rate": 0.0001, "loss": 0.9151, "step": 4561 }, { "epoch": 1.0433066666666666, "grad_norm": 0.024806039930383817, "learning_rate": 0.0001, "loss": 0.9417, "step": 4562 }, { "epoch": 1.04336, "grad_norm": 0.023970132923629837, "learning_rate": 0.0001, "loss": 0.9432, "step": 4563 }, { "epoch": 1.0434133333333333, "grad_norm": 0.024500205477346347, "learning_rate": 0.0001, "loss": 0.9496, "step": 4564 }, { "epoch": 1.0434666666666668, "grad_norm": 0.024669780015740963, "learning_rate": 0.0001, "loss": 0.952, "step": 4565 }, { "epoch": 1.04352, "grad_norm": 0.024557306490017708, "learning_rate": 0.0001, "loss": 0.9544, "step": 4566 }, { "epoch": 1.0435733333333332, "grad_norm": 0.024950259749004958, "learning_rate": 0.0001, "loss": 0.9513, "step": 4567 }, { "epoch": 1.0436266666666667, "grad_norm": 0.025268703090243747, "learning_rate": 0.0001, "loss": 0.9962, "step": 4568 }, { "epoch": 1.04368, "grad_norm": 0.0247990589789008, "learning_rate": 0.0001, "loss": 0.9916, "step": 4569 }, { "epoch": 1.0437333333333334, "grad_norm": 0.02386040926587902, "learning_rate": 0.0001, "loss": 1.0028, "step": 4570 }, { "epoch": 1.0437866666666666, "grad_norm": 0.026379063633156043, "learning_rate": 0.0001, "loss": 0.9964, "step": 4571 }, { "epoch": 1.04384, "grad_norm": 0.026545742960822745, "learning_rate": 0.0001, "loss": 1.0337, "step": 4572 }, { "epoch": 1.0438933333333333, "grad_norm": 0.026218497734636984, "learning_rate": 0.0001, "loss": 0.9948, "step": 4573 }, { "epoch": 1.0439466666666666, "grad_norm": 0.025264386993253708, "learning_rate": 0.0001, "loss": 1.0348, "step": 4574 }, { "epoch": 1.044, "grad_norm": 0.023620734562074742, "learning_rate": 0.0001, "loss": 0.9469, "step": 4575 }, { "epoch": 1.0440533333333333, "grad_norm": 0.024871791237559334, "learning_rate": 0.0001, "loss": 1.0123, "step": 4576 }, { "epoch": 1.0441066666666667, "grad_norm": 0.025300138262202954, "learning_rate": 0.0001, "loss": 0.9567, "step": 4577 }, { "epoch": 1.04416, "grad_norm": 0.024304350063144003, "learning_rate": 0.0001, "loss": 0.9926, "step": 4578 }, { "epoch": 1.0442133333333334, "grad_norm": 0.02620528203138692, "learning_rate": 0.0001, "loss": 1.002, "step": 4579 }, { "epoch": 1.0442666666666667, "grad_norm": 0.025090013818155617, "learning_rate": 0.0001, "loss": 0.9765, "step": 4580 }, { "epoch": 1.04432, "grad_norm": 0.022617785374904793, "learning_rate": 0.0001, "loss": 0.9862, "step": 4581 }, { "epoch": 1.0443733333333334, "grad_norm": 0.024596435654643985, "learning_rate": 0.0001, "loss": 0.9197, "step": 4582 }, { "epoch": 1.0444266666666666, "grad_norm": 0.024245083502844034, "learning_rate": 0.0001, "loss": 0.9906, "step": 4583 }, { "epoch": 1.04448, "grad_norm": 0.024484664085861235, "learning_rate": 0.0001, "loss": 0.9847, "step": 4584 }, { "epoch": 1.0445333333333333, "grad_norm": 0.024633959458881256, "learning_rate": 0.0001, "loss": 0.9761, "step": 4585 }, { "epoch": 1.0445866666666666, "grad_norm": 0.024255926370469263, "learning_rate": 0.0001, "loss": 0.9701, "step": 4586 }, { "epoch": 1.04464, "grad_norm": 0.023663578414773977, "learning_rate": 0.0001, "loss": 1.0105, "step": 4587 }, { "epoch": 1.0446933333333333, "grad_norm": 0.02391667239138612, "learning_rate": 0.0001, "loss": 0.9902, "step": 4588 }, { "epoch": 1.0447466666666667, "grad_norm": 0.02553877713252693, "learning_rate": 0.0001, "loss": 0.9877, "step": 4589 }, { "epoch": 1.0448, "grad_norm": 0.026338493283970737, "learning_rate": 0.0001, "loss": 0.9821, "step": 4590 }, { "epoch": 1.0448533333333334, "grad_norm": 0.02440962132157381, "learning_rate": 0.0001, "loss": 1.0262, "step": 4591 }, { "epoch": 1.0449066666666667, "grad_norm": 0.024677437151617333, "learning_rate": 0.0001, "loss": 0.9623, "step": 4592 }, { "epoch": 1.04496, "grad_norm": 0.02347156646884193, "learning_rate": 0.0001, "loss": 0.9718, "step": 4593 }, { "epoch": 1.0450133333333333, "grad_norm": 0.025245762371635193, "learning_rate": 0.0001, "loss": 1.0069, "step": 4594 }, { "epoch": 1.0450666666666666, "grad_norm": 0.02465998230513875, "learning_rate": 0.0001, "loss": 1.0205, "step": 4595 }, { "epoch": 1.04512, "grad_norm": 0.027332140462820446, "learning_rate": 0.0001, "loss": 0.991, "step": 4596 }, { "epoch": 1.0451733333333333, "grad_norm": 0.024268685581193893, "learning_rate": 0.0001, "loss": 0.9649, "step": 4597 }, { "epoch": 1.0452266666666667, "grad_norm": 0.024051700629198394, "learning_rate": 0.0001, "loss": 0.9673, "step": 4598 }, { "epoch": 1.04528, "grad_norm": 0.024203817562597943, "learning_rate": 0.0001, "loss": 0.9508, "step": 4599 }, { "epoch": 1.0453333333333332, "grad_norm": 0.022789101415309543, "learning_rate": 0.0001, "loss": 1.0024, "step": 4600 }, { "epoch": 1.0453333333333332, "eval_accuracy": 0.6168919761173935, "eval_loss": 1.3724803924560547, "eval_runtime": 62.4718, "eval_samples_per_second": 16.007, "eval_steps_per_second": 0.512, "step": 4600 }, { "epoch": 1.0453866666666667, "grad_norm": 0.025426405280464047, "learning_rate": 0.0001, "loss": 0.9602, "step": 4601 }, { "epoch": 1.04544, "grad_norm": 0.023430924704057603, "learning_rate": 0.0001, "loss": 1.0424, "step": 4602 }, { "epoch": 1.0454933333333334, "grad_norm": 0.022816565210101863, "learning_rate": 0.0001, "loss": 0.97, "step": 4603 }, { "epoch": 1.0455466666666666, "grad_norm": 0.02465880437511415, "learning_rate": 0.0001, "loss": 0.982, "step": 4604 }, { "epoch": 1.0456, "grad_norm": 0.02456890885510141, "learning_rate": 0.0001, "loss": 0.9991, "step": 4605 }, { "epoch": 1.0456533333333333, "grad_norm": 0.023385175068900907, "learning_rate": 0.0001, "loss": 1.0115, "step": 4606 }, { "epoch": 1.0457066666666666, "grad_norm": 0.026229503702818267, "learning_rate": 0.0001, "loss": 0.9832, "step": 4607 }, { "epoch": 1.04576, "grad_norm": 0.026767626769473477, "learning_rate": 0.0001, "loss": 0.9909, "step": 4608 }, { "epoch": 1.0458133333333333, "grad_norm": 0.025512086967688287, "learning_rate": 0.0001, "loss": 0.9314, "step": 4609 }, { "epoch": 1.0458666666666667, "grad_norm": 0.026087742054467556, "learning_rate": 0.0001, "loss": 0.94, "step": 4610 }, { "epoch": 1.04592, "grad_norm": 0.022996540436250233, "learning_rate": 0.0001, "loss": 0.9728, "step": 4611 }, { "epoch": 1.0459733333333334, "grad_norm": 0.024527010675760127, "learning_rate": 0.0001, "loss": 0.9919, "step": 4612 }, { "epoch": 1.0460266666666667, "grad_norm": 0.024438653360109676, "learning_rate": 0.0001, "loss": 1.0443, "step": 4613 }, { "epoch": 1.04608, "grad_norm": 0.02831404890155385, "learning_rate": 0.0001, "loss": 0.9892, "step": 4614 }, { "epoch": 1.0461333333333334, "grad_norm": 0.02728298868478119, "learning_rate": 0.0001, "loss": 0.9971, "step": 4615 }, { "epoch": 1.0461866666666666, "grad_norm": 0.02387853321245983, "learning_rate": 0.0001, "loss": 0.9527, "step": 4616 }, { "epoch": 1.04624, "grad_norm": 0.024428413180684085, "learning_rate": 0.0001, "loss": 0.9864, "step": 4617 }, { "epoch": 1.0462933333333333, "grad_norm": 0.02474849073011206, "learning_rate": 0.0001, "loss": 0.9773, "step": 4618 }, { "epoch": 1.0463466666666668, "grad_norm": 0.02442382011533083, "learning_rate": 0.0001, "loss": 0.9483, "step": 4619 }, { "epoch": 1.0464, "grad_norm": 0.024995037357289817, "learning_rate": 0.0001, "loss": 0.9821, "step": 4620 }, { "epoch": 1.0464533333333332, "grad_norm": 0.024898148606462254, "learning_rate": 0.0001, "loss": 0.9968, "step": 4621 }, { "epoch": 1.0465066666666667, "grad_norm": 0.023587918492046295, "learning_rate": 0.0001, "loss": 0.9826, "step": 4622 }, { "epoch": 1.04656, "grad_norm": 0.02492636059938225, "learning_rate": 0.0001, "loss": 0.9904, "step": 4623 }, { "epoch": 1.0466133333333334, "grad_norm": 0.025238711538063462, "learning_rate": 0.0001, "loss": 0.929, "step": 4624 }, { "epoch": 1.0466666666666666, "grad_norm": 0.023994586375122185, "learning_rate": 0.0001, "loss": 0.9658, "step": 4625 }, { "epoch": 1.04672, "grad_norm": 0.025132529345868574, "learning_rate": 0.0001, "loss": 1.0521, "step": 4626 }, { "epoch": 1.0467733333333333, "grad_norm": 0.02814688002081715, "learning_rate": 0.0001, "loss": 1.0082, "step": 4627 }, { "epoch": 1.0468266666666666, "grad_norm": 0.025783114961229977, "learning_rate": 0.0001, "loss": 0.96, "step": 4628 }, { "epoch": 1.04688, "grad_norm": 0.024277570726444632, "learning_rate": 0.0001, "loss": 1.0062, "step": 4629 }, { "epoch": 1.0469333333333333, "grad_norm": 0.025274461360368653, "learning_rate": 0.0001, "loss": 1.0391, "step": 4630 }, { "epoch": 1.0469866666666667, "grad_norm": 0.025831444594482784, "learning_rate": 0.0001, "loss": 0.9791, "step": 4631 }, { "epoch": 1.04704, "grad_norm": 0.02296292661328548, "learning_rate": 0.0001, "loss": 0.9443, "step": 4632 }, { "epoch": 1.0470933333333334, "grad_norm": 0.025490667533507563, "learning_rate": 0.0001, "loss": 0.9929, "step": 4633 }, { "epoch": 1.0471466666666667, "grad_norm": 0.0260676690272804, "learning_rate": 0.0001, "loss": 1.0362, "step": 4634 }, { "epoch": 1.0472, "grad_norm": 0.024536959760065764, "learning_rate": 0.0001, "loss": 1.0337, "step": 4635 }, { "epoch": 1.0472533333333334, "grad_norm": 0.025145931046813667, "learning_rate": 0.0001, "loss": 0.9553, "step": 4636 }, { "epoch": 1.0473066666666666, "grad_norm": 0.023973236751558248, "learning_rate": 0.0001, "loss": 0.9643, "step": 4637 }, { "epoch": 1.04736, "grad_norm": 0.024187041045529677, "learning_rate": 0.0001, "loss": 1.0101, "step": 4638 }, { "epoch": 1.0474133333333333, "grad_norm": 0.024299650222289183, "learning_rate": 0.0001, "loss": 0.9871, "step": 4639 }, { "epoch": 1.0474666666666668, "grad_norm": 0.024286477514761214, "learning_rate": 0.0001, "loss": 1.0207, "step": 4640 }, { "epoch": 1.04752, "grad_norm": 0.025598246557793202, "learning_rate": 0.0001, "loss": 1.0405, "step": 4641 }, { "epoch": 1.0475733333333332, "grad_norm": 0.023133879623416283, "learning_rate": 0.0001, "loss": 0.9798, "step": 4642 }, { "epoch": 1.0476266666666667, "grad_norm": 0.02413981692828351, "learning_rate": 0.0001, "loss": 0.9796, "step": 4643 }, { "epoch": 1.04768, "grad_norm": 0.02572896873505987, "learning_rate": 0.0001, "loss": 0.9712, "step": 4644 }, { "epoch": 1.0477333333333334, "grad_norm": 0.024957456118566177, "learning_rate": 0.0001, "loss": 1.019, "step": 4645 }, { "epoch": 1.0477866666666666, "grad_norm": 0.025207633268940863, "learning_rate": 0.0001, "loss": 0.995, "step": 4646 }, { "epoch": 1.04784, "grad_norm": 0.024105884566740066, "learning_rate": 0.0001, "loss": 1.0441, "step": 4647 }, { "epoch": 1.0478933333333333, "grad_norm": 0.025381432148465062, "learning_rate": 0.0001, "loss": 0.9978, "step": 4648 }, { "epoch": 1.0479466666666666, "grad_norm": 0.02397292227056436, "learning_rate": 0.0001, "loss": 0.9468, "step": 4649 }, { "epoch": 1.048, "grad_norm": 0.023355107756818844, "learning_rate": 0.0001, "loss": 0.947, "step": 4650 }, { "epoch": 1.0480533333333333, "grad_norm": 0.026222554466286043, "learning_rate": 0.0001, "loss": 0.9779, "step": 4651 }, { "epoch": 1.0481066666666667, "grad_norm": 0.0248556311050615, "learning_rate": 0.0001, "loss": 0.9649, "step": 4652 }, { "epoch": 1.04816, "grad_norm": 0.023490318614393917, "learning_rate": 0.0001, "loss": 0.9892, "step": 4653 }, { "epoch": 1.0482133333333334, "grad_norm": 0.02522146180436512, "learning_rate": 0.0001, "loss": 0.961, "step": 4654 }, { "epoch": 1.0482666666666667, "grad_norm": 0.02433549936339459, "learning_rate": 0.0001, "loss": 0.9601, "step": 4655 }, { "epoch": 1.04832, "grad_norm": 0.025871358118956547, "learning_rate": 0.0001, "loss": 0.9654, "step": 4656 }, { "epoch": 1.0483733333333334, "grad_norm": 0.02319385270310378, "learning_rate": 0.0001, "loss": 0.9695, "step": 4657 }, { "epoch": 1.0484266666666666, "grad_norm": 0.022662541681987895, "learning_rate": 0.0001, "loss": 0.9505, "step": 4658 }, { "epoch": 1.04848, "grad_norm": 0.02500208267473639, "learning_rate": 0.0001, "loss": 1.0026, "step": 4659 }, { "epoch": 1.0485333333333333, "grad_norm": 0.024200757010987672, "learning_rate": 0.0001, "loss": 0.9788, "step": 4660 }, { "epoch": 1.0485866666666666, "grad_norm": 0.024205550928579095, "learning_rate": 0.0001, "loss": 0.9688, "step": 4661 }, { "epoch": 1.04864, "grad_norm": 0.02327440739511144, "learning_rate": 0.0001, "loss": 0.9693, "step": 4662 }, { "epoch": 1.0486933333333333, "grad_norm": 0.02319673242128205, "learning_rate": 0.0001, "loss": 0.9382, "step": 4663 }, { "epoch": 1.0487466666666667, "grad_norm": 0.02373375386211413, "learning_rate": 0.0001, "loss": 0.9197, "step": 4664 }, { "epoch": 1.0488, "grad_norm": 0.02678946417643041, "learning_rate": 0.0001, "loss": 0.8902, "step": 4665 }, { "epoch": 1.0488533333333334, "grad_norm": 0.025263962682654947, "learning_rate": 0.0001, "loss": 0.9841, "step": 4666 }, { "epoch": 1.0489066666666667, "grad_norm": 0.023532354151708974, "learning_rate": 0.0001, "loss": 1.0057, "step": 4667 }, { "epoch": 1.04896, "grad_norm": 0.026543268363293453, "learning_rate": 0.0001, "loss": 1.0253, "step": 4668 }, { "epoch": 1.0490133333333334, "grad_norm": 0.02603136074760292, "learning_rate": 0.0001, "loss": 0.9611, "step": 4669 }, { "epoch": 1.0490666666666666, "grad_norm": 0.024071611336666136, "learning_rate": 0.0001, "loss": 0.9473, "step": 4670 }, { "epoch": 1.04912, "grad_norm": 0.027084858376106438, "learning_rate": 0.0001, "loss": 1.0006, "step": 4671 }, { "epoch": 1.0491733333333333, "grad_norm": 0.025885795029240845, "learning_rate": 0.0001, "loss": 0.9813, "step": 4672 }, { "epoch": 1.0492266666666668, "grad_norm": 0.024085732544912936, "learning_rate": 0.0001, "loss": 1.0286, "step": 4673 }, { "epoch": 1.04928, "grad_norm": 0.025594899978931697, "learning_rate": 0.0001, "loss": 0.9898, "step": 4674 }, { "epoch": 1.0493333333333332, "grad_norm": 0.02408576316934152, "learning_rate": 0.0001, "loss": 1.0126, "step": 4675 }, { "epoch": 1.0493866666666667, "grad_norm": 0.02596881503248052, "learning_rate": 0.0001, "loss": 0.954, "step": 4676 }, { "epoch": 1.04944, "grad_norm": 0.025064644553687326, "learning_rate": 0.0001, "loss": 0.9844, "step": 4677 }, { "epoch": 1.0494933333333334, "grad_norm": 0.02507645760973957, "learning_rate": 0.0001, "loss": 0.9488, "step": 4678 }, { "epoch": 1.0495466666666666, "grad_norm": 0.0254080290813533, "learning_rate": 0.0001, "loss": 1.0041, "step": 4679 }, { "epoch": 1.0496, "grad_norm": 0.02277140290581303, "learning_rate": 0.0001, "loss": 0.9628, "step": 4680 }, { "epoch": 1.0496533333333333, "grad_norm": 0.024275806955961814, "learning_rate": 0.0001, "loss": 1.0261, "step": 4681 }, { "epoch": 1.0497066666666666, "grad_norm": 0.024259506763314707, "learning_rate": 0.0001, "loss": 0.9878, "step": 4682 }, { "epoch": 1.04976, "grad_norm": 0.024525033795932776, "learning_rate": 0.0001, "loss": 1.005, "step": 4683 }, { "epoch": 1.0498133333333333, "grad_norm": 0.026077750309968745, "learning_rate": 0.0001, "loss": 0.9753, "step": 4684 }, { "epoch": 1.0498666666666667, "grad_norm": 0.025398725611135143, "learning_rate": 0.0001, "loss": 1.0313, "step": 4685 }, { "epoch": 1.04992, "grad_norm": 0.025389648060087967, "learning_rate": 0.0001, "loss": 0.9933, "step": 4686 }, { "epoch": 1.0499733333333334, "grad_norm": 0.02290345949458434, "learning_rate": 0.0001, "loss": 0.9861, "step": 4687 }, { "epoch": 1.0500266666666667, "grad_norm": 0.02369011771074451, "learning_rate": 0.0001, "loss": 0.9686, "step": 4688 }, { "epoch": 1.05008, "grad_norm": 0.023638552652013086, "learning_rate": 0.0001, "loss": 0.9806, "step": 4689 }, { "epoch": 1.0501333333333334, "grad_norm": 0.023098009057421084, "learning_rate": 0.0001, "loss": 0.9541, "step": 4690 }, { "epoch": 1.0501866666666666, "grad_norm": 0.02559601956104272, "learning_rate": 0.0001, "loss": 0.9571, "step": 4691 }, { "epoch": 1.05024, "grad_norm": 0.024011492091222237, "learning_rate": 0.0001, "loss": 0.9451, "step": 4692 }, { "epoch": 1.0502933333333333, "grad_norm": 0.02523173407832122, "learning_rate": 0.0001, "loss": 0.9862, "step": 4693 }, { "epoch": 1.0503466666666668, "grad_norm": 0.0235163667690614, "learning_rate": 0.0001, "loss": 0.9896, "step": 4694 }, { "epoch": 1.0504, "grad_norm": 0.023343424012841816, "learning_rate": 0.0001, "loss": 0.9626, "step": 4695 }, { "epoch": 1.0504533333333332, "grad_norm": 0.02426859596955542, "learning_rate": 0.0001, "loss": 1.005, "step": 4696 }, { "epoch": 1.0505066666666667, "grad_norm": 0.024317003004787233, "learning_rate": 0.0001, "loss": 0.9978, "step": 4697 }, { "epoch": 1.05056, "grad_norm": 0.024680464935016147, "learning_rate": 0.0001, "loss": 0.9945, "step": 4698 }, { "epoch": 1.0506133333333334, "grad_norm": 0.026992369703224658, "learning_rate": 0.0001, "loss": 0.9956, "step": 4699 }, { "epoch": 1.0506666666666666, "grad_norm": 0.02516290016408624, "learning_rate": 0.0001, "loss": 1.0217, "step": 4700 }, { "epoch": 1.05072, "grad_norm": 0.023937696104451178, "learning_rate": 0.0001, "loss": 1.0231, "step": 4701 }, { "epoch": 1.0507733333333333, "grad_norm": 0.024982838259031585, "learning_rate": 0.0001, "loss": 0.9758, "step": 4702 }, { "epoch": 1.0508266666666666, "grad_norm": 0.026087653021307864, "learning_rate": 0.0001, "loss": 0.9384, "step": 4703 }, { "epoch": 1.05088, "grad_norm": 0.023228986472867034, "learning_rate": 0.0001, "loss": 0.994, "step": 4704 }, { "epoch": 1.0509333333333333, "grad_norm": 0.023182605671037266, "learning_rate": 0.0001, "loss": 1.0111, "step": 4705 }, { "epoch": 1.0509866666666667, "grad_norm": 0.02400882366152043, "learning_rate": 0.0001, "loss": 1.0097, "step": 4706 }, { "epoch": 1.05104, "grad_norm": 0.025267314377974845, "learning_rate": 0.0001, "loss": 0.9376, "step": 4707 }, { "epoch": 1.0510933333333334, "grad_norm": 0.02529848855131258, "learning_rate": 0.0001, "loss": 0.9239, "step": 4708 }, { "epoch": 1.0511466666666667, "grad_norm": 0.024267247425655655, "learning_rate": 0.0001, "loss": 0.9893, "step": 4709 }, { "epoch": 1.0512, "grad_norm": 0.023757053037638715, "learning_rate": 0.0001, "loss": 0.995, "step": 4710 }, { "epoch": 1.0512533333333334, "grad_norm": 0.024442467712321312, "learning_rate": 0.0001, "loss": 0.9723, "step": 4711 }, { "epoch": 1.0513066666666666, "grad_norm": 0.026054048999075523, "learning_rate": 0.0001, "loss": 0.9937, "step": 4712 }, { "epoch": 1.05136, "grad_norm": 0.02508502672005415, "learning_rate": 0.0001, "loss": 0.9421, "step": 4713 }, { "epoch": 1.0514133333333333, "grad_norm": 0.025382109307611866, "learning_rate": 0.0001, "loss": 1.0169, "step": 4714 }, { "epoch": 1.0514666666666668, "grad_norm": 0.022946217889120168, "learning_rate": 0.0001, "loss": 0.9555, "step": 4715 }, { "epoch": 1.05152, "grad_norm": 0.023486731469221176, "learning_rate": 0.0001, "loss": 1.0328, "step": 4716 }, { "epoch": 1.0515733333333332, "grad_norm": 0.025396392421213762, "learning_rate": 0.0001, "loss": 0.9739, "step": 4717 }, { "epoch": 1.0516266666666667, "grad_norm": 0.024446079832931122, "learning_rate": 0.0001, "loss": 0.935, "step": 4718 }, { "epoch": 1.05168, "grad_norm": 0.02716059707943564, "learning_rate": 0.0001, "loss": 1.0063, "step": 4719 }, { "epoch": 1.0517333333333334, "grad_norm": 0.027149818245267753, "learning_rate": 0.0001, "loss": 1.0039, "step": 4720 }, { "epoch": 1.0517866666666666, "grad_norm": 0.025413537391659077, "learning_rate": 0.0001, "loss": 1.039, "step": 4721 }, { "epoch": 1.0518399999999999, "grad_norm": 0.027216648163904372, "learning_rate": 0.0001, "loss": 1.0221, "step": 4722 }, { "epoch": 1.0518933333333333, "grad_norm": 0.02833249830023696, "learning_rate": 0.0001, "loss": 1.0033, "step": 4723 }, { "epoch": 1.0519466666666666, "grad_norm": 0.02389817063370327, "learning_rate": 0.0001, "loss": 1.0407, "step": 4724 }, { "epoch": 1.052, "grad_norm": 0.024372944611794622, "learning_rate": 0.0001, "loss": 1.0353, "step": 4725 }, { "epoch": 1.0520533333333333, "grad_norm": 0.0253043480323509, "learning_rate": 0.0001, "loss": 0.9988, "step": 4726 }, { "epoch": 1.0521066666666667, "grad_norm": 0.023592638144693534, "learning_rate": 0.0001, "loss": 1.034, "step": 4727 }, { "epoch": 1.05216, "grad_norm": 0.023878842938323867, "learning_rate": 0.0001, "loss": 1.0289, "step": 4728 }, { "epoch": 1.0522133333333334, "grad_norm": 0.024694920064544688, "learning_rate": 0.0001, "loss": 0.9565, "step": 4729 }, { "epoch": 1.0522666666666667, "grad_norm": 0.027341694461267867, "learning_rate": 0.0001, "loss": 0.9972, "step": 4730 }, { "epoch": 1.05232, "grad_norm": 0.026233160776578213, "learning_rate": 0.0001, "loss": 0.9976, "step": 4731 }, { "epoch": 1.0523733333333334, "grad_norm": 0.024306517931620135, "learning_rate": 0.0001, "loss": 1.0249, "step": 4732 }, { "epoch": 1.0524266666666666, "grad_norm": 0.02577972786351958, "learning_rate": 0.0001, "loss": 1.0125, "step": 4733 }, { "epoch": 1.05248, "grad_norm": 0.023762408670285427, "learning_rate": 0.0001, "loss": 0.9586, "step": 4734 }, { "epoch": 1.0525333333333333, "grad_norm": 0.02529103549462369, "learning_rate": 0.0001, "loss": 0.979, "step": 4735 }, { "epoch": 1.0525866666666666, "grad_norm": 0.02725387408063873, "learning_rate": 0.0001, "loss": 0.9292, "step": 4736 }, { "epoch": 1.05264, "grad_norm": 0.02340262286115906, "learning_rate": 0.0001, "loss": 0.8964, "step": 4737 }, { "epoch": 1.0526933333333333, "grad_norm": 0.022991707239486365, "learning_rate": 0.0001, "loss": 0.9451, "step": 4738 }, { "epoch": 1.0527466666666667, "grad_norm": 0.024666889670957107, "learning_rate": 0.0001, "loss": 0.9747, "step": 4739 }, { "epoch": 1.0528, "grad_norm": 0.023947209915774117, "learning_rate": 0.0001, "loss": 0.97, "step": 4740 }, { "epoch": 1.0528533333333334, "grad_norm": 0.024420193387915047, "learning_rate": 0.0001, "loss": 0.9484, "step": 4741 }, { "epoch": 1.0529066666666667, "grad_norm": 0.023158872023968578, "learning_rate": 0.0001, "loss": 1.0038, "step": 4742 }, { "epoch": 1.05296, "grad_norm": 0.024223283784292046, "learning_rate": 0.0001, "loss": 0.9772, "step": 4743 }, { "epoch": 1.0530133333333334, "grad_norm": 0.02519617759953437, "learning_rate": 0.0001, "loss": 1.0017, "step": 4744 }, { "epoch": 1.0530666666666666, "grad_norm": 0.025201065908705, "learning_rate": 0.0001, "loss": 1.004, "step": 4745 }, { "epoch": 1.05312, "grad_norm": 0.02471435981365926, "learning_rate": 0.0001, "loss": 1.0028, "step": 4746 }, { "epoch": 1.0531733333333333, "grad_norm": 0.027279709989275435, "learning_rate": 0.0001, "loss": 0.9804, "step": 4747 }, { "epoch": 1.0532266666666668, "grad_norm": 0.024108083349785654, "learning_rate": 0.0001, "loss": 0.9004, "step": 4748 }, { "epoch": 1.05328, "grad_norm": 0.02436856759997679, "learning_rate": 0.0001, "loss": 0.9952, "step": 4749 }, { "epoch": 1.0533333333333332, "grad_norm": 0.02490613891748446, "learning_rate": 0.0001, "loss": 1.0035, "step": 4750 }, { "epoch": 1.0533866666666667, "grad_norm": 0.024140907362805872, "learning_rate": 0.0001, "loss": 0.9567, "step": 4751 }, { "epoch": 1.05344, "grad_norm": 0.02434468935990051, "learning_rate": 0.0001, "loss": 0.9804, "step": 4752 }, { "epoch": 1.0534933333333334, "grad_norm": 0.026002337935707626, "learning_rate": 0.0001, "loss": 0.9514, "step": 4753 }, { "epoch": 1.0535466666666666, "grad_norm": 0.025156107415004507, "learning_rate": 0.0001, "loss": 0.9399, "step": 4754 }, { "epoch": 1.0536, "grad_norm": 0.02179585925481409, "learning_rate": 0.0001, "loss": 0.9269, "step": 4755 }, { "epoch": 1.0536533333333333, "grad_norm": 0.024771262690299414, "learning_rate": 0.0001, "loss": 0.9818, "step": 4756 }, { "epoch": 1.0537066666666666, "grad_norm": 0.024628116186455766, "learning_rate": 0.0001, "loss": 0.9383, "step": 4757 }, { "epoch": 1.05376, "grad_norm": 0.02560727135015384, "learning_rate": 0.0001, "loss": 0.9327, "step": 4758 }, { "epoch": 1.0538133333333333, "grad_norm": 0.024911337559386595, "learning_rate": 0.0001, "loss": 0.9281, "step": 4759 }, { "epoch": 1.0538666666666667, "grad_norm": 0.028094881156318665, "learning_rate": 0.0001, "loss": 0.9301, "step": 4760 }, { "epoch": 1.05392, "grad_norm": 0.024795785855194263, "learning_rate": 0.0001, "loss": 0.9834, "step": 4761 }, { "epoch": 1.0539733333333334, "grad_norm": 0.02320074939936041, "learning_rate": 0.0001, "loss": 1.0221, "step": 4762 }, { "epoch": 1.0540266666666667, "grad_norm": 0.02352894049758101, "learning_rate": 0.0001, "loss": 0.9966, "step": 4763 }, { "epoch": 1.05408, "grad_norm": 0.025881731847319487, "learning_rate": 0.0001, "loss": 0.9605, "step": 4764 }, { "epoch": 1.0541333333333334, "grad_norm": 0.022759440813622824, "learning_rate": 0.0001, "loss": 0.9802, "step": 4765 }, { "epoch": 1.0541866666666666, "grad_norm": 0.023432384079890903, "learning_rate": 0.0001, "loss": 0.9627, "step": 4766 }, { "epoch": 1.05424, "grad_norm": 0.02313689827042643, "learning_rate": 0.0001, "loss": 0.9279, "step": 4767 }, { "epoch": 1.0542933333333333, "grad_norm": 0.022446592373461888, "learning_rate": 0.0001, "loss": 0.9903, "step": 4768 }, { "epoch": 1.0543466666666668, "grad_norm": 0.023104755797542786, "learning_rate": 0.0001, "loss": 0.9986, "step": 4769 }, { "epoch": 1.0544, "grad_norm": 0.02378986844940752, "learning_rate": 0.0001, "loss": 0.985, "step": 4770 }, { "epoch": 1.0544533333333332, "grad_norm": 0.024222456943824765, "learning_rate": 0.0001, "loss": 0.9327, "step": 4771 }, { "epoch": 1.0545066666666667, "grad_norm": 0.025904977880058407, "learning_rate": 0.0001, "loss": 1.0432, "step": 4772 }, { "epoch": 1.05456, "grad_norm": 0.02408214300909404, "learning_rate": 0.0001, "loss": 0.9646, "step": 4773 }, { "epoch": 1.0546133333333334, "grad_norm": 0.02480187495828394, "learning_rate": 0.0001, "loss": 1.0679, "step": 4774 }, { "epoch": 1.0546666666666666, "grad_norm": 0.024735254003180426, "learning_rate": 0.0001, "loss": 0.9557, "step": 4775 }, { "epoch": 1.05472, "grad_norm": 0.02628455547491412, "learning_rate": 0.0001, "loss": 0.9864, "step": 4776 }, { "epoch": 1.0547733333333333, "grad_norm": 0.023719166100101118, "learning_rate": 0.0001, "loss": 0.9274, "step": 4777 }, { "epoch": 1.0548266666666666, "grad_norm": 0.026068347263430817, "learning_rate": 0.0001, "loss": 1.0189, "step": 4778 }, { "epoch": 1.05488, "grad_norm": 0.02579521644370088, "learning_rate": 0.0001, "loss": 0.9386, "step": 4779 }, { "epoch": 1.0549333333333333, "grad_norm": 0.025474412382096582, "learning_rate": 0.0001, "loss": 1.0089, "step": 4780 }, { "epoch": 1.0549866666666667, "grad_norm": 0.026019660578897943, "learning_rate": 0.0001, "loss": 0.9998, "step": 4781 }, { "epoch": 1.05504, "grad_norm": 0.024253078162124058, "learning_rate": 0.0001, "loss": 0.9958, "step": 4782 }, { "epoch": 1.0550933333333334, "grad_norm": 0.02608414091952744, "learning_rate": 0.0001, "loss": 0.9768, "step": 4783 }, { "epoch": 1.0551466666666667, "grad_norm": 0.024128607616445977, "learning_rate": 0.0001, "loss": 0.9472, "step": 4784 }, { "epoch": 1.0552, "grad_norm": 0.026736727640886315, "learning_rate": 0.0001, "loss": 1.0129, "step": 4785 }, { "epoch": 1.0552533333333334, "grad_norm": 0.024704712425574135, "learning_rate": 0.0001, "loss": 0.9909, "step": 4786 }, { "epoch": 1.0553066666666666, "grad_norm": 0.02316080812099747, "learning_rate": 0.0001, "loss": 0.9353, "step": 4787 }, { "epoch": 1.05536, "grad_norm": 0.024115693255545072, "learning_rate": 0.0001, "loss": 0.9349, "step": 4788 }, { "epoch": 1.0554133333333333, "grad_norm": 0.024895573885009865, "learning_rate": 0.0001, "loss": 0.9796, "step": 4789 }, { "epoch": 1.0554666666666668, "grad_norm": 0.024334086925981057, "learning_rate": 0.0001, "loss": 0.9936, "step": 4790 }, { "epoch": 1.05552, "grad_norm": 0.024461719647723236, "learning_rate": 0.0001, "loss": 0.9568, "step": 4791 }, { "epoch": 1.0555733333333333, "grad_norm": 0.024733055083299288, "learning_rate": 0.0001, "loss": 1.0042, "step": 4792 }, { "epoch": 1.0556266666666667, "grad_norm": 0.02371365591847987, "learning_rate": 0.0001, "loss": 0.9632, "step": 4793 }, { "epoch": 1.05568, "grad_norm": 0.02599137009003277, "learning_rate": 0.0001, "loss": 0.9709, "step": 4794 }, { "epoch": 1.0557333333333334, "grad_norm": 0.02434039128505891, "learning_rate": 0.0001, "loss": 1.0578, "step": 4795 }, { "epoch": 1.0557866666666667, "grad_norm": 0.024058652897110778, "learning_rate": 0.0001, "loss": 0.9371, "step": 4796 }, { "epoch": 1.05584, "grad_norm": 0.023740247289025643, "learning_rate": 0.0001, "loss": 0.9558, "step": 4797 }, { "epoch": 1.0558933333333334, "grad_norm": 0.023374248607942266, "learning_rate": 0.0001, "loss": 0.9777, "step": 4798 }, { "epoch": 1.0559466666666666, "grad_norm": 0.025190827014508234, "learning_rate": 0.0001, "loss": 1.0437, "step": 4799 }, { "epoch": 1.056, "grad_norm": 0.023081424480643178, "learning_rate": 0.0001, "loss": 0.9754, "step": 4800 }, { "epoch": 1.056, "eval_accuracy": 0.6171024261147099, "eval_loss": 1.3713281154632568, "eval_runtime": 64.5575, "eval_samples_per_second": 15.49, "eval_steps_per_second": 0.496, "step": 4800 }, { "epoch": 1.0560533333333333, "grad_norm": 0.023322216528064883, "learning_rate": 0.0001, "loss": 0.9415, "step": 4801 }, { "epoch": 1.0561066666666667, "grad_norm": 0.023096628807284806, "learning_rate": 0.0001, "loss": 0.9613, "step": 4802 }, { "epoch": 1.05616, "grad_norm": 0.024258507624169125, "learning_rate": 0.0001, "loss": 0.9659, "step": 4803 }, { "epoch": 1.0562133333333332, "grad_norm": 0.028087819007638504, "learning_rate": 0.0001, "loss": 0.9511, "step": 4804 }, { "epoch": 1.0562666666666667, "grad_norm": 0.024364292126846918, "learning_rate": 0.0001, "loss": 0.9912, "step": 4805 }, { "epoch": 1.05632, "grad_norm": 0.02256315846002461, "learning_rate": 0.0001, "loss": 0.9765, "step": 4806 }, { "epoch": 1.0563733333333334, "grad_norm": 0.023708067032248616, "learning_rate": 0.0001, "loss": 0.9484, "step": 4807 }, { "epoch": 1.0564266666666666, "grad_norm": 0.02471435505817875, "learning_rate": 0.0001, "loss": 1.037, "step": 4808 }, { "epoch": 1.05648, "grad_norm": 0.02476729977262304, "learning_rate": 0.0001, "loss": 0.9782, "step": 4809 }, { "epoch": 1.0565333333333333, "grad_norm": 0.024448242090966372, "learning_rate": 0.0001, "loss": 0.9848, "step": 4810 }, { "epoch": 1.0565866666666666, "grad_norm": 0.02449768685429772, "learning_rate": 0.0001, "loss": 0.9646, "step": 4811 }, { "epoch": 1.05664, "grad_norm": 0.02388847676439954, "learning_rate": 0.0001, "loss": 0.9904, "step": 4812 }, { "epoch": 1.0566933333333333, "grad_norm": 0.023559809516769666, "learning_rate": 0.0001, "loss": 0.9843, "step": 4813 }, { "epoch": 1.0567466666666667, "grad_norm": 0.02637612235999192, "learning_rate": 0.0001, "loss": 0.9501, "step": 4814 }, { "epoch": 1.0568, "grad_norm": 0.026604935398791694, "learning_rate": 0.0001, "loss": 0.96, "step": 4815 }, { "epoch": 1.0568533333333334, "grad_norm": 0.02384979265549891, "learning_rate": 0.0001, "loss": 0.9256, "step": 4816 }, { "epoch": 1.0569066666666667, "grad_norm": 0.024954184555619614, "learning_rate": 0.0001, "loss": 0.987, "step": 4817 }, { "epoch": 1.05696, "grad_norm": 0.026899817864369895, "learning_rate": 0.0001, "loss": 0.9447, "step": 4818 }, { "epoch": 1.0570133333333334, "grad_norm": 0.02387329312162129, "learning_rate": 0.0001, "loss": 1.0189, "step": 4819 }, { "epoch": 1.0570666666666666, "grad_norm": 0.02549431768714692, "learning_rate": 0.0001, "loss": 1.0217, "step": 4820 }, { "epoch": 1.05712, "grad_norm": 0.027426446508603056, "learning_rate": 0.0001, "loss": 1.0283, "step": 4821 }, { "epoch": 1.0571733333333333, "grad_norm": 0.025360945825883205, "learning_rate": 0.0001, "loss": 1.0046, "step": 4822 }, { "epoch": 1.0572266666666668, "grad_norm": 0.024402105369133176, "learning_rate": 0.0001, "loss": 0.9697, "step": 4823 }, { "epoch": 1.05728, "grad_norm": 0.024295101142680266, "learning_rate": 0.0001, "loss": 0.971, "step": 4824 }, { "epoch": 1.0573333333333332, "grad_norm": 0.027475066064221655, "learning_rate": 0.0001, "loss": 1.009, "step": 4825 }, { "epoch": 1.0573866666666667, "grad_norm": 0.024506462904969974, "learning_rate": 0.0001, "loss": 0.9589, "step": 4826 }, { "epoch": 1.05744, "grad_norm": 0.024944294963161272, "learning_rate": 0.0001, "loss": 1.0103, "step": 4827 }, { "epoch": 1.0574933333333334, "grad_norm": 0.025003044416486618, "learning_rate": 0.0001, "loss": 0.9548, "step": 4828 }, { "epoch": 1.0575466666666666, "grad_norm": 0.02451964226483687, "learning_rate": 0.0001, "loss": 0.9565, "step": 4829 }, { "epoch": 1.0576, "grad_norm": 0.022437014707646755, "learning_rate": 0.0001, "loss": 1.0183, "step": 4830 }, { "epoch": 1.0576533333333333, "grad_norm": 0.02380045730611252, "learning_rate": 0.0001, "loss": 1.0125, "step": 4831 }, { "epoch": 1.0577066666666666, "grad_norm": 0.025075358434762773, "learning_rate": 0.0001, "loss": 1.0031, "step": 4832 }, { "epoch": 1.05776, "grad_norm": 0.02408275305104693, "learning_rate": 0.0001, "loss": 1.0236, "step": 4833 }, { "epoch": 1.0578133333333333, "grad_norm": 0.026149209632931034, "learning_rate": 0.0001, "loss": 1.0068, "step": 4834 }, { "epoch": 1.0578666666666667, "grad_norm": 0.025185366483144223, "learning_rate": 0.0001, "loss": 0.9794, "step": 4835 }, { "epoch": 1.05792, "grad_norm": 0.026692362419287952, "learning_rate": 0.0001, "loss": 0.9491, "step": 4836 }, { "epoch": 1.0579733333333334, "grad_norm": 0.024542426382422988, "learning_rate": 0.0001, "loss": 1.0046, "step": 4837 }, { "epoch": 1.0580266666666667, "grad_norm": 0.02297299831351754, "learning_rate": 0.0001, "loss": 0.9619, "step": 4838 }, { "epoch": 1.05808, "grad_norm": 0.024590822611738384, "learning_rate": 0.0001, "loss": 0.9738, "step": 4839 }, { "epoch": 1.0581333333333334, "grad_norm": 0.02453145346777236, "learning_rate": 0.0001, "loss": 1.0067, "step": 4840 }, { "epoch": 1.0581866666666666, "grad_norm": 0.023523175453830564, "learning_rate": 0.0001, "loss": 1.0213, "step": 4841 }, { "epoch": 1.05824, "grad_norm": 0.023688288972101512, "learning_rate": 0.0001, "loss": 1.0169, "step": 4842 }, { "epoch": 1.0582933333333333, "grad_norm": 0.027060455651438876, "learning_rate": 0.0001, "loss": 0.9102, "step": 4843 }, { "epoch": 1.0583466666666668, "grad_norm": 0.022292629470320804, "learning_rate": 0.0001, "loss": 1.0172, "step": 4844 }, { "epoch": 1.0584, "grad_norm": 0.025829694033084903, "learning_rate": 0.0001, "loss": 1.0635, "step": 4845 }, { "epoch": 1.0584533333333332, "grad_norm": 0.023220213440288063, "learning_rate": 0.0001, "loss": 1.0329, "step": 4846 }, { "epoch": 1.0585066666666667, "grad_norm": 0.02461362095381411, "learning_rate": 0.0001, "loss": 1.006, "step": 4847 }, { "epoch": 1.05856, "grad_norm": 0.02571957726095546, "learning_rate": 0.0001, "loss": 0.9644, "step": 4848 }, { "epoch": 1.0586133333333334, "grad_norm": 0.024856333672900268, "learning_rate": 0.0001, "loss": 0.9758, "step": 4849 }, { "epoch": 1.0586666666666666, "grad_norm": 0.024641360270983466, "learning_rate": 0.0001, "loss": 0.9565, "step": 4850 }, { "epoch": 1.05872, "grad_norm": 0.026397352525121848, "learning_rate": 0.0001, "loss": 0.9726, "step": 4851 }, { "epoch": 1.0587733333333333, "grad_norm": 0.023799455860489052, "learning_rate": 0.0001, "loss": 1.0083, "step": 4852 }, { "epoch": 1.0588266666666666, "grad_norm": 0.026006505830811207, "learning_rate": 0.0001, "loss": 1.0099, "step": 4853 }, { "epoch": 1.05888, "grad_norm": 0.027630058934772897, "learning_rate": 0.0001, "loss": 0.9818, "step": 4854 }, { "epoch": 1.0589333333333333, "grad_norm": 0.024302949787246682, "learning_rate": 0.0001, "loss": 0.9659, "step": 4855 }, { "epoch": 1.0589866666666667, "grad_norm": 0.02886113305459238, "learning_rate": 0.0001, "loss": 1.0538, "step": 4856 }, { "epoch": 1.05904, "grad_norm": 0.024739117621421662, "learning_rate": 0.0001, "loss": 0.9424, "step": 4857 }, { "epoch": 1.0590933333333332, "grad_norm": 0.024786649331808838, "learning_rate": 0.0001, "loss": 0.9903, "step": 4858 }, { "epoch": 1.0591466666666667, "grad_norm": 0.026519273321292103, "learning_rate": 0.0001, "loss": 1.0053, "step": 4859 }, { "epoch": 1.0592, "grad_norm": 0.02433566314560404, "learning_rate": 0.0001, "loss": 1.0088, "step": 4860 }, { "epoch": 1.0592533333333334, "grad_norm": 0.02529225513782885, "learning_rate": 0.0001, "loss": 1.013, "step": 4861 }, { "epoch": 1.0593066666666666, "grad_norm": 0.02456726977357249, "learning_rate": 0.0001, "loss": 1.0084, "step": 4862 }, { "epoch": 1.05936, "grad_norm": 0.024221570703024737, "learning_rate": 0.0001, "loss": 0.9564, "step": 4863 }, { "epoch": 1.0594133333333333, "grad_norm": 0.026287656503495183, "learning_rate": 0.0001, "loss": 1.0008, "step": 4864 }, { "epoch": 1.0594666666666668, "grad_norm": 0.025845055938059882, "learning_rate": 0.0001, "loss": 0.9745, "step": 4865 }, { "epoch": 1.05952, "grad_norm": 0.025759720436286906, "learning_rate": 0.0001, "loss": 1.0518, "step": 4866 }, { "epoch": 1.0595733333333333, "grad_norm": 0.02528548313242583, "learning_rate": 0.0001, "loss": 0.9737, "step": 4867 }, { "epoch": 1.0596266666666667, "grad_norm": 0.02361053137140842, "learning_rate": 0.0001, "loss": 1.0051, "step": 4868 }, { "epoch": 1.05968, "grad_norm": 0.023609214144915163, "learning_rate": 0.0001, "loss": 0.9782, "step": 4869 }, { "epoch": 1.0597333333333334, "grad_norm": 0.025088717056987165, "learning_rate": 0.0001, "loss": 0.9854, "step": 4870 }, { "epoch": 1.0597866666666667, "grad_norm": 0.024316097788486354, "learning_rate": 0.0001, "loss": 0.9979, "step": 4871 }, { "epoch": 1.05984, "grad_norm": 0.024775844242899723, "learning_rate": 0.0001, "loss": 0.9654, "step": 4872 }, { "epoch": 1.0598933333333334, "grad_norm": 0.024866966932400567, "learning_rate": 0.0001, "loss": 0.9952, "step": 4873 }, { "epoch": 1.0599466666666666, "grad_norm": 0.022340051009721362, "learning_rate": 0.0001, "loss": 0.9131, "step": 4874 }, { "epoch": 1.06, "grad_norm": 0.02431910272050786, "learning_rate": 0.0001, "loss": 0.9861, "step": 4875 }, { "epoch": 1.0600533333333333, "grad_norm": 0.024116739686111045, "learning_rate": 0.0001, "loss": 0.9418, "step": 4876 }, { "epoch": 1.0601066666666668, "grad_norm": 0.0241387444331789, "learning_rate": 0.0001, "loss": 0.9682, "step": 4877 }, { "epoch": 1.06016, "grad_norm": 0.0272632744755394, "learning_rate": 0.0001, "loss": 1.0036, "step": 4878 }, { "epoch": 1.0602133333333332, "grad_norm": 0.025285167694382635, "learning_rate": 0.0001, "loss": 0.9862, "step": 4879 }, { "epoch": 1.0602666666666667, "grad_norm": 0.023172812901668463, "learning_rate": 0.0001, "loss": 0.9546, "step": 4880 }, { "epoch": 1.06032, "grad_norm": 0.023441446702821736, "learning_rate": 0.0001, "loss": 0.9458, "step": 4881 }, { "epoch": 1.0603733333333334, "grad_norm": 0.02377476060832486, "learning_rate": 0.0001, "loss": 0.9605, "step": 4882 }, { "epoch": 1.0604266666666666, "grad_norm": 0.02398777650842502, "learning_rate": 0.0001, "loss": 1.0096, "step": 4883 }, { "epoch": 1.06048, "grad_norm": 0.02435992436985233, "learning_rate": 0.0001, "loss": 1.0214, "step": 4884 }, { "epoch": 1.0605333333333333, "grad_norm": 0.025434486946092863, "learning_rate": 0.0001, "loss": 0.9662, "step": 4885 }, { "epoch": 1.0605866666666666, "grad_norm": 0.023524741258548167, "learning_rate": 0.0001, "loss": 0.9369, "step": 4886 }, { "epoch": 1.06064, "grad_norm": 0.025629724874482857, "learning_rate": 0.0001, "loss": 1.0318, "step": 4887 }, { "epoch": 1.0606933333333333, "grad_norm": 0.026324933275282753, "learning_rate": 0.0001, "loss": 0.9629, "step": 4888 }, { "epoch": 1.0607466666666667, "grad_norm": 0.023727669739780903, "learning_rate": 0.0001, "loss": 0.924, "step": 4889 }, { "epoch": 1.0608, "grad_norm": 0.025823668995257346, "learning_rate": 0.0001, "loss": 0.977, "step": 4890 }, { "epoch": 1.0608533333333334, "grad_norm": 0.024315524233024192, "learning_rate": 0.0001, "loss": 1.0127, "step": 4891 }, { "epoch": 1.0609066666666667, "grad_norm": 0.023681265915974154, "learning_rate": 0.0001, "loss": 0.9678, "step": 4892 }, { "epoch": 1.06096, "grad_norm": 0.02395513523296695, "learning_rate": 0.0001, "loss": 1.0521, "step": 4893 }, { "epoch": 1.0610133333333334, "grad_norm": 0.026609505761921576, "learning_rate": 0.0001, "loss": 0.9529, "step": 4894 }, { "epoch": 1.0610666666666666, "grad_norm": 0.025593379861156278, "learning_rate": 0.0001, "loss": 0.9825, "step": 4895 }, { "epoch": 1.06112, "grad_norm": 0.02293802855032892, "learning_rate": 0.0001, "loss": 0.9584, "step": 4896 }, { "epoch": 1.0611733333333333, "grad_norm": 0.026395495192433234, "learning_rate": 0.0001, "loss": 0.9895, "step": 4897 }, { "epoch": 1.0612266666666668, "grad_norm": 0.024151411141585685, "learning_rate": 0.0001, "loss": 0.985, "step": 4898 }, { "epoch": 1.06128, "grad_norm": 0.023557733809898843, "learning_rate": 0.0001, "loss": 0.9969, "step": 4899 }, { "epoch": 1.0613333333333332, "grad_norm": 0.024788424307143345, "learning_rate": 0.0001, "loss": 0.9602, "step": 4900 }, { "epoch": 1.0613866666666667, "grad_norm": 0.024912436778859903, "learning_rate": 0.0001, "loss": 0.9223, "step": 4901 }, { "epoch": 1.06144, "grad_norm": 0.024301249607613346, "learning_rate": 0.0001, "loss": 1.0137, "step": 4902 }, { "epoch": 1.0614933333333334, "grad_norm": 0.025093007630074993, "learning_rate": 0.0001, "loss": 0.973, "step": 4903 }, { "epoch": 1.0615466666666666, "grad_norm": 0.025162600978942143, "learning_rate": 0.0001, "loss": 0.9114, "step": 4904 }, { "epoch": 1.0616, "grad_norm": 0.023565732755104332, "learning_rate": 0.0001, "loss": 1.0568, "step": 4905 }, { "epoch": 1.0616533333333333, "grad_norm": 0.02629155531056865, "learning_rate": 0.0001, "loss": 1.0003, "step": 4906 }, { "epoch": 1.0617066666666666, "grad_norm": 0.026416817578818454, "learning_rate": 0.0001, "loss": 0.9425, "step": 4907 }, { "epoch": 1.06176, "grad_norm": 0.02485082500545637, "learning_rate": 0.0001, "loss": 1.0559, "step": 4908 }, { "epoch": 1.0618133333333333, "grad_norm": 0.023385883006909542, "learning_rate": 0.0001, "loss": 0.9894, "step": 4909 }, { "epoch": 1.0618666666666667, "grad_norm": 0.028435834802562662, "learning_rate": 0.0001, "loss": 0.9344, "step": 4910 }, { "epoch": 1.06192, "grad_norm": 0.027999032214105556, "learning_rate": 0.0001, "loss": 0.9215, "step": 4911 }, { "epoch": 1.0619733333333334, "grad_norm": 0.02524357525778297, "learning_rate": 0.0001, "loss": 0.959, "step": 4912 }, { "epoch": 1.0620266666666667, "grad_norm": 0.024253138779957502, "learning_rate": 0.0001, "loss": 1.0146, "step": 4913 }, { "epoch": 1.06208, "grad_norm": 0.024203002389454942, "learning_rate": 0.0001, "loss": 0.9935, "step": 4914 }, { "epoch": 1.0621333333333334, "grad_norm": 0.02567873860119543, "learning_rate": 0.0001, "loss": 1.0, "step": 4915 }, { "epoch": 1.0621866666666666, "grad_norm": 0.023973602776107668, "learning_rate": 0.0001, "loss": 0.9137, "step": 4916 }, { "epoch": 1.06224, "grad_norm": 0.02258456572646268, "learning_rate": 0.0001, "loss": 0.9377, "step": 4917 }, { "epoch": 1.0622933333333333, "grad_norm": 0.025974974416277937, "learning_rate": 0.0001, "loss": 1.0243, "step": 4918 }, { "epoch": 1.0623466666666668, "grad_norm": 0.023706106701702746, "learning_rate": 0.0001, "loss": 0.9522, "step": 4919 }, { "epoch": 1.0624, "grad_norm": 0.024497551276681347, "learning_rate": 0.0001, "loss": 0.9652, "step": 4920 }, { "epoch": 1.0624533333333332, "grad_norm": 0.026565854822965616, "learning_rate": 0.0001, "loss": 1.0119, "step": 4921 }, { "epoch": 1.0625066666666667, "grad_norm": 0.027014357062587122, "learning_rate": 0.0001, "loss": 0.9439, "step": 4922 }, { "epoch": 1.06256, "grad_norm": 0.025551961549326405, "learning_rate": 0.0001, "loss": 1.0008, "step": 4923 }, { "epoch": 1.0626133333333334, "grad_norm": 0.025665624399778597, "learning_rate": 0.0001, "loss": 0.9598, "step": 4924 }, { "epoch": 1.0626666666666666, "grad_norm": 0.027554264340031696, "learning_rate": 0.0001, "loss": 1.022, "step": 4925 }, { "epoch": 1.06272, "grad_norm": 0.02495800544077591, "learning_rate": 0.0001, "loss": 0.9719, "step": 4926 }, { "epoch": 1.0627733333333333, "grad_norm": 0.026612767614388435, "learning_rate": 0.0001, "loss": 0.9747, "step": 4927 }, { "epoch": 1.0628266666666666, "grad_norm": 0.025406320561819924, "learning_rate": 0.0001, "loss": 1.0033, "step": 4928 }, { "epoch": 1.06288, "grad_norm": 0.02490970648623684, "learning_rate": 0.0001, "loss": 1.0551, "step": 4929 }, { "epoch": 1.0629333333333333, "grad_norm": 0.02499532410747443, "learning_rate": 0.0001, "loss": 0.8976, "step": 4930 }, { "epoch": 1.0629866666666667, "grad_norm": 0.024169882119613583, "learning_rate": 0.0001, "loss": 0.994, "step": 4931 }, { "epoch": 1.06304, "grad_norm": 0.024317324092847915, "learning_rate": 0.0001, "loss": 1.0395, "step": 4932 }, { "epoch": 1.0630933333333332, "grad_norm": 0.026744216584729898, "learning_rate": 0.0001, "loss": 0.9717, "step": 4933 }, { "epoch": 1.0631466666666667, "grad_norm": 0.02526976710858577, "learning_rate": 0.0001, "loss": 1.0209, "step": 4934 }, { "epoch": 1.0632, "grad_norm": 0.02508923245987011, "learning_rate": 0.0001, "loss": 0.9959, "step": 4935 }, { "epoch": 1.0632533333333334, "grad_norm": 0.025891348783683793, "learning_rate": 0.0001, "loss": 0.954, "step": 4936 }, { "epoch": 1.0633066666666666, "grad_norm": 0.024450198843941787, "learning_rate": 0.0001, "loss": 1.0075, "step": 4937 }, { "epoch": 1.06336, "grad_norm": 0.025536214191772377, "learning_rate": 0.0001, "loss": 0.9787, "step": 4938 }, { "epoch": 1.0634133333333333, "grad_norm": 0.02366946640379891, "learning_rate": 0.0001, "loss": 1.0276, "step": 4939 }, { "epoch": 1.0634666666666668, "grad_norm": 0.024249650882895435, "learning_rate": 0.0001, "loss": 0.9457, "step": 4940 }, { "epoch": 1.06352, "grad_norm": 0.02530423124793702, "learning_rate": 0.0001, "loss": 0.9196, "step": 4941 }, { "epoch": 1.0635733333333333, "grad_norm": 0.023224169647311797, "learning_rate": 0.0001, "loss": 0.9409, "step": 4942 }, { "epoch": 1.0636266666666667, "grad_norm": 0.02432764724233768, "learning_rate": 0.0001, "loss": 0.9818, "step": 4943 }, { "epoch": 1.06368, "grad_norm": 0.02320625956122515, "learning_rate": 0.0001, "loss": 0.9972, "step": 4944 }, { "epoch": 1.0637333333333334, "grad_norm": 0.023898405177441347, "learning_rate": 0.0001, "loss": 1.012, "step": 4945 }, { "epoch": 1.0637866666666667, "grad_norm": 0.026174010764214658, "learning_rate": 0.0001, "loss": 0.97, "step": 4946 }, { "epoch": 1.06384, "grad_norm": 0.023558789992175467, "learning_rate": 0.0001, "loss": 1.0144, "step": 4947 }, { "epoch": 1.0638933333333334, "grad_norm": 0.022820890455347267, "learning_rate": 0.0001, "loss": 0.9573, "step": 4948 }, { "epoch": 1.0639466666666666, "grad_norm": 0.02459990644653518, "learning_rate": 0.0001, "loss": 0.9941, "step": 4949 }, { "epoch": 1.064, "grad_norm": 0.024222548157968257, "learning_rate": 0.0001, "loss": 0.9078, "step": 4950 }, { "epoch": 1.0640533333333333, "grad_norm": 0.02587816695398911, "learning_rate": 0.0001, "loss": 1.0587, "step": 4951 }, { "epoch": 1.0641066666666668, "grad_norm": 0.023801745207696536, "learning_rate": 0.0001, "loss": 0.9919, "step": 4952 }, { "epoch": 1.06416, "grad_norm": 0.024163685529324238, "learning_rate": 0.0001, "loss": 0.9625, "step": 4953 }, { "epoch": 1.0642133333333332, "grad_norm": 0.02627948502507773, "learning_rate": 0.0001, "loss": 0.9567, "step": 4954 }, { "epoch": 1.0642666666666667, "grad_norm": 0.02341403352604857, "learning_rate": 0.0001, "loss": 1.0287, "step": 4955 }, { "epoch": 1.06432, "grad_norm": 0.02498886729203632, "learning_rate": 0.0001, "loss": 1.005, "step": 4956 }, { "epoch": 1.0643733333333334, "grad_norm": 0.0229592266709311, "learning_rate": 0.0001, "loss": 1.0113, "step": 4957 }, { "epoch": 1.0644266666666666, "grad_norm": 0.025778393848696526, "learning_rate": 0.0001, "loss": 0.9532, "step": 4958 }, { "epoch": 1.06448, "grad_norm": 0.025155011833324824, "learning_rate": 0.0001, "loss": 0.9826, "step": 4959 }, { "epoch": 1.0645333333333333, "grad_norm": 0.023964406183575912, "learning_rate": 0.0001, "loss": 1.0157, "step": 4960 }, { "epoch": 1.0645866666666666, "grad_norm": 0.023470847196283926, "learning_rate": 0.0001, "loss": 1.0128, "step": 4961 }, { "epoch": 1.06464, "grad_norm": 0.025896537387763405, "learning_rate": 0.0001, "loss": 0.9608, "step": 4962 }, { "epoch": 1.0646933333333333, "grad_norm": 0.023670942656937585, "learning_rate": 0.0001, "loss": 0.9964, "step": 4963 }, { "epoch": 1.0647466666666667, "grad_norm": 0.025915716975172743, "learning_rate": 0.0001, "loss": 1.0223, "step": 4964 }, { "epoch": 1.0648, "grad_norm": 0.024479052534995948, "learning_rate": 0.0001, "loss": 0.9991, "step": 4965 }, { "epoch": 1.0648533333333334, "grad_norm": 0.02426584756995937, "learning_rate": 0.0001, "loss": 0.9751, "step": 4966 }, { "epoch": 1.0649066666666667, "grad_norm": 0.024231957336875665, "learning_rate": 0.0001, "loss": 1.0123, "step": 4967 }, { "epoch": 1.06496, "grad_norm": 0.023907785051514877, "learning_rate": 0.0001, "loss": 0.9801, "step": 4968 }, { "epoch": 1.0650133333333334, "grad_norm": 0.02365605577876775, "learning_rate": 0.0001, "loss": 0.9724, "step": 4969 }, { "epoch": 1.0650666666666666, "grad_norm": 0.024422553011828534, "learning_rate": 0.0001, "loss": 0.9064, "step": 4970 }, { "epoch": 1.06512, "grad_norm": 0.022969979024948742, "learning_rate": 0.0001, "loss": 0.958, "step": 4971 }, { "epoch": 1.0651733333333333, "grad_norm": 0.023512021918822353, "learning_rate": 0.0001, "loss": 1.0095, "step": 4972 }, { "epoch": 1.0652266666666668, "grad_norm": 0.026304975935646707, "learning_rate": 0.0001, "loss": 0.9376, "step": 4973 }, { "epoch": 1.06528, "grad_norm": 0.023663391308155212, "learning_rate": 0.0001, "loss": 1.0225, "step": 4974 }, { "epoch": 1.0653333333333332, "grad_norm": 0.02383971510124353, "learning_rate": 0.0001, "loss": 0.9794, "step": 4975 }, { "epoch": 1.0653866666666667, "grad_norm": 0.023754695781516198, "learning_rate": 0.0001, "loss": 0.9777, "step": 4976 }, { "epoch": 1.06544, "grad_norm": 0.024333861244464506, "learning_rate": 0.0001, "loss": 0.9608, "step": 4977 }, { "epoch": 1.0654933333333334, "grad_norm": 0.022386352901346874, "learning_rate": 0.0001, "loss": 0.9825, "step": 4978 }, { "epoch": 1.0655466666666666, "grad_norm": 0.024432841057907096, "learning_rate": 0.0001, "loss": 0.9283, "step": 4979 }, { "epoch": 1.0656, "grad_norm": 0.02469519293142336, "learning_rate": 0.0001, "loss": 1.0129, "step": 4980 }, { "epoch": 1.0656533333333333, "grad_norm": 0.02472139092637579, "learning_rate": 0.0001, "loss": 0.9659, "step": 4981 }, { "epoch": 1.0657066666666666, "grad_norm": 0.024388919236091215, "learning_rate": 0.0001, "loss": 0.9771, "step": 4982 }, { "epoch": 1.06576, "grad_norm": 0.024230253278977026, "learning_rate": 0.0001, "loss": 0.9518, "step": 4983 }, { "epoch": 1.0658133333333333, "grad_norm": 0.024131849353244653, "learning_rate": 0.0001, "loss": 0.9289, "step": 4984 }, { "epoch": 1.0658666666666667, "grad_norm": 0.024290936060733348, "learning_rate": 0.0001, "loss": 0.9991, "step": 4985 }, { "epoch": 1.06592, "grad_norm": 0.024774425400492982, "learning_rate": 0.0001, "loss": 0.9781, "step": 4986 }, { "epoch": 1.0659733333333334, "grad_norm": 0.02486397899608597, "learning_rate": 0.0001, "loss": 0.9407, "step": 4987 }, { "epoch": 1.0660266666666667, "grad_norm": 0.02453523678536611, "learning_rate": 0.0001, "loss": 0.928, "step": 4988 }, { "epoch": 1.06608, "grad_norm": 0.024684907289975803, "learning_rate": 0.0001, "loss": 0.9251, "step": 4989 }, { "epoch": 1.0661333333333334, "grad_norm": 0.02506384457196088, "learning_rate": 0.0001, "loss": 0.9934, "step": 4990 }, { "epoch": 1.0661866666666666, "grad_norm": 0.02443688554942519, "learning_rate": 0.0001, "loss": 1.0213, "step": 4991 }, { "epoch": 1.06624, "grad_norm": 0.026378441849092583, "learning_rate": 0.0001, "loss": 0.9591, "step": 4992 }, { "epoch": 1.0662933333333333, "grad_norm": 0.023824602435596344, "learning_rate": 0.0001, "loss": 0.941, "step": 4993 }, { "epoch": 1.0663466666666666, "grad_norm": 0.025113579038084515, "learning_rate": 0.0001, "loss": 0.9747, "step": 4994 }, { "epoch": 1.0664, "grad_norm": 0.022069639486699228, "learning_rate": 0.0001, "loss": 0.916, "step": 4995 }, { "epoch": 1.0664533333333333, "grad_norm": 0.022786410481247712, "learning_rate": 0.0001, "loss": 1.0056, "step": 4996 }, { "epoch": 1.0665066666666667, "grad_norm": 0.02548335099060747, "learning_rate": 0.0001, "loss": 0.9885, "step": 4997 }, { "epoch": 1.06656, "grad_norm": 0.025615618066242782, "learning_rate": 0.0001, "loss": 0.9843, "step": 4998 }, { "epoch": 1.0666133333333334, "grad_norm": 0.026611441201843694, "learning_rate": 0.0001, "loss": 0.9607, "step": 4999 }, { "epoch": 1.0666666666666667, "grad_norm": 0.02498684751773921, "learning_rate": 0.0001, "loss": 1.0056, "step": 5000 }, { "epoch": 1.0666666666666667, "eval_accuracy": 0.6173338874397583, "eval_loss": 1.3700244426727295, "eval_runtime": 62.9381, "eval_samples_per_second": 15.889, "eval_steps_per_second": 0.508, "step": 5000 }, { "epoch": 1.0667200000000001, "grad_norm": 0.02522098941060652, "learning_rate": 0.0001, "loss": 0.9786, "step": 5001 }, { "epoch": 1.0667733333333334, "grad_norm": 0.023911640561917785, "learning_rate": 0.0001, "loss": 0.9524, "step": 5002 }, { "epoch": 1.0668266666666666, "grad_norm": 0.026182150095438565, "learning_rate": 0.0001, "loss": 0.9755, "step": 5003 }, { "epoch": 1.06688, "grad_norm": 0.02339705160688133, "learning_rate": 0.0001, "loss": 0.9875, "step": 5004 }, { "epoch": 1.0669333333333333, "grad_norm": 0.02382117479926949, "learning_rate": 0.0001, "loss": 0.9231, "step": 5005 }, { "epoch": 1.0669866666666667, "grad_norm": 0.023925780584000047, "learning_rate": 0.0001, "loss": 0.9135, "step": 5006 }, { "epoch": 1.06704, "grad_norm": 0.025196658169472516, "learning_rate": 0.0001, "loss": 1.031, "step": 5007 }, { "epoch": 1.0670933333333332, "grad_norm": 0.024513625807846776, "learning_rate": 0.0001, "loss": 1.041, "step": 5008 }, { "epoch": 1.0671466666666667, "grad_norm": 0.025392193281285273, "learning_rate": 0.0001, "loss": 1.07, "step": 5009 }, { "epoch": 1.0672, "grad_norm": 0.027119410674597236, "learning_rate": 0.0001, "loss": 0.953, "step": 5010 }, { "epoch": 1.0672533333333334, "grad_norm": 0.022223968456681408, "learning_rate": 0.0001, "loss": 0.926, "step": 5011 }, { "epoch": 1.0673066666666666, "grad_norm": 0.027022613875798466, "learning_rate": 0.0001, "loss": 1.0241, "step": 5012 }, { "epoch": 1.06736, "grad_norm": 0.027070180731100842, "learning_rate": 0.0001, "loss": 0.9607, "step": 5013 }, { "epoch": 1.0674133333333333, "grad_norm": 0.025031381245217373, "learning_rate": 0.0001, "loss": 0.9665, "step": 5014 }, { "epoch": 1.0674666666666666, "grad_norm": 0.024121113918589693, "learning_rate": 0.0001, "loss": 0.9416, "step": 5015 }, { "epoch": 1.06752, "grad_norm": 0.027520967700755683, "learning_rate": 0.0001, "loss": 0.9399, "step": 5016 }, { "epoch": 1.0675733333333333, "grad_norm": 0.024622127515350357, "learning_rate": 0.0001, "loss": 1.0561, "step": 5017 }, { "epoch": 1.0676266666666667, "grad_norm": 0.024461492988449452, "learning_rate": 0.0001, "loss": 0.927, "step": 5018 }, { "epoch": 1.06768, "grad_norm": 0.025683648360606524, "learning_rate": 0.0001, "loss": 0.9789, "step": 5019 }, { "epoch": 1.0677333333333334, "grad_norm": 0.023787977174282153, "learning_rate": 0.0001, "loss": 0.9501, "step": 5020 }, { "epoch": 1.0677866666666667, "grad_norm": 0.024857248753226438, "learning_rate": 0.0001, "loss": 0.9787, "step": 5021 }, { "epoch": 1.06784, "grad_norm": 0.02473328887074261, "learning_rate": 0.0001, "loss": 0.9079, "step": 5022 }, { "epoch": 1.0678933333333334, "grad_norm": 0.02507686693935444, "learning_rate": 0.0001, "loss": 1.1167, "step": 5023 }, { "epoch": 1.0679466666666666, "grad_norm": 0.024270011770639106, "learning_rate": 0.0001, "loss": 0.945, "step": 5024 }, { "epoch": 1.068, "grad_norm": 0.027295024512912696, "learning_rate": 0.0001, "loss": 1.0336, "step": 5025 }, { "epoch": 1.0680533333333333, "grad_norm": 0.024312947985201054, "learning_rate": 0.0001, "loss": 0.9705, "step": 5026 }, { "epoch": 1.0681066666666668, "grad_norm": 0.024388374567162897, "learning_rate": 0.0001, "loss": 0.917, "step": 5027 }, { "epoch": 1.06816, "grad_norm": 0.024810933209643695, "learning_rate": 0.0001, "loss": 0.9439, "step": 5028 }, { "epoch": 1.0682133333333332, "grad_norm": 0.02362153052867476, "learning_rate": 0.0001, "loss": 0.981, "step": 5029 }, { "epoch": 1.0682666666666667, "grad_norm": 0.024782018207566786, "learning_rate": 0.0001, "loss": 1.0261, "step": 5030 }, { "epoch": 1.06832, "grad_norm": 0.024124242474666317, "learning_rate": 0.0001, "loss": 0.9901, "step": 5031 }, { "epoch": 1.0683733333333334, "grad_norm": 0.025615989440893487, "learning_rate": 0.0001, "loss": 0.9705, "step": 5032 }, { "epoch": 1.0684266666666666, "grad_norm": 0.02378776655001037, "learning_rate": 0.0001, "loss": 0.9791, "step": 5033 }, { "epoch": 1.06848, "grad_norm": 0.023830851476187433, "learning_rate": 0.0001, "loss": 0.9307, "step": 5034 }, { "epoch": 1.0685333333333333, "grad_norm": 0.02700506679453292, "learning_rate": 0.0001, "loss": 1.0024, "step": 5035 }, { "epoch": 1.0685866666666666, "grad_norm": 0.024532819867517486, "learning_rate": 0.0001, "loss": 0.9617, "step": 5036 }, { "epoch": 1.06864, "grad_norm": 0.026309136071026192, "learning_rate": 0.0001, "loss": 0.9356, "step": 5037 }, { "epoch": 1.0686933333333333, "grad_norm": 0.02483034874165817, "learning_rate": 0.0001, "loss": 1.0152, "step": 5038 }, { "epoch": 1.0687466666666667, "grad_norm": 0.022641409799789524, "learning_rate": 0.0001, "loss": 0.9527, "step": 5039 }, { "epoch": 1.0688, "grad_norm": 0.024178456019835846, "learning_rate": 0.0001, "loss": 0.9841, "step": 5040 }, { "epoch": 1.0688533333333334, "grad_norm": 0.024643329933715714, "learning_rate": 0.0001, "loss": 0.9762, "step": 5041 }, { "epoch": 1.0689066666666667, "grad_norm": 0.025821321288097807, "learning_rate": 0.0001, "loss": 0.9753, "step": 5042 }, { "epoch": 1.06896, "grad_norm": 0.023341188097224002, "learning_rate": 0.0001, "loss": 0.9593, "step": 5043 }, { "epoch": 1.0690133333333334, "grad_norm": 0.025207615885191638, "learning_rate": 0.0001, "loss": 0.9585, "step": 5044 }, { "epoch": 1.0690666666666666, "grad_norm": 0.023987046334880944, "learning_rate": 0.0001, "loss": 0.9688, "step": 5045 }, { "epoch": 1.06912, "grad_norm": 0.023740980577800965, "learning_rate": 0.0001, "loss": 0.9437, "step": 5046 }, { "epoch": 1.0691733333333333, "grad_norm": 0.023672782894704227, "learning_rate": 0.0001, "loss": 1.0203, "step": 5047 }, { "epoch": 1.0692266666666668, "grad_norm": 0.024870276384940857, "learning_rate": 0.0001, "loss": 0.9391, "step": 5048 }, { "epoch": 1.06928, "grad_norm": 0.02559806576487511, "learning_rate": 0.0001, "loss": 0.9114, "step": 5049 }, { "epoch": 1.0693333333333332, "grad_norm": 0.026663470352609644, "learning_rate": 0.0001, "loss": 0.985, "step": 5050 }, { "epoch": 1.0693866666666667, "grad_norm": 0.024520558375358638, "learning_rate": 0.0001, "loss": 0.9181, "step": 5051 }, { "epoch": 1.06944, "grad_norm": 0.023998652641820963, "learning_rate": 0.0001, "loss": 0.9726, "step": 5052 }, { "epoch": 1.0694933333333334, "grad_norm": 0.02262838289217389, "learning_rate": 0.0001, "loss": 0.9981, "step": 5053 }, { "epoch": 1.0695466666666666, "grad_norm": 0.026216460954535642, "learning_rate": 0.0001, "loss": 0.9252, "step": 5054 }, { "epoch": 1.0695999999999999, "grad_norm": 0.026209920411886477, "learning_rate": 0.0001, "loss": 1.0157, "step": 5055 }, { "epoch": 1.0696533333333333, "grad_norm": 0.02380475268345057, "learning_rate": 0.0001, "loss": 0.9376, "step": 5056 }, { "epoch": 1.0697066666666666, "grad_norm": 0.02596554212919293, "learning_rate": 0.0001, "loss": 0.9778, "step": 5057 }, { "epoch": 1.06976, "grad_norm": 0.027208999450704516, "learning_rate": 0.0001, "loss": 0.9923, "step": 5058 }, { "epoch": 1.0698133333333333, "grad_norm": 0.024475344366462225, "learning_rate": 0.0001, "loss": 0.9992, "step": 5059 }, { "epoch": 1.0698666666666667, "grad_norm": 0.027146455489839624, "learning_rate": 0.0001, "loss": 0.9586, "step": 5060 }, { "epoch": 1.06992, "grad_norm": 0.02465660487211689, "learning_rate": 0.0001, "loss": 0.9907, "step": 5061 }, { "epoch": 1.0699733333333334, "grad_norm": 0.025343174387045624, "learning_rate": 0.0001, "loss": 0.9755, "step": 5062 }, { "epoch": 1.0700266666666667, "grad_norm": 0.02591007930737827, "learning_rate": 0.0001, "loss": 1.0081, "step": 5063 }, { "epoch": 1.07008, "grad_norm": 0.02448556197094848, "learning_rate": 0.0001, "loss": 0.961, "step": 5064 }, { "epoch": 1.0701333333333334, "grad_norm": 0.02461658082854389, "learning_rate": 0.0001, "loss": 1.0032, "step": 5065 }, { "epoch": 1.0701866666666666, "grad_norm": 0.02512707853619943, "learning_rate": 0.0001, "loss": 1.0588, "step": 5066 }, { "epoch": 1.07024, "grad_norm": 0.024247160312259274, "learning_rate": 0.0001, "loss": 1.0733, "step": 5067 }, { "epoch": 1.0702933333333333, "grad_norm": 0.022862935245097752, "learning_rate": 0.0001, "loss": 0.9502, "step": 5068 }, { "epoch": 1.0703466666666666, "grad_norm": 0.024991250492990856, "learning_rate": 0.0001, "loss": 0.9222, "step": 5069 }, { "epoch": 1.0704, "grad_norm": 0.024652216376001714, "learning_rate": 0.0001, "loss": 1.0114, "step": 5070 }, { "epoch": 1.0704533333333333, "grad_norm": 0.025129733652623453, "learning_rate": 0.0001, "loss": 0.9379, "step": 5071 }, { "epoch": 1.0705066666666667, "grad_norm": 0.024147491247004788, "learning_rate": 0.0001, "loss": 0.9761, "step": 5072 }, { "epoch": 1.07056, "grad_norm": 0.026131886594879927, "learning_rate": 0.0001, "loss": 0.9874, "step": 5073 }, { "epoch": 1.0706133333333334, "grad_norm": 0.025774065418386408, "learning_rate": 0.0001, "loss": 1.0154, "step": 5074 }, { "epoch": 1.0706666666666667, "grad_norm": 0.026446377483165577, "learning_rate": 0.0001, "loss": 0.8929, "step": 5075 }, { "epoch": 1.0707200000000001, "grad_norm": 0.025273665659564064, "learning_rate": 0.0001, "loss": 0.9397, "step": 5076 }, { "epoch": 1.0707733333333334, "grad_norm": 0.023058436658343565, "learning_rate": 0.0001, "loss": 0.9704, "step": 5077 }, { "epoch": 1.0708266666666666, "grad_norm": 0.027222153600119595, "learning_rate": 0.0001, "loss": 0.9194, "step": 5078 }, { "epoch": 1.07088, "grad_norm": 0.025072863444628467, "learning_rate": 0.0001, "loss": 0.9418, "step": 5079 }, { "epoch": 1.0709333333333333, "grad_norm": 0.024701238985362934, "learning_rate": 0.0001, "loss": 0.9859, "step": 5080 }, { "epoch": 1.0709866666666668, "grad_norm": 0.026520150223510567, "learning_rate": 0.0001, "loss": 1.0311, "step": 5081 }, { "epoch": 1.07104, "grad_norm": 0.027028179864164625, "learning_rate": 0.0001, "loss": 1.0365, "step": 5082 }, { "epoch": 1.0710933333333332, "grad_norm": 0.024391697385383593, "learning_rate": 0.0001, "loss": 0.98, "step": 5083 }, { "epoch": 1.0711466666666667, "grad_norm": 0.024988776913547724, "learning_rate": 0.0001, "loss": 1.0244, "step": 5084 }, { "epoch": 1.0712, "grad_norm": 0.023900202037478956, "learning_rate": 0.0001, "loss": 1.0081, "step": 5085 }, { "epoch": 1.0712533333333334, "grad_norm": 0.02413586847953108, "learning_rate": 0.0001, "loss": 0.9758, "step": 5086 }, { "epoch": 1.0713066666666666, "grad_norm": 0.0247081645553724, "learning_rate": 0.0001, "loss": 0.9969, "step": 5087 }, { "epoch": 1.07136, "grad_norm": 0.025831156977931598, "learning_rate": 0.0001, "loss": 0.9581, "step": 5088 }, { "epoch": 1.0714133333333333, "grad_norm": 0.02455929438322751, "learning_rate": 0.0001, "loss": 0.9543, "step": 5089 }, { "epoch": 1.0714666666666666, "grad_norm": 0.025290508295600138, "learning_rate": 0.0001, "loss": 1.0037, "step": 5090 }, { "epoch": 1.07152, "grad_norm": 0.027204809700042465, "learning_rate": 0.0001, "loss": 0.9267, "step": 5091 }, { "epoch": 1.0715733333333333, "grad_norm": 0.028687967642137314, "learning_rate": 0.0001, "loss": 0.9541, "step": 5092 }, { "epoch": 1.0716266666666667, "grad_norm": 0.023934975311652857, "learning_rate": 0.0001, "loss": 0.9409, "step": 5093 }, { "epoch": 1.07168, "grad_norm": 0.0263495775585771, "learning_rate": 0.0001, "loss": 1.0287, "step": 5094 }, { "epoch": 1.0717333333333334, "grad_norm": 0.02484561283215338, "learning_rate": 0.0001, "loss": 0.9538, "step": 5095 }, { "epoch": 1.0717866666666667, "grad_norm": 0.023581573254700162, "learning_rate": 0.0001, "loss": 1.0573, "step": 5096 }, { "epoch": 1.07184, "grad_norm": 0.023809463663989578, "learning_rate": 0.0001, "loss": 1.0027, "step": 5097 }, { "epoch": 1.0718933333333334, "grad_norm": 0.024412716125761208, "learning_rate": 0.0001, "loss": 0.9784, "step": 5098 }, { "epoch": 1.0719466666666666, "grad_norm": 0.025065252404405346, "learning_rate": 0.0001, "loss": 1.0415, "step": 5099 }, { "epoch": 1.072, "grad_norm": 0.024963762721986426, "learning_rate": 0.0001, "loss": 0.9668, "step": 5100 }, { "epoch": 1.0720533333333333, "grad_norm": 0.024405066072861175, "learning_rate": 0.0001, "loss": 0.9418, "step": 5101 }, { "epoch": 1.0721066666666668, "grad_norm": 0.023938327026412697, "learning_rate": 0.0001, "loss": 0.961, "step": 5102 }, { "epoch": 1.07216, "grad_norm": 0.023733682877601615, "learning_rate": 0.0001, "loss": 0.9509, "step": 5103 }, { "epoch": 1.0722133333333332, "grad_norm": 0.024172219374828417, "learning_rate": 0.0001, "loss": 0.9864, "step": 5104 }, { "epoch": 1.0722666666666667, "grad_norm": 0.02534945135536056, "learning_rate": 0.0001, "loss": 1.0065, "step": 5105 }, { "epoch": 1.07232, "grad_norm": 0.023155020401736667, "learning_rate": 0.0001, "loss": 0.9918, "step": 5106 }, { "epoch": 1.0723733333333334, "grad_norm": 0.024234946761603416, "learning_rate": 0.0001, "loss": 0.9749, "step": 5107 }, { "epoch": 1.0724266666666666, "grad_norm": 0.024379897312532692, "learning_rate": 0.0001, "loss": 1.0052, "step": 5108 }, { "epoch": 1.07248, "grad_norm": 0.024514987615944013, "learning_rate": 0.0001, "loss": 0.9719, "step": 5109 }, { "epoch": 1.0725333333333333, "grad_norm": 0.024107315822166728, "learning_rate": 0.0001, "loss": 0.9411, "step": 5110 }, { "epoch": 1.0725866666666666, "grad_norm": 0.02742589818892122, "learning_rate": 0.0001, "loss": 0.9898, "step": 5111 }, { "epoch": 1.07264, "grad_norm": 0.024770845856102102, "learning_rate": 0.0001, "loss": 0.9566, "step": 5112 }, { "epoch": 1.0726933333333333, "grad_norm": 0.025899117403332377, "learning_rate": 0.0001, "loss": 0.9914, "step": 5113 }, { "epoch": 1.0727466666666667, "grad_norm": 0.023901147964815028, "learning_rate": 0.0001, "loss": 1.0414, "step": 5114 }, { "epoch": 1.0728, "grad_norm": 0.026032502541443923, "learning_rate": 0.0001, "loss": 0.9803, "step": 5115 }, { "epoch": 1.0728533333333334, "grad_norm": 0.027145476884540363, "learning_rate": 0.0001, "loss": 0.9352, "step": 5116 }, { "epoch": 1.0729066666666667, "grad_norm": 0.0253479529411147, "learning_rate": 0.0001, "loss": 0.9713, "step": 5117 }, { "epoch": 1.07296, "grad_norm": 0.025155773421817636, "learning_rate": 0.0001, "loss": 0.9582, "step": 5118 }, { "epoch": 1.0730133333333334, "grad_norm": 0.0244116379787284, "learning_rate": 0.0001, "loss": 0.9544, "step": 5119 }, { "epoch": 1.0730666666666666, "grad_norm": 0.024657811451786693, "learning_rate": 0.0001, "loss": 0.9906, "step": 5120 }, { "epoch": 1.07312, "grad_norm": 0.024750867138439533, "learning_rate": 0.0001, "loss": 1.0191, "step": 5121 }, { "epoch": 1.0731733333333333, "grad_norm": 0.024420066635536003, "learning_rate": 0.0001, "loss": 1.004, "step": 5122 }, { "epoch": 1.0732266666666668, "grad_norm": 0.02482369078088547, "learning_rate": 0.0001, "loss": 0.9533, "step": 5123 }, { "epoch": 1.07328, "grad_norm": 0.024813076094656702, "learning_rate": 0.0001, "loss": 0.9992, "step": 5124 }, { "epoch": 1.0733333333333333, "grad_norm": 0.024958045057905144, "learning_rate": 0.0001, "loss": 0.9687, "step": 5125 }, { "epoch": 1.0733866666666667, "grad_norm": 0.023749440758355195, "learning_rate": 0.0001, "loss": 0.9524, "step": 5126 }, { "epoch": 1.07344, "grad_norm": 0.022834704165488294, "learning_rate": 0.0001, "loss": 0.9825, "step": 5127 }, { "epoch": 1.0734933333333334, "grad_norm": 0.0252647527662807, "learning_rate": 0.0001, "loss": 0.9897, "step": 5128 }, { "epoch": 1.0735466666666666, "grad_norm": 0.023488881186087256, "learning_rate": 0.0001, "loss": 0.9769, "step": 5129 }, { "epoch": 1.0735999999999999, "grad_norm": 0.023062985461554778, "learning_rate": 0.0001, "loss": 0.9563, "step": 5130 }, { "epoch": 1.0736533333333333, "grad_norm": 0.023508203237809052, "learning_rate": 0.0001, "loss": 1.0113, "step": 5131 }, { "epoch": 1.0737066666666666, "grad_norm": 0.02439547523245326, "learning_rate": 0.0001, "loss": 1.0366, "step": 5132 }, { "epoch": 1.07376, "grad_norm": 0.024378471735768046, "learning_rate": 0.0001, "loss": 0.9688, "step": 5133 }, { "epoch": 1.0738133333333333, "grad_norm": 0.024683313034342003, "learning_rate": 0.0001, "loss": 0.9945, "step": 5134 }, { "epoch": 1.0738666666666667, "grad_norm": 0.024076687506367263, "learning_rate": 0.0001, "loss": 1.0282, "step": 5135 }, { "epoch": 1.07392, "grad_norm": 0.02431814928583795, "learning_rate": 0.0001, "loss": 1.0009, "step": 5136 }, { "epoch": 1.0739733333333334, "grad_norm": 0.025162764874578105, "learning_rate": 0.0001, "loss": 0.9997, "step": 5137 }, { "epoch": 1.0740266666666667, "grad_norm": 0.026050924273052157, "learning_rate": 0.0001, "loss": 0.9956, "step": 5138 }, { "epoch": 1.07408, "grad_norm": 0.03777204363918913, "learning_rate": 0.0001, "loss": 0.9789, "step": 5139 }, { "epoch": 1.0741333333333334, "grad_norm": 0.026315610435525466, "learning_rate": 0.0001, "loss": 1.002, "step": 5140 }, { "epoch": 1.0741866666666666, "grad_norm": 0.02546953245212923, "learning_rate": 0.0001, "loss": 0.9766, "step": 5141 }, { "epoch": 1.07424, "grad_norm": 0.025838672870392935, "learning_rate": 0.0001, "loss": 1.0103, "step": 5142 }, { "epoch": 1.0742933333333333, "grad_norm": 0.026438316960272996, "learning_rate": 0.0001, "loss": 0.9873, "step": 5143 }, { "epoch": 1.0743466666666666, "grad_norm": 0.023701509034137067, "learning_rate": 0.0001, "loss": 0.9495, "step": 5144 }, { "epoch": 1.0744, "grad_norm": 0.026726261043664833, "learning_rate": 0.0001, "loss": 0.9913, "step": 5145 }, { "epoch": 1.0744533333333333, "grad_norm": 0.02728244070735087, "learning_rate": 0.0001, "loss": 0.9506, "step": 5146 }, { "epoch": 1.0745066666666667, "grad_norm": 0.025575145859586326, "learning_rate": 0.0001, "loss": 0.9797, "step": 5147 }, { "epoch": 1.07456, "grad_norm": 0.02386856075708658, "learning_rate": 0.0001, "loss": 0.9326, "step": 5148 }, { "epoch": 1.0746133333333334, "grad_norm": 0.02620964091224981, "learning_rate": 0.0001, "loss": 0.9675, "step": 5149 }, { "epoch": 1.0746666666666667, "grad_norm": 0.025335467219462848, "learning_rate": 0.0001, "loss": 0.9116, "step": 5150 }, { "epoch": 1.07472, "grad_norm": 0.024631440687074974, "learning_rate": 0.0001, "loss": 0.9787, "step": 5151 }, { "epoch": 1.0747733333333334, "grad_norm": 0.025206122181680488, "learning_rate": 0.0001, "loss": 0.9658, "step": 5152 }, { "epoch": 1.0748266666666666, "grad_norm": 0.024695234520366188, "learning_rate": 0.0001, "loss": 1.0114, "step": 5153 }, { "epoch": 1.07488, "grad_norm": 0.023504563611394403, "learning_rate": 0.0001, "loss": 0.964, "step": 5154 }, { "epoch": 1.0749333333333333, "grad_norm": 0.02316704730871102, "learning_rate": 0.0001, "loss": 0.9406, "step": 5155 }, { "epoch": 1.0749866666666668, "grad_norm": 0.02754922798151838, "learning_rate": 0.0001, "loss": 0.948, "step": 5156 }, { "epoch": 1.07504, "grad_norm": 0.025734317262376044, "learning_rate": 0.0001, "loss": 0.9923, "step": 5157 }, { "epoch": 1.0750933333333332, "grad_norm": 0.024462229727704742, "learning_rate": 0.0001, "loss": 0.9899, "step": 5158 }, { "epoch": 1.0751466666666667, "grad_norm": 0.02566392922013849, "learning_rate": 0.0001, "loss": 0.9573, "step": 5159 }, { "epoch": 1.0752, "grad_norm": 0.02669291952349919, "learning_rate": 0.0001, "loss": 1.0357, "step": 5160 }, { "epoch": 1.0752533333333334, "grad_norm": 0.023307579841924223, "learning_rate": 0.0001, "loss": 0.9505, "step": 5161 }, { "epoch": 1.0753066666666666, "grad_norm": 0.02435239986313597, "learning_rate": 0.0001, "loss": 0.9781, "step": 5162 }, { "epoch": 1.07536, "grad_norm": 0.024893987691562144, "learning_rate": 0.0001, "loss": 0.9276, "step": 5163 }, { "epoch": 1.0754133333333333, "grad_norm": 0.022651391039637123, "learning_rate": 0.0001, "loss": 0.9719, "step": 5164 }, { "epoch": 1.0754666666666666, "grad_norm": 0.02486019220162966, "learning_rate": 0.0001, "loss": 0.9371, "step": 5165 }, { "epoch": 1.07552, "grad_norm": 0.02393928495845135, "learning_rate": 0.0001, "loss": 0.9539, "step": 5166 }, { "epoch": 1.0755733333333333, "grad_norm": 0.02253502734527664, "learning_rate": 0.0001, "loss": 1.0032, "step": 5167 }, { "epoch": 1.0756266666666667, "grad_norm": 0.02448343521548138, "learning_rate": 0.0001, "loss": 0.9719, "step": 5168 }, { "epoch": 1.07568, "grad_norm": 0.025681408135921912, "learning_rate": 0.0001, "loss": 0.9213, "step": 5169 }, { "epoch": 1.0757333333333334, "grad_norm": 0.023698864233596895, "learning_rate": 0.0001, "loss": 0.9935, "step": 5170 }, { "epoch": 1.0757866666666667, "grad_norm": 0.023864484697187528, "learning_rate": 0.0001, "loss": 1.0348, "step": 5171 }, { "epoch": 1.07584, "grad_norm": 0.027360708076219816, "learning_rate": 0.0001, "loss": 0.9481, "step": 5172 }, { "epoch": 1.0758933333333334, "grad_norm": 0.027807827972111523, "learning_rate": 0.0001, "loss": 0.9102, "step": 5173 }, { "epoch": 1.0759466666666666, "grad_norm": 0.023574341048259378, "learning_rate": 0.0001, "loss": 1.0006, "step": 5174 }, { "epoch": 1.076, "grad_norm": 0.02503227774462054, "learning_rate": 0.0001, "loss": 1.0164, "step": 5175 }, { "epoch": 1.0760533333333333, "grad_norm": 0.024446793150179193, "learning_rate": 0.0001, "loss": 0.9791, "step": 5176 }, { "epoch": 1.0761066666666668, "grad_norm": 0.02571649662975983, "learning_rate": 0.0001, "loss": 0.9335, "step": 5177 }, { "epoch": 1.07616, "grad_norm": 0.022791830110668, "learning_rate": 0.0001, "loss": 0.992, "step": 5178 }, { "epoch": 1.0762133333333332, "grad_norm": 0.024057051757440464, "learning_rate": 0.0001, "loss": 0.9692, "step": 5179 }, { "epoch": 1.0762666666666667, "grad_norm": 0.0263584218488111, "learning_rate": 0.0001, "loss": 1.0395, "step": 5180 }, { "epoch": 1.07632, "grad_norm": 0.02391252886899509, "learning_rate": 0.0001, "loss": 0.9339, "step": 5181 }, { "epoch": 1.0763733333333334, "grad_norm": 0.026037895730473534, "learning_rate": 0.0001, "loss": 0.9831, "step": 5182 }, { "epoch": 1.0764266666666666, "grad_norm": 0.02607664820928143, "learning_rate": 0.0001, "loss": 0.9747, "step": 5183 }, { "epoch": 1.07648, "grad_norm": 0.023864912618466193, "learning_rate": 0.0001, "loss": 0.977, "step": 5184 }, { "epoch": 1.0765333333333333, "grad_norm": 0.024922747115531798, "learning_rate": 0.0001, "loss": 1.002, "step": 5185 }, { "epoch": 1.0765866666666666, "grad_norm": 0.023601808290563676, "learning_rate": 0.0001, "loss": 0.991, "step": 5186 }, { "epoch": 1.07664, "grad_norm": 0.024364532692808995, "learning_rate": 0.0001, "loss": 1.0008, "step": 5187 }, { "epoch": 1.0766933333333333, "grad_norm": 0.02442730581411873, "learning_rate": 0.0001, "loss": 1.0027, "step": 5188 }, { "epoch": 1.0767466666666667, "grad_norm": 0.02407465819548894, "learning_rate": 0.0001, "loss": 0.9362, "step": 5189 }, { "epoch": 1.0768, "grad_norm": 0.025477465293614016, "learning_rate": 0.0001, "loss": 0.9436, "step": 5190 }, { "epoch": 1.0768533333333332, "grad_norm": 0.024070178149935756, "learning_rate": 0.0001, "loss": 0.9688, "step": 5191 }, { "epoch": 1.0769066666666667, "grad_norm": 0.02377238913203875, "learning_rate": 0.0001, "loss": 0.9571, "step": 5192 }, { "epoch": 1.07696, "grad_norm": 0.02491129074252031, "learning_rate": 0.0001, "loss": 1.0366, "step": 5193 }, { "epoch": 1.0770133333333334, "grad_norm": 0.024535327468025336, "learning_rate": 0.0001, "loss": 0.8932, "step": 5194 }, { "epoch": 1.0770666666666666, "grad_norm": 0.025933890527352236, "learning_rate": 0.0001, "loss": 0.9437, "step": 5195 }, { "epoch": 1.07712, "grad_norm": 0.02488885578342406, "learning_rate": 0.0001, "loss": 0.978, "step": 5196 }, { "epoch": 1.0771733333333333, "grad_norm": 0.02491496272672252, "learning_rate": 0.0001, "loss": 0.9854, "step": 5197 }, { "epoch": 1.0772266666666668, "grad_norm": 0.022739383650085543, "learning_rate": 0.0001, "loss": 0.9823, "step": 5198 }, { "epoch": 1.07728, "grad_norm": 0.023827335484317674, "learning_rate": 0.0001, "loss": 0.9922, "step": 5199 }, { "epoch": 1.0773333333333333, "grad_norm": 0.02480176844422139, "learning_rate": 0.0001, "loss": 0.9939, "step": 5200 }, { "epoch": 1.0773333333333333, "eval_accuracy": 0.6175859560285439, "eval_loss": 1.3687927722930908, "eval_runtime": 62.7595, "eval_samples_per_second": 15.934, "eval_steps_per_second": 0.51, "step": 5200 }, { "epoch": 1.0773866666666667, "grad_norm": 0.024876317380843286, "learning_rate": 0.0001, "loss": 1.0068, "step": 5201 }, { "epoch": 1.07744, "grad_norm": 0.024338841425097672, "learning_rate": 0.0001, "loss": 0.9402, "step": 5202 }, { "epoch": 1.0774933333333334, "grad_norm": 0.025662488286295897, "learning_rate": 0.0001, "loss": 1.0368, "step": 5203 }, { "epoch": 1.0775466666666667, "grad_norm": 0.026155250826677485, "learning_rate": 0.0001, "loss": 0.9551, "step": 5204 }, { "epoch": 1.0776, "grad_norm": 0.024612624062661296, "learning_rate": 0.0001, "loss": 1.0018, "step": 5205 }, { "epoch": 1.0776533333333334, "grad_norm": 0.027925454057316217, "learning_rate": 0.0001, "loss": 0.93, "step": 5206 }, { "epoch": 1.0777066666666666, "grad_norm": 0.023934159527165474, "learning_rate": 0.0001, "loss": 0.9681, "step": 5207 }, { "epoch": 1.07776, "grad_norm": 0.02706106112977372, "learning_rate": 0.0001, "loss": 0.9386, "step": 5208 }, { "epoch": 1.0778133333333333, "grad_norm": 0.025179220550887962, "learning_rate": 0.0001, "loss": 0.9477, "step": 5209 }, { "epoch": 1.0778666666666668, "grad_norm": 0.024950607554765265, "learning_rate": 0.0001, "loss": 1.0037, "step": 5210 }, { "epoch": 1.07792, "grad_norm": 0.025784250775060084, "learning_rate": 0.0001, "loss": 0.928, "step": 5211 }, { "epoch": 1.0779733333333334, "grad_norm": 0.0236456238962643, "learning_rate": 0.0001, "loss": 0.9897, "step": 5212 }, { "epoch": 1.0780266666666667, "grad_norm": 0.024584990980544102, "learning_rate": 0.0001, "loss": 0.9469, "step": 5213 }, { "epoch": 1.07808, "grad_norm": 0.02529050646679984, "learning_rate": 0.0001, "loss": 0.9526, "step": 5214 }, { "epoch": 1.0781333333333334, "grad_norm": 0.02363251040700039, "learning_rate": 0.0001, "loss": 0.9216, "step": 5215 }, { "epoch": 1.0781866666666666, "grad_norm": 0.02428567789333371, "learning_rate": 0.0001, "loss": 0.9568, "step": 5216 }, { "epoch": 1.07824, "grad_norm": 0.024511467782604827, "learning_rate": 0.0001, "loss": 0.9556, "step": 5217 }, { "epoch": 1.0782933333333333, "grad_norm": 0.024831662849735276, "learning_rate": 0.0001, "loss": 0.9362, "step": 5218 }, { "epoch": 1.0783466666666666, "grad_norm": 0.025855555382267654, "learning_rate": 0.0001, "loss": 0.9761, "step": 5219 }, { "epoch": 1.0784, "grad_norm": 0.025264390244562018, "learning_rate": 0.0001, "loss": 0.95, "step": 5220 }, { "epoch": 1.0784533333333333, "grad_norm": 0.023871935878563465, "learning_rate": 0.0001, "loss": 0.9538, "step": 5221 }, { "epoch": 1.0785066666666667, "grad_norm": 0.026483249659725153, "learning_rate": 0.0001, "loss": 0.9559, "step": 5222 }, { "epoch": 1.07856, "grad_norm": 0.0240112490666037, "learning_rate": 0.0001, "loss": 0.9884, "step": 5223 }, { "epoch": 1.0786133333333334, "grad_norm": 0.026507753498893716, "learning_rate": 0.0001, "loss": 0.9405, "step": 5224 }, { "epoch": 1.0786666666666667, "grad_norm": 0.023537215133218808, "learning_rate": 0.0001, "loss": 0.9856, "step": 5225 }, { "epoch": 1.07872, "grad_norm": 0.024864718371935223, "learning_rate": 0.0001, "loss": 0.9789, "step": 5226 }, { "epoch": 1.0787733333333334, "grad_norm": 0.024681091913744815, "learning_rate": 0.0001, "loss": 1.0075, "step": 5227 }, { "epoch": 1.0788266666666666, "grad_norm": 0.0250518950570203, "learning_rate": 0.0001, "loss": 0.9622, "step": 5228 }, { "epoch": 1.07888, "grad_norm": 0.02747477705556083, "learning_rate": 0.0001, "loss": 1.0204, "step": 5229 }, { "epoch": 1.0789333333333333, "grad_norm": 0.024664303614459957, "learning_rate": 0.0001, "loss": 1.0091, "step": 5230 }, { "epoch": 1.0789866666666668, "grad_norm": 0.025562150475701297, "learning_rate": 0.0001, "loss": 0.9355, "step": 5231 }, { "epoch": 1.07904, "grad_norm": 0.026523863911728642, "learning_rate": 0.0001, "loss": 1.0008, "step": 5232 }, { "epoch": 1.0790933333333332, "grad_norm": 0.023681238835648506, "learning_rate": 0.0001, "loss": 0.9991, "step": 5233 }, { "epoch": 1.0791466666666667, "grad_norm": 0.0248659026687544, "learning_rate": 0.0001, "loss": 0.9816, "step": 5234 }, { "epoch": 1.0792, "grad_norm": 0.024993293672727998, "learning_rate": 0.0001, "loss": 1.0065, "step": 5235 }, { "epoch": 1.0792533333333334, "grad_norm": 0.024111534580474183, "learning_rate": 0.0001, "loss": 0.9302, "step": 5236 }, { "epoch": 1.0793066666666666, "grad_norm": 0.022919767114488506, "learning_rate": 0.0001, "loss": 0.9162, "step": 5237 }, { "epoch": 1.07936, "grad_norm": 0.026345372372084036, "learning_rate": 0.0001, "loss": 1.0407, "step": 5238 }, { "epoch": 1.0794133333333333, "grad_norm": 0.026079739123239628, "learning_rate": 0.0001, "loss": 0.9554, "step": 5239 }, { "epoch": 1.0794666666666666, "grad_norm": 0.023228931165140704, "learning_rate": 0.0001, "loss": 0.9607, "step": 5240 }, { "epoch": 1.07952, "grad_norm": 0.026384854495492802, "learning_rate": 0.0001, "loss": 1.0047, "step": 5241 }, { "epoch": 1.0795733333333333, "grad_norm": 0.026171870824522155, "learning_rate": 0.0001, "loss": 0.9568, "step": 5242 }, { "epoch": 1.0796266666666667, "grad_norm": 0.025096135784617002, "learning_rate": 0.0001, "loss": 0.9798, "step": 5243 }, { "epoch": 1.07968, "grad_norm": 0.02474846141880474, "learning_rate": 0.0001, "loss": 1.0343, "step": 5244 }, { "epoch": 1.0797333333333334, "grad_norm": 0.025352670499425557, "learning_rate": 0.0001, "loss": 0.969, "step": 5245 }, { "epoch": 1.0797866666666667, "grad_norm": 0.0248989504138001, "learning_rate": 0.0001, "loss": 0.9868, "step": 5246 }, { "epoch": 1.07984, "grad_norm": 0.024742494392252075, "learning_rate": 0.0001, "loss": 0.9728, "step": 5247 }, { "epoch": 1.0798933333333334, "grad_norm": 0.024334365052190592, "learning_rate": 0.0001, "loss": 0.9739, "step": 5248 }, { "epoch": 1.0799466666666666, "grad_norm": 0.025373650153087835, "learning_rate": 0.0001, "loss": 0.946, "step": 5249 }, { "epoch": 1.08, "grad_norm": 0.0249894628038705, "learning_rate": 0.0001, "loss": 0.9973, "step": 5250 }, { "epoch": 1.0800533333333333, "grad_norm": 0.023012750069240005, "learning_rate": 0.0001, "loss": 0.9737, "step": 5251 }, { "epoch": 1.0801066666666668, "grad_norm": 0.02395807501933798, "learning_rate": 0.0001, "loss": 0.9765, "step": 5252 }, { "epoch": 1.08016, "grad_norm": 0.024132945055237665, "learning_rate": 0.0001, "loss": 0.9651, "step": 5253 }, { "epoch": 1.0802133333333332, "grad_norm": 0.024423196417638255, "learning_rate": 0.0001, "loss": 1.0155, "step": 5254 }, { "epoch": 1.0802666666666667, "grad_norm": 0.023676737909240946, "learning_rate": 0.0001, "loss": 0.978, "step": 5255 }, { "epoch": 1.08032, "grad_norm": 0.024453039809071007, "learning_rate": 0.0001, "loss": 0.9895, "step": 5256 }, { "epoch": 1.0803733333333334, "grad_norm": 0.025644905620883708, "learning_rate": 0.0001, "loss": 0.9788, "step": 5257 }, { "epoch": 1.0804266666666666, "grad_norm": 0.025547937008229635, "learning_rate": 0.0001, "loss": 0.954, "step": 5258 }, { "epoch": 1.08048, "grad_norm": 0.026099511241568618, "learning_rate": 0.0001, "loss": 0.9943, "step": 5259 }, { "epoch": 1.0805333333333333, "grad_norm": 0.025266224422285048, "learning_rate": 0.0001, "loss": 1.0329, "step": 5260 }, { "epoch": 1.0805866666666666, "grad_norm": 0.025786413691965163, "learning_rate": 0.0001, "loss": 1.0284, "step": 5261 }, { "epoch": 1.08064, "grad_norm": 0.02752110767709119, "learning_rate": 0.0001, "loss": 0.9405, "step": 5262 }, { "epoch": 1.0806933333333333, "grad_norm": 0.025811047727335903, "learning_rate": 0.0001, "loss": 0.9229, "step": 5263 }, { "epoch": 1.0807466666666667, "grad_norm": 0.023272461434574235, "learning_rate": 0.0001, "loss": 1.0341, "step": 5264 }, { "epoch": 1.0808, "grad_norm": 0.024740781019389934, "learning_rate": 0.0001, "loss": 0.9681, "step": 5265 }, { "epoch": 1.0808533333333332, "grad_norm": 0.02507252438761017, "learning_rate": 0.0001, "loss": 0.9867, "step": 5266 }, { "epoch": 1.0809066666666667, "grad_norm": 0.023389362149824792, "learning_rate": 0.0001, "loss": 1.0622, "step": 5267 }, { "epoch": 1.08096, "grad_norm": 0.02646910325773918, "learning_rate": 0.0001, "loss": 0.9204, "step": 5268 }, { "epoch": 1.0810133333333334, "grad_norm": 0.02346272743007583, "learning_rate": 0.0001, "loss": 0.9659, "step": 5269 }, { "epoch": 1.0810666666666666, "grad_norm": 0.02417442607707923, "learning_rate": 0.0001, "loss": 1.0105, "step": 5270 }, { "epoch": 1.08112, "grad_norm": 0.02570454094301308, "learning_rate": 0.0001, "loss": 0.9735, "step": 5271 }, { "epoch": 1.0811733333333333, "grad_norm": 0.026052069731941813, "learning_rate": 0.0001, "loss": 0.9982, "step": 5272 }, { "epoch": 1.0812266666666668, "grad_norm": 0.024585335688651174, "learning_rate": 0.0001, "loss": 1.0119, "step": 5273 }, { "epoch": 1.08128, "grad_norm": 0.02429495120438062, "learning_rate": 0.0001, "loss": 0.959, "step": 5274 }, { "epoch": 1.0813333333333333, "grad_norm": 0.0261725332651311, "learning_rate": 0.0001, "loss": 0.9418, "step": 5275 }, { "epoch": 1.0813866666666667, "grad_norm": 0.022658454776153553, "learning_rate": 0.0001, "loss": 0.9796, "step": 5276 }, { "epoch": 1.08144, "grad_norm": 0.025146570222616696, "learning_rate": 0.0001, "loss": 0.9139, "step": 5277 }, { "epoch": 1.0814933333333334, "grad_norm": 0.02505510945683532, "learning_rate": 0.0001, "loss": 1.0062, "step": 5278 }, { "epoch": 1.0815466666666667, "grad_norm": 0.02479711734155357, "learning_rate": 0.0001, "loss": 0.9943, "step": 5279 }, { "epoch": 1.0816, "grad_norm": 0.025803044646182976, "learning_rate": 0.0001, "loss": 0.9884, "step": 5280 }, { "epoch": 1.0816533333333334, "grad_norm": 0.025052361828081866, "learning_rate": 0.0001, "loss": 0.9883, "step": 5281 }, { "epoch": 1.0817066666666666, "grad_norm": 0.025505340403169475, "learning_rate": 0.0001, "loss": 0.99, "step": 5282 }, { "epoch": 1.08176, "grad_norm": 0.0254430762983551, "learning_rate": 0.0001, "loss": 0.9279, "step": 5283 }, { "epoch": 1.0818133333333333, "grad_norm": 0.024920615255787287, "learning_rate": 0.0001, "loss": 0.9913, "step": 5284 }, { "epoch": 1.0818666666666668, "grad_norm": 0.023514703978667482, "learning_rate": 0.0001, "loss": 0.9321, "step": 5285 }, { "epoch": 1.08192, "grad_norm": 0.025330257280561083, "learning_rate": 0.0001, "loss": 1.0044, "step": 5286 }, { "epoch": 1.0819733333333332, "grad_norm": 0.025273723956993916, "learning_rate": 0.0001, "loss": 1.0169, "step": 5287 }, { "epoch": 1.0820266666666667, "grad_norm": 0.023572788267187218, "learning_rate": 0.0001, "loss": 0.9241, "step": 5288 }, { "epoch": 1.08208, "grad_norm": 0.026362884646064833, "learning_rate": 0.0001, "loss": 0.9379, "step": 5289 }, { "epoch": 1.0821333333333334, "grad_norm": 0.025931472237143677, "learning_rate": 0.0001, "loss": 0.9327, "step": 5290 }, { "epoch": 1.0821866666666666, "grad_norm": 0.025480346966613648, "learning_rate": 0.0001, "loss": 0.9369, "step": 5291 }, { "epoch": 1.08224, "grad_norm": 0.024389180876339903, "learning_rate": 0.0001, "loss": 0.9111, "step": 5292 }, { "epoch": 1.0822933333333333, "grad_norm": 0.029610338249835572, "learning_rate": 0.0001, "loss": 0.9211, "step": 5293 }, { "epoch": 1.0823466666666666, "grad_norm": 0.024695987449946975, "learning_rate": 0.0001, "loss": 0.9407, "step": 5294 }, { "epoch": 1.0824, "grad_norm": 0.025187412093682155, "learning_rate": 0.0001, "loss": 1.0091, "step": 5295 }, { "epoch": 1.0824533333333333, "grad_norm": 0.024675170162876986, "learning_rate": 0.0001, "loss": 0.9376, "step": 5296 }, { "epoch": 1.0825066666666667, "grad_norm": 0.025787551728585562, "learning_rate": 0.0001, "loss": 0.9536, "step": 5297 }, { "epoch": 1.08256, "grad_norm": 0.024585606529879508, "learning_rate": 0.0001, "loss": 0.9983, "step": 5298 }, { "epoch": 1.0826133333333334, "grad_norm": 0.027011424226386284, "learning_rate": 0.0001, "loss": 0.9371, "step": 5299 }, { "epoch": 1.0826666666666667, "grad_norm": 0.022205496859619422, "learning_rate": 0.0001, "loss": 0.9339, "step": 5300 }, { "epoch": 1.08272, "grad_norm": 0.02435777698181023, "learning_rate": 0.0001, "loss": 0.9905, "step": 5301 }, { "epoch": 1.0827733333333334, "grad_norm": 0.025738899839381612, "learning_rate": 0.0001, "loss": 0.9546, "step": 5302 }, { "epoch": 1.0828266666666666, "grad_norm": 0.023706670984649056, "learning_rate": 0.0001, "loss": 1.0219, "step": 5303 }, { "epoch": 1.08288, "grad_norm": 0.024580742850132176, "learning_rate": 0.0001, "loss": 0.9749, "step": 5304 }, { "epoch": 1.0829333333333333, "grad_norm": 0.02710944495779612, "learning_rate": 0.0001, "loss": 0.9218, "step": 5305 }, { "epoch": 1.0829866666666668, "grad_norm": 0.025013183213840544, "learning_rate": 0.0001, "loss": 1.063, "step": 5306 }, { "epoch": 1.08304, "grad_norm": 0.023814317817514915, "learning_rate": 0.0001, "loss": 1.0155, "step": 5307 }, { "epoch": 1.0830933333333332, "grad_norm": 0.02823032507593627, "learning_rate": 0.0001, "loss": 1.0169, "step": 5308 }, { "epoch": 1.0831466666666667, "grad_norm": 0.025793055304233873, "learning_rate": 0.0001, "loss": 0.9805, "step": 5309 }, { "epoch": 1.0832, "grad_norm": 0.022962508164665794, "learning_rate": 0.0001, "loss": 0.9369, "step": 5310 }, { "epoch": 1.0832533333333334, "grad_norm": 0.02536606718276414, "learning_rate": 0.0001, "loss": 0.9701, "step": 5311 }, { "epoch": 1.0833066666666666, "grad_norm": 0.025578732094647498, "learning_rate": 0.0001, "loss": 1.0405, "step": 5312 }, { "epoch": 1.08336, "grad_norm": 0.024460940276615318, "learning_rate": 0.0001, "loss": 0.9461, "step": 5313 }, { "epoch": 1.0834133333333333, "grad_norm": 0.02541022205614345, "learning_rate": 0.0001, "loss": 0.9787, "step": 5314 }, { "epoch": 1.0834666666666666, "grad_norm": 0.023950725564234755, "learning_rate": 0.0001, "loss": 0.9498, "step": 5315 }, { "epoch": 1.08352, "grad_norm": 0.02333053713527254, "learning_rate": 0.0001, "loss": 1.0037, "step": 5316 }, { "epoch": 1.0835733333333333, "grad_norm": 0.025322714432788055, "learning_rate": 0.0001, "loss": 1.0065, "step": 5317 }, { "epoch": 1.0836266666666667, "grad_norm": 0.022581533296769766, "learning_rate": 0.0001, "loss": 1.0024, "step": 5318 }, { "epoch": 1.08368, "grad_norm": 0.025236728845420883, "learning_rate": 0.0001, "loss": 0.9416, "step": 5319 }, { "epoch": 1.0837333333333334, "grad_norm": 0.02603869110362313, "learning_rate": 0.0001, "loss": 0.96, "step": 5320 }, { "epoch": 1.0837866666666667, "grad_norm": 0.022699330416731403, "learning_rate": 0.0001, "loss": 0.958, "step": 5321 }, { "epoch": 1.08384, "grad_norm": 0.02380321494859823, "learning_rate": 0.0001, "loss": 1.0421, "step": 5322 }, { "epoch": 1.0838933333333334, "grad_norm": 0.025893481862188875, "learning_rate": 0.0001, "loss": 0.9044, "step": 5323 }, { "epoch": 1.0839466666666666, "grad_norm": 0.022757912505740892, "learning_rate": 0.0001, "loss": 0.9653, "step": 5324 }, { "epoch": 1.084, "grad_norm": 0.024910103199777503, "learning_rate": 0.0001, "loss": 1.0043, "step": 5325 }, { "epoch": 1.0840533333333333, "grad_norm": 0.023646902186626684, "learning_rate": 0.0001, "loss": 0.9917, "step": 5326 }, { "epoch": 1.0841066666666666, "grad_norm": 0.025287801396366993, "learning_rate": 0.0001, "loss": 1.0053, "step": 5327 }, { "epoch": 1.08416, "grad_norm": 0.02532176516893675, "learning_rate": 0.0001, "loss": 0.9557, "step": 5328 }, { "epoch": 1.0842133333333333, "grad_norm": 0.024344126277565426, "learning_rate": 0.0001, "loss": 0.9645, "step": 5329 }, { "epoch": 1.0842666666666667, "grad_norm": 0.02302841515658075, "learning_rate": 0.0001, "loss": 0.9734, "step": 5330 }, { "epoch": 1.08432, "grad_norm": 0.024091880290035634, "learning_rate": 0.0001, "loss": 1.0016, "step": 5331 }, { "epoch": 1.0843733333333334, "grad_norm": 0.02261102631708662, "learning_rate": 0.0001, "loss": 0.9789, "step": 5332 }, { "epoch": 1.0844266666666666, "grad_norm": 0.026634908092377847, "learning_rate": 0.0001, "loss": 0.9856, "step": 5333 }, { "epoch": 1.08448, "grad_norm": 0.023440305241753452, "learning_rate": 0.0001, "loss": 0.9391, "step": 5334 }, { "epoch": 1.0845333333333333, "grad_norm": 0.023652972990245005, "learning_rate": 0.0001, "loss": 0.9561, "step": 5335 }, { "epoch": 1.0845866666666666, "grad_norm": 0.02410443823572375, "learning_rate": 0.0001, "loss": 0.9528, "step": 5336 }, { "epoch": 1.08464, "grad_norm": 0.022305585214441568, "learning_rate": 0.0001, "loss": 0.95, "step": 5337 }, { "epoch": 1.0846933333333333, "grad_norm": 0.024610330099531445, "learning_rate": 0.0001, "loss": 0.9897, "step": 5338 }, { "epoch": 1.0847466666666667, "grad_norm": 0.02398003296396921, "learning_rate": 0.0001, "loss": 0.9557, "step": 5339 }, { "epoch": 1.0848, "grad_norm": 0.026887015884443047, "learning_rate": 0.0001, "loss": 1.0488, "step": 5340 }, { "epoch": 1.0848533333333332, "grad_norm": 0.025004201407156392, "learning_rate": 0.0001, "loss": 0.9841, "step": 5341 }, { "epoch": 1.0849066666666667, "grad_norm": 0.024849548894843154, "learning_rate": 0.0001, "loss": 0.9761, "step": 5342 }, { "epoch": 1.08496, "grad_norm": 0.024567490018684985, "learning_rate": 0.0001, "loss": 1.022, "step": 5343 }, { "epoch": 1.0850133333333334, "grad_norm": 0.027804194589126436, "learning_rate": 0.0001, "loss": 0.9777, "step": 5344 }, { "epoch": 1.0850666666666666, "grad_norm": 0.023651049844225842, "learning_rate": 0.0001, "loss": 1.0207, "step": 5345 }, { "epoch": 1.08512, "grad_norm": 0.023989121112610545, "learning_rate": 0.0001, "loss": 0.9822, "step": 5346 }, { "epoch": 1.0851733333333333, "grad_norm": 0.025907084512737953, "learning_rate": 0.0001, "loss": 0.9829, "step": 5347 }, { "epoch": 1.0852266666666668, "grad_norm": 0.025459862371398176, "learning_rate": 0.0001, "loss": 1.0089, "step": 5348 }, { "epoch": 1.08528, "grad_norm": 0.023120400860888547, "learning_rate": 0.0001, "loss": 0.9566, "step": 5349 }, { "epoch": 1.0853333333333333, "grad_norm": 0.025858734340119698, "learning_rate": 0.0001, "loss": 0.9703, "step": 5350 }, { "epoch": 1.0853866666666667, "grad_norm": 0.0265105954956132, "learning_rate": 0.0001, "loss": 1.0225, "step": 5351 }, { "epoch": 1.08544, "grad_norm": 0.02588158944114845, "learning_rate": 0.0001, "loss": 1.0257, "step": 5352 }, { "epoch": 1.0854933333333334, "grad_norm": 0.024023520214110826, "learning_rate": 0.0001, "loss": 0.9787, "step": 5353 }, { "epoch": 1.0855466666666667, "grad_norm": 0.02506856201793591, "learning_rate": 0.0001, "loss": 0.9926, "step": 5354 }, { "epoch": 1.0856, "grad_norm": 0.026096256505061536, "learning_rate": 0.0001, "loss": 0.9948, "step": 5355 }, { "epoch": 1.0856533333333334, "grad_norm": 0.025510106321482855, "learning_rate": 0.0001, "loss": 0.9774, "step": 5356 }, { "epoch": 1.0857066666666666, "grad_norm": 0.026442092484198303, "learning_rate": 0.0001, "loss": 1.008, "step": 5357 }, { "epoch": 1.08576, "grad_norm": 0.024784076146785492, "learning_rate": 0.0001, "loss": 0.9565, "step": 5358 }, { "epoch": 1.0858133333333333, "grad_norm": 0.025018399599153723, "learning_rate": 0.0001, "loss": 0.9754, "step": 5359 }, { "epoch": 1.0858666666666668, "grad_norm": 0.025013926898957543, "learning_rate": 0.0001, "loss": 0.9628, "step": 5360 }, { "epoch": 1.08592, "grad_norm": 0.02447246363797203, "learning_rate": 0.0001, "loss": 0.9756, "step": 5361 }, { "epoch": 1.0859733333333332, "grad_norm": 0.024433468146005027, "learning_rate": 0.0001, "loss": 0.9394, "step": 5362 }, { "epoch": 1.0860266666666667, "grad_norm": 0.02644352761663835, "learning_rate": 0.0001, "loss": 0.9586, "step": 5363 }, { "epoch": 1.08608, "grad_norm": 0.024352974144211437, "learning_rate": 0.0001, "loss": 0.9819, "step": 5364 }, { "epoch": 1.0861333333333334, "grad_norm": 0.024798678635210007, "learning_rate": 0.0001, "loss": 1.0074, "step": 5365 }, { "epoch": 1.0861866666666666, "grad_norm": 0.02505191942233212, "learning_rate": 0.0001, "loss": 0.9457, "step": 5366 }, { "epoch": 1.08624, "grad_norm": 0.024996038481383355, "learning_rate": 0.0001, "loss": 0.902, "step": 5367 }, { "epoch": 1.0862933333333333, "grad_norm": 0.023053278259743643, "learning_rate": 0.0001, "loss": 0.9984, "step": 5368 }, { "epoch": 1.0863466666666666, "grad_norm": 0.024972726893054322, "learning_rate": 0.0001, "loss": 0.9354, "step": 5369 }, { "epoch": 1.0864, "grad_norm": 0.025693243222708006, "learning_rate": 0.0001, "loss": 0.9797, "step": 5370 }, { "epoch": 1.0864533333333333, "grad_norm": 0.02449217519163733, "learning_rate": 0.0001, "loss": 0.996, "step": 5371 }, { "epoch": 1.0865066666666667, "grad_norm": 0.02563057744620433, "learning_rate": 0.0001, "loss": 0.9708, "step": 5372 }, { "epoch": 1.08656, "grad_norm": 0.024149620346383266, "learning_rate": 0.0001, "loss": 0.9633, "step": 5373 }, { "epoch": 1.0866133333333334, "grad_norm": 0.026533522091168205, "learning_rate": 0.0001, "loss": 0.9303, "step": 5374 }, { "epoch": 1.0866666666666667, "grad_norm": 0.02414943391925214, "learning_rate": 0.0001, "loss": 1.0115, "step": 5375 }, { "epoch": 1.08672, "grad_norm": 0.025021303212912415, "learning_rate": 0.0001, "loss": 1.0095, "step": 5376 }, { "epoch": 1.0867733333333334, "grad_norm": 0.026567666909216713, "learning_rate": 0.0001, "loss": 0.9522, "step": 5377 }, { "epoch": 1.0868266666666666, "grad_norm": 0.025236826110992525, "learning_rate": 0.0001, "loss": 0.9728, "step": 5378 }, { "epoch": 1.08688, "grad_norm": 0.02618787583234989, "learning_rate": 0.0001, "loss": 1.0147, "step": 5379 }, { "epoch": 1.0869333333333333, "grad_norm": 0.025130382335461797, "learning_rate": 0.0001, "loss": 0.9922, "step": 5380 }, { "epoch": 1.0869866666666668, "grad_norm": 0.026283314548422504, "learning_rate": 0.0001, "loss": 0.9556, "step": 5381 }, { "epoch": 1.08704, "grad_norm": 0.025166173561106064, "learning_rate": 0.0001, "loss": 1.0352, "step": 5382 }, { "epoch": 1.0870933333333332, "grad_norm": 0.0254211805339721, "learning_rate": 0.0001, "loss": 0.9751, "step": 5383 }, { "epoch": 1.0871466666666667, "grad_norm": 0.024395632773566208, "learning_rate": 0.0001, "loss": 1.0283, "step": 5384 }, { "epoch": 1.0872, "grad_norm": 0.026257025937105702, "learning_rate": 0.0001, "loss": 0.9278, "step": 5385 }, { "epoch": 1.0872533333333334, "grad_norm": 0.027387356422299225, "learning_rate": 0.0001, "loss": 0.9595, "step": 5386 }, { "epoch": 1.0873066666666666, "grad_norm": 0.024420624822488784, "learning_rate": 0.0001, "loss": 1.0022, "step": 5387 }, { "epoch": 1.0873599999999999, "grad_norm": 0.02734236772244979, "learning_rate": 0.0001, "loss": 0.9738, "step": 5388 }, { "epoch": 1.0874133333333333, "grad_norm": 0.02361446751439596, "learning_rate": 0.0001, "loss": 0.9714, "step": 5389 }, { "epoch": 1.0874666666666666, "grad_norm": 0.024927502897051746, "learning_rate": 0.0001, "loss": 0.9373, "step": 5390 }, { "epoch": 1.08752, "grad_norm": 0.02552577316148973, "learning_rate": 0.0001, "loss": 0.9935, "step": 5391 }, { "epoch": 1.0875733333333333, "grad_norm": 0.02300394647804756, "learning_rate": 0.0001, "loss": 0.9582, "step": 5392 }, { "epoch": 1.0876266666666667, "grad_norm": 0.02592992979583403, "learning_rate": 0.0001, "loss": 1.0117, "step": 5393 }, { "epoch": 1.08768, "grad_norm": 0.024031486040159238, "learning_rate": 0.0001, "loss": 0.9679, "step": 5394 }, { "epoch": 1.0877333333333334, "grad_norm": 0.024070061247227326, "learning_rate": 0.0001, "loss": 0.9691, "step": 5395 }, { "epoch": 1.0877866666666667, "grad_norm": 0.022553830932739702, "learning_rate": 0.0001, "loss": 0.9772, "step": 5396 }, { "epoch": 1.08784, "grad_norm": 0.02563667349521712, "learning_rate": 0.0001, "loss": 1.0083, "step": 5397 }, { "epoch": 1.0878933333333334, "grad_norm": 0.02342864423376892, "learning_rate": 0.0001, "loss": 0.9695, "step": 5398 }, { "epoch": 1.0879466666666666, "grad_norm": 0.024095744759494494, "learning_rate": 0.0001, "loss": 0.9362, "step": 5399 }, { "epoch": 1.088, "grad_norm": 0.02495146061766215, "learning_rate": 0.0001, "loss": 0.9458, "step": 5400 }, { "epoch": 1.088, "eval_accuracy": 0.6178257006654867, "eval_loss": 1.367598533630371, "eval_runtime": 63.3325, "eval_samples_per_second": 15.79, "eval_steps_per_second": 0.505, "step": 5400 }, { "epoch": 1.0880533333333333, "grad_norm": 0.026224537113231177, "learning_rate": 0.0001, "loss": 0.953, "step": 5401 }, { "epoch": 1.0881066666666666, "grad_norm": 0.025601732792011826, "learning_rate": 0.0001, "loss": 0.9234, "step": 5402 }, { "epoch": 1.08816, "grad_norm": 0.023201105954557974, "learning_rate": 0.0001, "loss": 1.0289, "step": 5403 }, { "epoch": 1.0882133333333333, "grad_norm": 0.024741836494257805, "learning_rate": 0.0001, "loss": 0.9565, "step": 5404 }, { "epoch": 1.0882666666666667, "grad_norm": 0.025199460644633583, "learning_rate": 0.0001, "loss": 0.9623, "step": 5405 }, { "epoch": 1.08832, "grad_norm": 0.02309612830357707, "learning_rate": 0.0001, "loss": 0.9481, "step": 5406 }, { "epoch": 1.0883733333333334, "grad_norm": 0.023735102714719396, "learning_rate": 0.0001, "loss": 0.9697, "step": 5407 }, { "epoch": 1.0884266666666667, "grad_norm": 0.02482914382608947, "learning_rate": 0.0001, "loss": 0.9184, "step": 5408 }, { "epoch": 1.0884800000000001, "grad_norm": 0.025343248333721192, "learning_rate": 0.0001, "loss": 0.9807, "step": 5409 }, { "epoch": 1.0885333333333334, "grad_norm": 0.024348281477778188, "learning_rate": 0.0001, "loss": 0.9746, "step": 5410 }, { "epoch": 1.0885866666666666, "grad_norm": 0.022926963523185316, "learning_rate": 0.0001, "loss": 1.0092, "step": 5411 }, { "epoch": 1.08864, "grad_norm": 0.024187696996960606, "learning_rate": 0.0001, "loss": 0.9411, "step": 5412 }, { "epoch": 1.0886933333333333, "grad_norm": 0.024792651077237094, "learning_rate": 0.0001, "loss": 0.956, "step": 5413 }, { "epoch": 1.0887466666666668, "grad_norm": 0.02494666170137011, "learning_rate": 0.0001, "loss": 0.9917, "step": 5414 }, { "epoch": 1.0888, "grad_norm": 0.02384801198646467, "learning_rate": 0.0001, "loss": 0.9112, "step": 5415 }, { "epoch": 1.0888533333333332, "grad_norm": 0.024319686936650094, "learning_rate": 0.0001, "loss": 0.937, "step": 5416 }, { "epoch": 1.0889066666666667, "grad_norm": 0.025130572400233187, "learning_rate": 0.0001, "loss": 0.9988, "step": 5417 }, { "epoch": 1.08896, "grad_norm": 0.023886618955775898, "learning_rate": 0.0001, "loss": 1.0123, "step": 5418 }, { "epoch": 1.0890133333333334, "grad_norm": 0.02352342565718151, "learning_rate": 0.0001, "loss": 1.001, "step": 5419 }, { "epoch": 1.0890666666666666, "grad_norm": 0.02366827389206715, "learning_rate": 0.0001, "loss": 0.9414, "step": 5420 }, { "epoch": 1.08912, "grad_norm": 0.02367958789660692, "learning_rate": 0.0001, "loss": 0.9914, "step": 5421 }, { "epoch": 1.0891733333333333, "grad_norm": 0.02461895470602719, "learning_rate": 0.0001, "loss": 0.9303, "step": 5422 }, { "epoch": 1.0892266666666666, "grad_norm": 0.023972593012761816, "learning_rate": 0.0001, "loss": 1.0029, "step": 5423 }, { "epoch": 1.08928, "grad_norm": 0.02432821547324431, "learning_rate": 0.0001, "loss": 1.0187, "step": 5424 }, { "epoch": 1.0893333333333333, "grad_norm": 0.024156709701936115, "learning_rate": 0.0001, "loss": 0.9984, "step": 5425 }, { "epoch": 1.0893866666666667, "grad_norm": 0.023556472225441473, "learning_rate": 0.0001, "loss": 0.9941, "step": 5426 }, { "epoch": 1.08944, "grad_norm": 0.025053548354886553, "learning_rate": 0.0001, "loss": 0.9833, "step": 5427 }, { "epoch": 1.0894933333333334, "grad_norm": 0.024466834334306176, "learning_rate": 0.0001, "loss": 1.0437, "step": 5428 }, { "epoch": 1.0895466666666667, "grad_norm": 0.024203978424825492, "learning_rate": 0.0001, "loss": 0.9935, "step": 5429 }, { "epoch": 1.0896, "grad_norm": 0.02614689206315233, "learning_rate": 0.0001, "loss": 0.966, "step": 5430 }, { "epoch": 1.0896533333333334, "grad_norm": 0.024320664826792477, "learning_rate": 0.0001, "loss": 0.9933, "step": 5431 }, { "epoch": 1.0897066666666666, "grad_norm": 0.0245692734163972, "learning_rate": 0.0001, "loss": 0.978, "step": 5432 }, { "epoch": 1.08976, "grad_norm": 0.024932726612747202, "learning_rate": 0.0001, "loss": 0.9762, "step": 5433 }, { "epoch": 1.0898133333333333, "grad_norm": 0.023510111109406026, "learning_rate": 0.0001, "loss": 0.9817, "step": 5434 }, { "epoch": 1.0898666666666668, "grad_norm": 0.024115911620074815, "learning_rate": 0.0001, "loss": 0.9967, "step": 5435 }, { "epoch": 1.08992, "grad_norm": 0.026153199679287673, "learning_rate": 0.0001, "loss": 0.9897, "step": 5436 }, { "epoch": 1.0899733333333332, "grad_norm": 0.02539074759597056, "learning_rate": 0.0001, "loss": 0.9773, "step": 5437 }, { "epoch": 1.0900266666666667, "grad_norm": 0.022792275167629078, "learning_rate": 0.0001, "loss": 1.0059, "step": 5438 }, { "epoch": 1.09008, "grad_norm": 0.02328735690049007, "learning_rate": 0.0001, "loss": 0.9638, "step": 5439 }, { "epoch": 1.0901333333333334, "grad_norm": 0.025882206337241163, "learning_rate": 0.0001, "loss": 0.9313, "step": 5440 }, { "epoch": 1.0901866666666666, "grad_norm": 0.024270793696704224, "learning_rate": 0.0001, "loss": 0.9389, "step": 5441 }, { "epoch": 1.09024, "grad_norm": 0.025119120256480477, "learning_rate": 0.0001, "loss": 0.9726, "step": 5442 }, { "epoch": 1.0902933333333333, "grad_norm": 0.023912624526101187, "learning_rate": 0.0001, "loss": 1.0057, "step": 5443 }, { "epoch": 1.0903466666666666, "grad_norm": 0.022620910837785578, "learning_rate": 0.0001, "loss": 0.9865, "step": 5444 }, { "epoch": 1.0904, "grad_norm": 0.025229680860955193, "learning_rate": 0.0001, "loss": 0.9582, "step": 5445 }, { "epoch": 1.0904533333333333, "grad_norm": 0.023531799012144906, "learning_rate": 0.0001, "loss": 0.9739, "step": 5446 }, { "epoch": 1.0905066666666667, "grad_norm": 0.026610700778689336, "learning_rate": 0.0001, "loss": 0.9631, "step": 5447 }, { "epoch": 1.09056, "grad_norm": 0.023966339676864, "learning_rate": 0.0001, "loss": 0.9291, "step": 5448 }, { "epoch": 1.0906133333333334, "grad_norm": 0.02436687284239219, "learning_rate": 0.0001, "loss": 0.9515, "step": 5449 }, { "epoch": 1.0906666666666667, "grad_norm": 0.024478601058868316, "learning_rate": 0.0001, "loss": 0.9567, "step": 5450 }, { "epoch": 1.09072, "grad_norm": 0.02402488599794999, "learning_rate": 0.0001, "loss": 1.0498, "step": 5451 }, { "epoch": 1.0907733333333334, "grad_norm": 0.0269656007515562, "learning_rate": 0.0001, "loss": 1.0239, "step": 5452 }, { "epoch": 1.0908266666666666, "grad_norm": 0.023725201654153885, "learning_rate": 0.0001, "loss": 0.962, "step": 5453 }, { "epoch": 1.09088, "grad_norm": 0.02413305870649194, "learning_rate": 0.0001, "loss": 0.9941, "step": 5454 }, { "epoch": 1.0909333333333333, "grad_norm": 0.025672618515907207, "learning_rate": 0.0001, "loss": 0.9738, "step": 5455 }, { "epoch": 1.0909866666666668, "grad_norm": 0.02527717904014668, "learning_rate": 0.0001, "loss": 0.9245, "step": 5456 }, { "epoch": 1.09104, "grad_norm": 0.024848495817988685, "learning_rate": 0.0001, "loss": 0.959, "step": 5457 }, { "epoch": 1.0910933333333332, "grad_norm": 0.02358748069487493, "learning_rate": 0.0001, "loss": 0.9403, "step": 5458 }, { "epoch": 1.0911466666666667, "grad_norm": 0.02350354511835056, "learning_rate": 0.0001, "loss": 1.0037, "step": 5459 }, { "epoch": 1.0912, "grad_norm": 0.02462044142797206, "learning_rate": 0.0001, "loss": 0.9526, "step": 5460 }, { "epoch": 1.0912533333333334, "grad_norm": 0.023736111059015342, "learning_rate": 0.0001, "loss": 0.9831, "step": 5461 }, { "epoch": 1.0913066666666666, "grad_norm": 0.023956371225173648, "learning_rate": 0.0001, "loss": 0.958, "step": 5462 }, { "epoch": 1.0913599999999999, "grad_norm": 0.025746858164159583, "learning_rate": 0.0001, "loss": 0.9465, "step": 5463 }, { "epoch": 1.0914133333333333, "grad_norm": 0.02407267474699161, "learning_rate": 0.0001, "loss": 1.051, "step": 5464 }, { "epoch": 1.0914666666666666, "grad_norm": 0.025078672595403362, "learning_rate": 0.0001, "loss": 0.9686, "step": 5465 }, { "epoch": 1.09152, "grad_norm": 0.025313457038343607, "learning_rate": 0.0001, "loss": 1.0528, "step": 5466 }, { "epoch": 1.0915733333333333, "grad_norm": 0.026092883415715005, "learning_rate": 0.0001, "loss": 0.9527, "step": 5467 }, { "epoch": 1.0916266666666667, "grad_norm": 0.024572573491396448, "learning_rate": 0.0001, "loss": 0.9677, "step": 5468 }, { "epoch": 1.09168, "grad_norm": 0.027021746294949116, "learning_rate": 0.0001, "loss": 1.0039, "step": 5469 }, { "epoch": 1.0917333333333334, "grad_norm": 0.025657355143453877, "learning_rate": 0.0001, "loss": 0.9777, "step": 5470 }, { "epoch": 1.0917866666666667, "grad_norm": 0.024589722872828998, "learning_rate": 0.0001, "loss": 0.9755, "step": 5471 }, { "epoch": 1.09184, "grad_norm": 0.02381835053729346, "learning_rate": 0.0001, "loss": 0.938, "step": 5472 }, { "epoch": 1.0918933333333334, "grad_norm": 0.024518800166704807, "learning_rate": 0.0001, "loss": 0.9659, "step": 5473 }, { "epoch": 1.0919466666666666, "grad_norm": 0.024671508611492036, "learning_rate": 0.0001, "loss": 0.9279, "step": 5474 }, { "epoch": 1.092, "grad_norm": 0.02345440571504801, "learning_rate": 0.0001, "loss": 0.9787, "step": 5475 }, { "epoch": 1.0920533333333333, "grad_norm": 0.02515687847512022, "learning_rate": 0.0001, "loss": 0.986, "step": 5476 }, { "epoch": 1.0921066666666666, "grad_norm": 0.025980052149216358, "learning_rate": 0.0001, "loss": 0.9717, "step": 5477 }, { "epoch": 1.09216, "grad_norm": 0.026338872160574574, "learning_rate": 0.0001, "loss": 0.9546, "step": 5478 }, { "epoch": 1.0922133333333333, "grad_norm": 0.026729720347720337, "learning_rate": 0.0001, "loss": 0.9637, "step": 5479 }, { "epoch": 1.0922666666666667, "grad_norm": 0.025831101893613106, "learning_rate": 0.0001, "loss": 0.9842, "step": 5480 }, { "epoch": 1.09232, "grad_norm": 0.02440835320323529, "learning_rate": 0.0001, "loss": 0.9875, "step": 5481 }, { "epoch": 1.0923733333333334, "grad_norm": 0.02495663615448202, "learning_rate": 0.0001, "loss": 0.9456, "step": 5482 }, { "epoch": 1.0924266666666667, "grad_norm": 0.024397802027621093, "learning_rate": 0.0001, "loss": 0.9972, "step": 5483 }, { "epoch": 1.0924800000000001, "grad_norm": 0.0243684812992055, "learning_rate": 0.0001, "loss": 0.9554, "step": 5484 }, { "epoch": 1.0925333333333334, "grad_norm": 0.02556607749782903, "learning_rate": 0.0001, "loss": 0.9946, "step": 5485 }, { "epoch": 1.0925866666666666, "grad_norm": 0.025519487922027122, "learning_rate": 0.0001, "loss": 0.9961, "step": 5486 }, { "epoch": 1.09264, "grad_norm": 0.025918421020721297, "learning_rate": 0.0001, "loss": 1.0108, "step": 5487 }, { "epoch": 1.0926933333333333, "grad_norm": 0.025960295187532657, "learning_rate": 0.0001, "loss": 0.9751, "step": 5488 }, { "epoch": 1.0927466666666668, "grad_norm": 0.024648554929595633, "learning_rate": 0.0001, "loss": 1.0263, "step": 5489 }, { "epoch": 1.0928, "grad_norm": 0.025293776161721047, "learning_rate": 0.0001, "loss": 0.9689, "step": 5490 }, { "epoch": 1.0928533333333332, "grad_norm": 0.028177915555077808, "learning_rate": 0.0001, "loss": 0.8743, "step": 5491 }, { "epoch": 1.0929066666666667, "grad_norm": 0.024112960750611614, "learning_rate": 0.0001, "loss": 0.9942, "step": 5492 }, { "epoch": 1.09296, "grad_norm": 0.025509482477980194, "learning_rate": 0.0001, "loss": 0.9105, "step": 5493 }, { "epoch": 1.0930133333333334, "grad_norm": 0.028507720205317326, "learning_rate": 0.0001, "loss": 0.9436, "step": 5494 }, { "epoch": 1.0930666666666666, "grad_norm": 0.02429294420923327, "learning_rate": 0.0001, "loss": 0.9206, "step": 5495 }, { "epoch": 1.09312, "grad_norm": 0.026587288783749274, "learning_rate": 0.0001, "loss": 0.9727, "step": 5496 }, { "epoch": 1.0931733333333333, "grad_norm": 0.02561311400589922, "learning_rate": 0.0001, "loss": 1.0295, "step": 5497 }, { "epoch": 1.0932266666666666, "grad_norm": 0.02686784394429803, "learning_rate": 0.0001, "loss": 0.9667, "step": 5498 }, { "epoch": 1.09328, "grad_norm": 0.025079015337443465, "learning_rate": 0.0001, "loss": 0.9764, "step": 5499 }, { "epoch": 1.0933333333333333, "grad_norm": 0.02323718849562416, "learning_rate": 0.0001, "loss": 0.998, "step": 5500 }, { "epoch": 1.0933866666666667, "grad_norm": 0.024345687091664295, "learning_rate": 0.0001, "loss": 0.9897, "step": 5501 }, { "epoch": 1.09344, "grad_norm": 0.024207495952278255, "learning_rate": 0.0001, "loss": 0.9847, "step": 5502 }, { "epoch": 1.0934933333333334, "grad_norm": 0.024313769875642047, "learning_rate": 0.0001, "loss": 0.9813, "step": 5503 }, { "epoch": 1.0935466666666667, "grad_norm": 0.025327972583034992, "learning_rate": 0.0001, "loss": 0.9583, "step": 5504 }, { "epoch": 1.0936, "grad_norm": 0.025052389289688514, "learning_rate": 0.0001, "loss": 0.977, "step": 5505 }, { "epoch": 1.0936533333333334, "grad_norm": 0.02386429648221201, "learning_rate": 0.0001, "loss": 1.005, "step": 5506 }, { "epoch": 1.0937066666666666, "grad_norm": 0.024641059537914876, "learning_rate": 0.0001, "loss": 1.0257, "step": 5507 }, { "epoch": 1.09376, "grad_norm": 0.02423047945770857, "learning_rate": 0.0001, "loss": 0.9686, "step": 5508 }, { "epoch": 1.0938133333333333, "grad_norm": 0.02400645946069786, "learning_rate": 0.0001, "loss": 1.0032, "step": 5509 }, { "epoch": 1.0938666666666668, "grad_norm": 0.027153199835011965, "learning_rate": 0.0001, "loss": 1.0057, "step": 5510 }, { "epoch": 1.09392, "grad_norm": 0.025305947636713472, "learning_rate": 0.0001, "loss": 0.9685, "step": 5511 }, { "epoch": 1.0939733333333332, "grad_norm": 0.02415912504660784, "learning_rate": 0.0001, "loss": 0.9569, "step": 5512 }, { "epoch": 1.0940266666666667, "grad_norm": 0.02281209968910904, "learning_rate": 0.0001, "loss": 0.9543, "step": 5513 }, { "epoch": 1.09408, "grad_norm": 0.02539451166075499, "learning_rate": 0.0001, "loss": 1.0059, "step": 5514 }, { "epoch": 1.0941333333333334, "grad_norm": 0.023732536477669264, "learning_rate": 0.0001, "loss": 0.8877, "step": 5515 }, { "epoch": 1.0941866666666666, "grad_norm": 0.025433957947910747, "learning_rate": 0.0001, "loss": 0.9711, "step": 5516 }, { "epoch": 1.09424, "grad_norm": 0.024349360944002307, "learning_rate": 0.0001, "loss": 1.0086, "step": 5517 }, { "epoch": 1.0942933333333333, "grad_norm": 0.024079554256786904, "learning_rate": 0.0001, "loss": 0.9249, "step": 5518 }, { "epoch": 1.0943466666666666, "grad_norm": 0.02540603590913862, "learning_rate": 0.0001, "loss": 0.9465, "step": 5519 }, { "epoch": 1.0944, "grad_norm": 0.025205490515330112, "learning_rate": 0.0001, "loss": 0.9891, "step": 5520 }, { "epoch": 1.0944533333333333, "grad_norm": 0.025192362313165743, "learning_rate": 0.0001, "loss": 1.0151, "step": 5521 }, { "epoch": 1.0945066666666667, "grad_norm": 0.02389534395200932, "learning_rate": 0.0001, "loss": 0.9563, "step": 5522 }, { "epoch": 1.09456, "grad_norm": 0.026009713596987845, "learning_rate": 0.0001, "loss": 1.02, "step": 5523 }, { "epoch": 1.0946133333333332, "grad_norm": 0.026706366973114945, "learning_rate": 0.0001, "loss": 0.9542, "step": 5524 }, { "epoch": 1.0946666666666667, "grad_norm": 0.025290129776536014, "learning_rate": 0.0001, "loss": 1.0185, "step": 5525 }, { "epoch": 1.09472, "grad_norm": 0.024157523645464012, "learning_rate": 0.0001, "loss": 0.9451, "step": 5526 }, { "epoch": 1.0947733333333334, "grad_norm": 0.0245954610327734, "learning_rate": 0.0001, "loss": 0.9355, "step": 5527 }, { "epoch": 1.0948266666666666, "grad_norm": 0.026173827662226718, "learning_rate": 0.0001, "loss": 1.0709, "step": 5528 }, { "epoch": 1.09488, "grad_norm": 0.023698757322461364, "learning_rate": 0.0001, "loss": 0.9561, "step": 5529 }, { "epoch": 1.0949333333333333, "grad_norm": 0.026627898727698572, "learning_rate": 0.0001, "loss": 1.0236, "step": 5530 }, { "epoch": 1.0949866666666668, "grad_norm": 0.023516227530357883, "learning_rate": 0.0001, "loss": 0.9218, "step": 5531 }, { "epoch": 1.09504, "grad_norm": 0.0258707525867235, "learning_rate": 0.0001, "loss": 1.038, "step": 5532 }, { "epoch": 1.0950933333333333, "grad_norm": 0.02380909662976778, "learning_rate": 0.0001, "loss": 0.9563, "step": 5533 }, { "epoch": 1.0951466666666667, "grad_norm": 0.02412126227757258, "learning_rate": 0.0001, "loss": 1.0287, "step": 5534 }, { "epoch": 1.0952, "grad_norm": 0.023784390006525238, "learning_rate": 0.0001, "loss": 0.9567, "step": 5535 }, { "epoch": 1.0952533333333334, "grad_norm": 0.023908122287299584, "learning_rate": 0.0001, "loss": 0.9541, "step": 5536 }, { "epoch": 1.0953066666666667, "grad_norm": 0.02495327254541312, "learning_rate": 0.0001, "loss": 0.9836, "step": 5537 }, { "epoch": 1.09536, "grad_norm": 0.022849704639174722, "learning_rate": 0.0001, "loss": 0.9754, "step": 5538 }, { "epoch": 1.0954133333333333, "grad_norm": 0.022978519698851823, "learning_rate": 0.0001, "loss": 0.962, "step": 5539 }, { "epoch": 1.0954666666666666, "grad_norm": 0.025093078661226637, "learning_rate": 0.0001, "loss": 0.9773, "step": 5540 }, { "epoch": 1.09552, "grad_norm": 0.02359525107410276, "learning_rate": 0.0001, "loss": 0.9487, "step": 5541 }, { "epoch": 1.0955733333333333, "grad_norm": 0.024108005646971176, "learning_rate": 0.0001, "loss": 0.9433, "step": 5542 }, { "epoch": 1.0956266666666667, "grad_norm": 0.025537429171524347, "learning_rate": 0.0001, "loss": 0.9642, "step": 5543 }, { "epoch": 1.09568, "grad_norm": 0.02386427586929367, "learning_rate": 0.0001, "loss": 0.9582, "step": 5544 }, { "epoch": 1.0957333333333334, "grad_norm": 0.023058191467297803, "learning_rate": 0.0001, "loss": 0.9408, "step": 5545 }, { "epoch": 1.0957866666666667, "grad_norm": 0.024275418636215376, "learning_rate": 0.0001, "loss": 0.9969, "step": 5546 }, { "epoch": 1.09584, "grad_norm": 0.024037826177039312, "learning_rate": 0.0001, "loss": 1.038, "step": 5547 }, { "epoch": 1.0958933333333334, "grad_norm": 0.02364432305260219, "learning_rate": 0.0001, "loss": 1.0122, "step": 5548 }, { "epoch": 1.0959466666666666, "grad_norm": 0.029566854805905457, "learning_rate": 0.0001, "loss": 0.9397, "step": 5549 }, { "epoch": 1.096, "grad_norm": 0.02518245641346586, "learning_rate": 0.0001, "loss": 1.0744, "step": 5550 }, { "epoch": 1.0960533333333333, "grad_norm": 0.026726028700560144, "learning_rate": 0.0001, "loss": 0.9916, "step": 5551 }, { "epoch": 1.0961066666666666, "grad_norm": 0.024232968064882086, "learning_rate": 0.0001, "loss": 0.9279, "step": 5552 }, { "epoch": 1.09616, "grad_norm": 0.024462718793837768, "learning_rate": 0.0001, "loss": 0.9471, "step": 5553 }, { "epoch": 1.0962133333333333, "grad_norm": 0.023697338249250473, "learning_rate": 0.0001, "loss": 0.9897, "step": 5554 }, { "epoch": 1.0962666666666667, "grad_norm": 0.023920908668427162, "learning_rate": 0.0001, "loss": 1.033, "step": 5555 }, { "epoch": 1.09632, "grad_norm": 0.026159281605135594, "learning_rate": 0.0001, "loss": 0.9304, "step": 5556 }, { "epoch": 1.0963733333333334, "grad_norm": 0.024465679634085833, "learning_rate": 0.0001, "loss": 0.9713, "step": 5557 }, { "epoch": 1.0964266666666667, "grad_norm": 0.024314326937403305, "learning_rate": 0.0001, "loss": 1.0237, "step": 5558 }, { "epoch": 1.09648, "grad_norm": 0.027373361697239394, "learning_rate": 0.0001, "loss": 1.0017, "step": 5559 }, { "epoch": 1.0965333333333334, "grad_norm": 0.0240621327077373, "learning_rate": 0.0001, "loss": 0.9746, "step": 5560 }, { "epoch": 1.0965866666666666, "grad_norm": 0.025142646854822637, "learning_rate": 0.0001, "loss": 0.9791, "step": 5561 }, { "epoch": 1.09664, "grad_norm": 0.023181108916952076, "learning_rate": 0.0001, "loss": 1.0092, "step": 5562 }, { "epoch": 1.0966933333333333, "grad_norm": 0.024600812003252006, "learning_rate": 0.0001, "loss": 0.9095, "step": 5563 }, { "epoch": 1.0967466666666668, "grad_norm": 0.023669023926223963, "learning_rate": 0.0001, "loss": 0.9182, "step": 5564 }, { "epoch": 1.0968, "grad_norm": 0.0237209850728578, "learning_rate": 0.0001, "loss": 0.9673, "step": 5565 }, { "epoch": 1.0968533333333332, "grad_norm": 0.028992624386155748, "learning_rate": 0.0001, "loss": 0.9864, "step": 5566 }, { "epoch": 1.0969066666666667, "grad_norm": 0.024463736704119738, "learning_rate": 0.0001, "loss": 1.0162, "step": 5567 }, { "epoch": 1.09696, "grad_norm": 0.024305595912931466, "learning_rate": 0.0001, "loss": 1.0543, "step": 5568 }, { "epoch": 1.0970133333333334, "grad_norm": 0.02619147535947587, "learning_rate": 0.0001, "loss": 1.0243, "step": 5569 }, { "epoch": 1.0970666666666666, "grad_norm": 0.027049589456740544, "learning_rate": 0.0001, "loss": 0.9801, "step": 5570 }, { "epoch": 1.09712, "grad_norm": 0.024151371207620335, "learning_rate": 0.0001, "loss": 0.9353, "step": 5571 }, { "epoch": 1.0971733333333333, "grad_norm": 0.02515828925166502, "learning_rate": 0.0001, "loss": 1.0017, "step": 5572 }, { "epoch": 1.0972266666666666, "grad_norm": 0.025517565646948834, "learning_rate": 0.0001, "loss": 0.9954, "step": 5573 }, { "epoch": 1.09728, "grad_norm": 0.024893452909516393, "learning_rate": 0.0001, "loss": 0.9514, "step": 5574 }, { "epoch": 1.0973333333333333, "grad_norm": 0.024815765827224622, "learning_rate": 0.0001, "loss": 0.9384, "step": 5575 }, { "epoch": 1.0973866666666667, "grad_norm": 0.025383650210339174, "learning_rate": 0.0001, "loss": 0.9372, "step": 5576 }, { "epoch": 1.09744, "grad_norm": 0.02413081654084862, "learning_rate": 0.0001, "loss": 0.9567, "step": 5577 }, { "epoch": 1.0974933333333334, "grad_norm": 0.02846082244314978, "learning_rate": 0.0001, "loss": 0.9607, "step": 5578 }, { "epoch": 1.0975466666666667, "grad_norm": 0.025297815564696523, "learning_rate": 0.0001, "loss": 0.9352, "step": 5579 }, { "epoch": 1.0976, "grad_norm": 0.024212633532749078, "learning_rate": 0.0001, "loss": 0.9084, "step": 5580 }, { "epoch": 1.0976533333333334, "grad_norm": 0.026204464622635305, "learning_rate": 0.0001, "loss": 1.0011, "step": 5581 }, { "epoch": 1.0977066666666666, "grad_norm": 0.026529641022938713, "learning_rate": 0.0001, "loss": 0.9547, "step": 5582 }, { "epoch": 1.09776, "grad_norm": 0.024222035290744282, "learning_rate": 0.0001, "loss": 0.9839, "step": 5583 }, { "epoch": 1.0978133333333333, "grad_norm": 0.02720147677451512, "learning_rate": 0.0001, "loss": 0.9299, "step": 5584 }, { "epoch": 1.0978666666666668, "grad_norm": 0.025859668384330164, "learning_rate": 0.0001, "loss": 1.0551, "step": 5585 }, { "epoch": 1.09792, "grad_norm": 0.024759258508085445, "learning_rate": 0.0001, "loss": 0.9464, "step": 5586 }, { "epoch": 1.0979733333333332, "grad_norm": 0.026791484921885295, "learning_rate": 0.0001, "loss": 0.9398, "step": 5587 }, { "epoch": 1.0980266666666667, "grad_norm": 0.025251806429387024, "learning_rate": 0.0001, "loss": 0.9367, "step": 5588 }, { "epoch": 1.09808, "grad_norm": 0.025150275960437767, "learning_rate": 0.0001, "loss": 0.9606, "step": 5589 }, { "epoch": 1.0981333333333334, "grad_norm": 0.02716835437695572, "learning_rate": 0.0001, "loss": 0.9882, "step": 5590 }, { "epoch": 1.0981866666666666, "grad_norm": 0.04222119425145647, "learning_rate": 0.0001, "loss": 0.9404, "step": 5591 }, { "epoch": 1.09824, "grad_norm": 0.02361710058004188, "learning_rate": 0.0001, "loss": 1.0176, "step": 5592 }, { "epoch": 1.0982933333333333, "grad_norm": 0.026812891173321248, "learning_rate": 0.0001, "loss": 0.976, "step": 5593 }, { "epoch": 1.0983466666666666, "grad_norm": 0.024357590322644226, "learning_rate": 0.0001, "loss": 0.984, "step": 5594 }, { "epoch": 1.0984, "grad_norm": 0.024015343468942723, "learning_rate": 0.0001, "loss": 0.9868, "step": 5595 }, { "epoch": 1.0984533333333333, "grad_norm": 0.02484493646718331, "learning_rate": 0.0001, "loss": 0.9919, "step": 5596 }, { "epoch": 1.0985066666666667, "grad_norm": 0.024906538892755983, "learning_rate": 0.0001, "loss": 0.9952, "step": 5597 }, { "epoch": 1.09856, "grad_norm": 0.025324817136249195, "learning_rate": 0.0001, "loss": 0.9963, "step": 5598 }, { "epoch": 1.0986133333333332, "grad_norm": 0.024933350892388732, "learning_rate": 0.0001, "loss": 0.9379, "step": 5599 }, { "epoch": 1.0986666666666667, "grad_norm": 0.025556073803813823, "learning_rate": 0.0001, "loss": 0.9532, "step": 5600 }, { "epoch": 1.0986666666666667, "eval_accuracy": 0.6178924385686356, "eval_loss": 1.3665144443511963, "eval_runtime": 62.4704, "eval_samples_per_second": 16.008, "eval_steps_per_second": 0.512, "step": 5600 }, { "epoch": 1.09872, "grad_norm": 0.022965628125048817, "learning_rate": 0.0001, "loss": 0.9572, "step": 5601 }, { "epoch": 1.0987733333333334, "grad_norm": 0.026472139108689164, "learning_rate": 0.0001, "loss": 0.9543, "step": 5602 }, { "epoch": 1.0988266666666666, "grad_norm": 0.023245512185718263, "learning_rate": 0.0001, "loss": 1.0033, "step": 5603 }, { "epoch": 1.09888, "grad_norm": 0.0237020922065763, "learning_rate": 0.0001, "loss": 0.9615, "step": 5604 }, { "epoch": 1.0989333333333333, "grad_norm": 0.023382850068568852, "learning_rate": 0.0001, "loss": 0.985, "step": 5605 }, { "epoch": 1.0989866666666668, "grad_norm": 0.026205970827593975, "learning_rate": 0.0001, "loss": 0.9476, "step": 5606 }, { "epoch": 1.09904, "grad_norm": 0.023289236472093456, "learning_rate": 0.0001, "loss": 0.8998, "step": 5607 }, { "epoch": 1.0990933333333333, "grad_norm": 0.025170868460205054, "learning_rate": 0.0001, "loss": 1.0108, "step": 5608 }, { "epoch": 1.0991466666666667, "grad_norm": 0.024952962375621522, "learning_rate": 0.0001, "loss": 0.9918, "step": 5609 }, { "epoch": 1.0992, "grad_norm": 0.023920236053097964, "learning_rate": 0.0001, "loss": 0.9281, "step": 5610 }, { "epoch": 1.0992533333333334, "grad_norm": 0.024901945574898696, "learning_rate": 0.0001, "loss": 0.9978, "step": 5611 }, { "epoch": 1.0993066666666667, "grad_norm": 0.023464531803288644, "learning_rate": 0.0001, "loss": 0.9679, "step": 5612 }, { "epoch": 1.09936, "grad_norm": 0.025834052635356076, "learning_rate": 0.0001, "loss": 0.9764, "step": 5613 }, { "epoch": 1.0994133333333334, "grad_norm": 0.022562124218375935, "learning_rate": 0.0001, "loss": 0.982, "step": 5614 }, { "epoch": 1.0994666666666666, "grad_norm": 0.023710194314329535, "learning_rate": 0.0001, "loss": 0.978, "step": 5615 }, { "epoch": 1.09952, "grad_norm": 0.024191642781317118, "learning_rate": 0.0001, "loss": 0.9823, "step": 5616 }, { "epoch": 1.0995733333333333, "grad_norm": 0.023512866656303907, "learning_rate": 0.0001, "loss": 0.935, "step": 5617 }, { "epoch": 1.0996266666666668, "grad_norm": 0.022034183796319117, "learning_rate": 0.0001, "loss": 0.9715, "step": 5618 }, { "epoch": 1.09968, "grad_norm": 0.024091065126488304, "learning_rate": 0.0001, "loss": 0.913, "step": 5619 }, { "epoch": 1.0997333333333332, "grad_norm": 0.02631728433793347, "learning_rate": 0.0001, "loss": 0.9841, "step": 5620 }, { "epoch": 1.0997866666666667, "grad_norm": 0.023056178430352355, "learning_rate": 0.0001, "loss": 0.9937, "step": 5621 }, { "epoch": 1.09984, "grad_norm": 0.02316053756039938, "learning_rate": 0.0001, "loss": 1.0196, "step": 5622 }, { "epoch": 1.0998933333333334, "grad_norm": 0.024875854208064735, "learning_rate": 0.0001, "loss": 0.9891, "step": 5623 }, { "epoch": 1.0999466666666666, "grad_norm": 0.04097373235686131, "learning_rate": 0.0001, "loss": 1.0012, "step": 5624 }, { "epoch": 1.1, "grad_norm": 0.024285001828013297, "learning_rate": 0.0001, "loss": 0.9526, "step": 5625 }, { "epoch": 1.1000533333333333, "grad_norm": 0.024307150573079313, "learning_rate": 0.0001, "loss": 0.948, "step": 5626 }, { "epoch": 1.1001066666666666, "grad_norm": 0.025045693615842104, "learning_rate": 0.0001, "loss": 0.9884, "step": 5627 }, { "epoch": 1.10016, "grad_norm": 0.02560254143130997, "learning_rate": 0.0001, "loss": 1.0137, "step": 5628 }, { "epoch": 1.1002133333333333, "grad_norm": 0.02400245519884449, "learning_rate": 0.0001, "loss": 1.0258, "step": 5629 }, { "epoch": 1.1002666666666667, "grad_norm": 0.02669355940761002, "learning_rate": 0.0001, "loss": 1.0116, "step": 5630 }, { "epoch": 1.10032, "grad_norm": 0.026752987986533135, "learning_rate": 0.0001, "loss": 1.0176, "step": 5631 }, { "epoch": 1.1003733333333334, "grad_norm": 0.02369763495097928, "learning_rate": 0.0001, "loss": 1.0138, "step": 5632 }, { "epoch": 1.1004266666666667, "grad_norm": 0.023468803176476934, "learning_rate": 0.0001, "loss": 0.9687, "step": 5633 }, { "epoch": 1.10048, "grad_norm": 0.02528860712090332, "learning_rate": 0.0001, "loss": 0.9857, "step": 5634 }, { "epoch": 1.1005333333333334, "grad_norm": 0.02440177407730071, "learning_rate": 0.0001, "loss": 1.0187, "step": 5635 }, { "epoch": 1.1005866666666666, "grad_norm": 0.025484259026444595, "learning_rate": 0.0001, "loss": 0.9843, "step": 5636 }, { "epoch": 1.10064, "grad_norm": 0.02388397905005154, "learning_rate": 0.0001, "loss": 0.9814, "step": 5637 }, { "epoch": 1.1006933333333333, "grad_norm": 0.024472034579618985, "learning_rate": 0.0001, "loss": 0.987, "step": 5638 }, { "epoch": 1.1007466666666668, "grad_norm": 0.023661322553545076, "learning_rate": 0.0001, "loss": 0.9321, "step": 5639 }, { "epoch": 1.1008, "grad_norm": 0.02432118609880922, "learning_rate": 0.0001, "loss": 0.9874, "step": 5640 }, { "epoch": 1.1008533333333332, "grad_norm": 0.02266564509495085, "learning_rate": 0.0001, "loss": 0.9559, "step": 5641 }, { "epoch": 1.1009066666666667, "grad_norm": 0.02285050556508099, "learning_rate": 0.0001, "loss": 0.9911, "step": 5642 }, { "epoch": 1.10096, "grad_norm": 0.024718541652846194, "learning_rate": 0.0001, "loss": 0.9597, "step": 5643 }, { "epoch": 1.1010133333333334, "grad_norm": 0.024325225605557617, "learning_rate": 0.0001, "loss": 0.9723, "step": 5644 }, { "epoch": 1.1010666666666666, "grad_norm": 0.02601902816423476, "learning_rate": 0.0001, "loss": 1.0223, "step": 5645 }, { "epoch": 1.10112, "grad_norm": 0.02504433368430826, "learning_rate": 0.0001, "loss": 0.9833, "step": 5646 }, { "epoch": 1.1011733333333333, "grad_norm": 0.023961213857143518, "learning_rate": 0.0001, "loss": 0.9522, "step": 5647 }, { "epoch": 1.1012266666666666, "grad_norm": 0.024519096485024965, "learning_rate": 0.0001, "loss": 1.0653, "step": 5648 }, { "epoch": 1.10128, "grad_norm": 0.02386774963871836, "learning_rate": 0.0001, "loss": 0.9295, "step": 5649 }, { "epoch": 1.1013333333333333, "grad_norm": 0.02486710715458161, "learning_rate": 0.0001, "loss": 1.0323, "step": 5650 }, { "epoch": 1.1013866666666667, "grad_norm": 0.025655902439552087, "learning_rate": 0.0001, "loss": 0.9104, "step": 5651 }, { "epoch": 1.10144, "grad_norm": 0.024209910444680963, "learning_rate": 0.0001, "loss": 1.0195, "step": 5652 }, { "epoch": 1.1014933333333334, "grad_norm": 0.02365821642766958, "learning_rate": 0.0001, "loss": 1.0512, "step": 5653 }, { "epoch": 1.1015466666666667, "grad_norm": 0.023137532311931094, "learning_rate": 0.0001, "loss": 0.9864, "step": 5654 }, { "epoch": 1.1016, "grad_norm": 0.023284460889304213, "learning_rate": 0.0001, "loss": 0.974, "step": 5655 }, { "epoch": 1.1016533333333334, "grad_norm": 0.024209516433346834, "learning_rate": 0.0001, "loss": 0.9776, "step": 5656 }, { "epoch": 1.1017066666666666, "grad_norm": 0.023466482888525757, "learning_rate": 0.0001, "loss": 0.9871, "step": 5657 }, { "epoch": 1.10176, "grad_norm": 0.024217456320927942, "learning_rate": 0.0001, "loss": 0.9412, "step": 5658 }, { "epoch": 1.1018133333333333, "grad_norm": 0.024565920121169336, "learning_rate": 0.0001, "loss": 0.9869, "step": 5659 }, { "epoch": 1.1018666666666665, "grad_norm": 0.02342100197632389, "learning_rate": 0.0001, "loss": 1.0027, "step": 5660 }, { "epoch": 1.10192, "grad_norm": 0.024330382686747854, "learning_rate": 0.0001, "loss": 0.9817, "step": 5661 }, { "epoch": 1.1019733333333332, "grad_norm": 0.024062921277976528, "learning_rate": 0.0001, "loss": 0.9695, "step": 5662 }, { "epoch": 1.1020266666666667, "grad_norm": 0.02495393327272086, "learning_rate": 0.0001, "loss": 0.9247, "step": 5663 }, { "epoch": 1.10208, "grad_norm": 0.02478337815861847, "learning_rate": 0.0001, "loss": 1.045, "step": 5664 }, { "epoch": 1.1021333333333334, "grad_norm": 0.025423483293232903, "learning_rate": 0.0001, "loss": 0.9512, "step": 5665 }, { "epoch": 1.1021866666666666, "grad_norm": 0.023271677431051886, "learning_rate": 0.0001, "loss": 0.9923, "step": 5666 }, { "epoch": 1.10224, "grad_norm": 0.024798632182202966, "learning_rate": 0.0001, "loss": 1.0327, "step": 5667 }, { "epoch": 1.1022933333333333, "grad_norm": 0.02440337625812419, "learning_rate": 0.0001, "loss": 0.9334, "step": 5668 }, { "epoch": 1.1023466666666666, "grad_norm": 0.024411119992089392, "learning_rate": 0.0001, "loss": 1.011, "step": 5669 }, { "epoch": 1.1024, "grad_norm": 0.02415166554067924, "learning_rate": 0.0001, "loss": 0.9237, "step": 5670 }, { "epoch": 1.1024533333333333, "grad_norm": 0.024125936384685468, "learning_rate": 0.0001, "loss": 1.0342, "step": 5671 }, { "epoch": 1.1025066666666667, "grad_norm": 0.02412293592332795, "learning_rate": 0.0001, "loss": 0.9985, "step": 5672 }, { "epoch": 1.10256, "grad_norm": 0.02521246944064526, "learning_rate": 0.0001, "loss": 0.9647, "step": 5673 }, { "epoch": 1.1026133333333332, "grad_norm": 0.025340221371096136, "learning_rate": 0.0001, "loss": 0.9434, "step": 5674 }, { "epoch": 1.1026666666666667, "grad_norm": 0.024926994059381827, "learning_rate": 0.0001, "loss": 0.9685, "step": 5675 }, { "epoch": 1.10272, "grad_norm": 0.024411539313029085, "learning_rate": 0.0001, "loss": 0.9934, "step": 5676 }, { "epoch": 1.1027733333333334, "grad_norm": 0.023450991124520666, "learning_rate": 0.0001, "loss": 0.9735, "step": 5677 }, { "epoch": 1.1028266666666666, "grad_norm": 0.025732116443767352, "learning_rate": 0.0001, "loss": 0.9439, "step": 5678 }, { "epoch": 1.10288, "grad_norm": 0.026494104272060292, "learning_rate": 0.0001, "loss": 0.9965, "step": 5679 }, { "epoch": 1.1029333333333333, "grad_norm": 0.024531821937277997, "learning_rate": 0.0001, "loss": 0.9609, "step": 5680 }, { "epoch": 1.1029866666666668, "grad_norm": 0.025096947491077777, "learning_rate": 0.0001, "loss": 0.9952, "step": 5681 }, { "epoch": 1.10304, "grad_norm": 0.02592827766559877, "learning_rate": 0.0001, "loss": 0.9694, "step": 5682 }, { "epoch": 1.1030933333333333, "grad_norm": 0.02760385133485528, "learning_rate": 0.0001, "loss": 1.0186, "step": 5683 }, { "epoch": 1.1031466666666667, "grad_norm": 0.024224126691885783, "learning_rate": 0.0001, "loss": 0.962, "step": 5684 }, { "epoch": 1.1032, "grad_norm": 0.023621459147206814, "learning_rate": 0.0001, "loss": 1.0013, "step": 5685 }, { "epoch": 1.1032533333333334, "grad_norm": 0.02440945028811691, "learning_rate": 0.0001, "loss": 0.9735, "step": 5686 }, { "epoch": 1.1033066666666667, "grad_norm": 0.024181156285096, "learning_rate": 0.0001, "loss": 1.0234, "step": 5687 }, { "epoch": 1.10336, "grad_norm": 0.02330791507532711, "learning_rate": 0.0001, "loss": 0.9711, "step": 5688 }, { "epoch": 1.1034133333333334, "grad_norm": 0.02388764210599723, "learning_rate": 0.0001, "loss": 0.955, "step": 5689 }, { "epoch": 1.1034666666666666, "grad_norm": 0.02364940422439363, "learning_rate": 0.0001, "loss": 0.9991, "step": 5690 }, { "epoch": 1.10352, "grad_norm": 0.023183852214704235, "learning_rate": 0.0001, "loss": 0.9354, "step": 5691 }, { "epoch": 1.1035733333333333, "grad_norm": 0.024570049444391576, "learning_rate": 0.0001, "loss": 0.908, "step": 5692 }, { "epoch": 1.1036266666666668, "grad_norm": 0.02341787883441545, "learning_rate": 0.0001, "loss": 1.0468, "step": 5693 }, { "epoch": 1.10368, "grad_norm": 0.024902572765729655, "learning_rate": 0.0001, "loss": 1.0404, "step": 5694 }, { "epoch": 1.1037333333333332, "grad_norm": 0.02435602600140661, "learning_rate": 0.0001, "loss": 1.0034, "step": 5695 }, { "epoch": 1.1037866666666667, "grad_norm": 0.026308071697665955, "learning_rate": 0.0001, "loss": 0.8999, "step": 5696 }, { "epoch": 1.10384, "grad_norm": 0.02494326436076829, "learning_rate": 0.0001, "loss": 0.9189, "step": 5697 }, { "epoch": 1.1038933333333334, "grad_norm": 0.025157043855064638, "learning_rate": 0.0001, "loss": 1.0236, "step": 5698 }, { "epoch": 1.1039466666666666, "grad_norm": 0.026308059333180884, "learning_rate": 0.0001, "loss": 0.9595, "step": 5699 }, { "epoch": 1.104, "grad_norm": 0.02521876485267348, "learning_rate": 0.0001, "loss": 0.9865, "step": 5700 }, { "epoch": 1.1040533333333333, "grad_norm": 0.023480319742917578, "learning_rate": 0.0001, "loss": 0.96, "step": 5701 }, { "epoch": 1.1041066666666666, "grad_norm": 0.024290664139781582, "learning_rate": 0.0001, "loss": 0.9716, "step": 5702 }, { "epoch": 1.10416, "grad_norm": 0.02467000089878983, "learning_rate": 0.0001, "loss": 1.0085, "step": 5703 }, { "epoch": 1.1042133333333333, "grad_norm": 0.023176188003987897, "learning_rate": 0.0001, "loss": 1.04, "step": 5704 }, { "epoch": 1.1042666666666667, "grad_norm": 0.026799275692690475, "learning_rate": 0.0001, "loss": 0.9819, "step": 5705 }, { "epoch": 1.10432, "grad_norm": 0.024609554791232047, "learning_rate": 0.0001, "loss": 0.9754, "step": 5706 }, { "epoch": 1.1043733333333334, "grad_norm": 0.0270970104228632, "learning_rate": 0.0001, "loss": 0.9661, "step": 5707 }, { "epoch": 1.1044266666666667, "grad_norm": 0.024757157405666322, "learning_rate": 0.0001, "loss": 0.9947, "step": 5708 }, { "epoch": 1.10448, "grad_norm": 0.024550443549874065, "learning_rate": 0.0001, "loss": 0.9458, "step": 5709 }, { "epoch": 1.1045333333333334, "grad_norm": 0.025009958707557404, "learning_rate": 0.0001, "loss": 1.0317, "step": 5710 }, { "epoch": 1.1045866666666666, "grad_norm": 0.024215540445977367, "learning_rate": 0.0001, "loss": 0.9371, "step": 5711 }, { "epoch": 1.10464, "grad_norm": 0.025262996005739682, "learning_rate": 0.0001, "loss": 0.9862, "step": 5712 }, { "epoch": 1.1046933333333333, "grad_norm": 0.024629455849490573, "learning_rate": 0.0001, "loss": 0.957, "step": 5713 }, { "epoch": 1.1047466666666668, "grad_norm": 0.02363729729718454, "learning_rate": 0.0001, "loss": 0.9844, "step": 5714 }, { "epoch": 1.1048, "grad_norm": 0.023686001949631455, "learning_rate": 0.0001, "loss": 0.9601, "step": 5715 }, { "epoch": 1.1048533333333332, "grad_norm": 0.02399599595005158, "learning_rate": 0.0001, "loss": 1.0136, "step": 5716 }, { "epoch": 1.1049066666666667, "grad_norm": 0.02441392151610895, "learning_rate": 0.0001, "loss": 1.0017, "step": 5717 }, { "epoch": 1.10496, "grad_norm": 0.023255291406890977, "learning_rate": 0.0001, "loss": 0.9813, "step": 5718 }, { "epoch": 1.1050133333333334, "grad_norm": 0.024156879083448966, "learning_rate": 0.0001, "loss": 0.9685, "step": 5719 }, { "epoch": 1.1050666666666666, "grad_norm": 0.023454716855884704, "learning_rate": 0.0001, "loss": 0.9983, "step": 5720 }, { "epoch": 1.10512, "grad_norm": 0.02295148676410401, "learning_rate": 0.0001, "loss": 0.9473, "step": 5721 }, { "epoch": 1.1051733333333333, "grad_norm": 0.023640334549520192, "learning_rate": 0.0001, "loss": 0.9678, "step": 5722 }, { "epoch": 1.1052266666666666, "grad_norm": 0.025809829482070768, "learning_rate": 0.0001, "loss": 1.0071, "step": 5723 }, { "epoch": 1.10528, "grad_norm": 0.02384290534851165, "learning_rate": 0.0001, "loss": 0.9816, "step": 5724 }, { "epoch": 1.1053333333333333, "grad_norm": 0.025198487285094294, "learning_rate": 0.0001, "loss": 0.9697, "step": 5725 }, { "epoch": 1.1053866666666667, "grad_norm": 0.02521676293857615, "learning_rate": 0.0001, "loss": 0.9959, "step": 5726 }, { "epoch": 1.10544, "grad_norm": 0.024699814150043714, "learning_rate": 0.0001, "loss": 0.9577, "step": 5727 }, { "epoch": 1.1054933333333334, "grad_norm": 0.024203783839079798, "learning_rate": 0.0001, "loss": 0.9604, "step": 5728 }, { "epoch": 1.1055466666666667, "grad_norm": 0.023063648560891728, "learning_rate": 0.0001, "loss": 1.0248, "step": 5729 }, { "epoch": 1.1056, "grad_norm": 0.024310417474311712, "learning_rate": 0.0001, "loss": 0.9364, "step": 5730 }, { "epoch": 1.1056533333333334, "grad_norm": 0.026882691935326122, "learning_rate": 0.0001, "loss": 1.0493, "step": 5731 }, { "epoch": 1.1057066666666666, "grad_norm": 0.02474679183841228, "learning_rate": 0.0001, "loss": 0.9656, "step": 5732 }, { "epoch": 1.10576, "grad_norm": 0.02533442431845857, "learning_rate": 0.0001, "loss": 0.9931, "step": 5733 }, { "epoch": 1.1058133333333333, "grad_norm": 0.025141255640614313, "learning_rate": 0.0001, "loss": 0.9635, "step": 5734 }, { "epoch": 1.1058666666666666, "grad_norm": 0.025032733430675448, "learning_rate": 0.0001, "loss": 1.0232, "step": 5735 }, { "epoch": 1.10592, "grad_norm": 0.02494299971457134, "learning_rate": 0.0001, "loss": 0.952, "step": 5736 }, { "epoch": 1.1059733333333333, "grad_norm": 0.027296097026488317, "learning_rate": 0.0001, "loss": 1.0194, "step": 5737 }, { "epoch": 1.1060266666666667, "grad_norm": 0.027370291153779466, "learning_rate": 0.0001, "loss": 0.9368, "step": 5738 }, { "epoch": 1.10608, "grad_norm": 0.027522947862159662, "learning_rate": 0.0001, "loss": 1.0714, "step": 5739 }, { "epoch": 1.1061333333333334, "grad_norm": 0.027793441518620142, "learning_rate": 0.0001, "loss": 0.9732, "step": 5740 }, { "epoch": 1.1061866666666667, "grad_norm": 0.025424229440947455, "learning_rate": 0.0001, "loss": 0.959, "step": 5741 }, { "epoch": 1.1062400000000001, "grad_norm": 0.025261919863052065, "learning_rate": 0.0001, "loss": 0.9369, "step": 5742 }, { "epoch": 1.1062933333333334, "grad_norm": 0.023263013108909228, "learning_rate": 0.0001, "loss": 0.9634, "step": 5743 }, { "epoch": 1.1063466666666666, "grad_norm": 0.02291017317651826, "learning_rate": 0.0001, "loss": 0.9514, "step": 5744 }, { "epoch": 1.1064, "grad_norm": 0.026768706182061522, "learning_rate": 0.0001, "loss": 0.9681, "step": 5745 }, { "epoch": 1.1064533333333333, "grad_norm": 0.022878302733354585, "learning_rate": 0.0001, "loss": 1.0172, "step": 5746 }, { "epoch": 1.1065066666666667, "grad_norm": 0.024253017641403165, "learning_rate": 0.0001, "loss": 0.9229, "step": 5747 }, { "epoch": 1.10656, "grad_norm": 0.023432666038394688, "learning_rate": 0.0001, "loss": 1.0797, "step": 5748 }, { "epoch": 1.1066133333333332, "grad_norm": 0.024411630832018152, "learning_rate": 0.0001, "loss": 0.9831, "step": 5749 }, { "epoch": 1.1066666666666667, "grad_norm": 0.0267523866630653, "learning_rate": 0.0001, "loss": 0.9989, "step": 5750 }, { "epoch": 1.10672, "grad_norm": 0.026075852380729795, "learning_rate": 0.0001, "loss": 1.022, "step": 5751 }, { "epoch": 1.1067733333333334, "grad_norm": 0.025479383134180262, "learning_rate": 0.0001, "loss": 0.8971, "step": 5752 }, { "epoch": 1.1068266666666666, "grad_norm": 0.024962912718087933, "learning_rate": 0.0001, "loss": 0.99, "step": 5753 }, { "epoch": 1.10688, "grad_norm": 0.025486901538910527, "learning_rate": 0.0001, "loss": 0.9925, "step": 5754 }, { "epoch": 1.1069333333333333, "grad_norm": 0.024552911565163843, "learning_rate": 0.0001, "loss": 0.9383, "step": 5755 }, { "epoch": 1.1069866666666666, "grad_norm": 0.025762341215076888, "learning_rate": 0.0001, "loss": 0.967, "step": 5756 }, { "epoch": 1.10704, "grad_norm": 0.023682444809990297, "learning_rate": 0.0001, "loss": 1.0092, "step": 5757 }, { "epoch": 1.1070933333333333, "grad_norm": 0.02558908717459632, "learning_rate": 0.0001, "loss": 0.9986, "step": 5758 }, { "epoch": 1.1071466666666667, "grad_norm": 0.023970197063280074, "learning_rate": 0.0001, "loss": 1.0145, "step": 5759 }, { "epoch": 1.1072, "grad_norm": 0.023722267576210623, "learning_rate": 0.0001, "loss": 1.0058, "step": 5760 }, { "epoch": 1.1072533333333334, "grad_norm": 0.02454350012026122, "learning_rate": 0.0001, "loss": 0.9956, "step": 5761 }, { "epoch": 1.1073066666666667, "grad_norm": 0.023393909846020213, "learning_rate": 0.0001, "loss": 0.9816, "step": 5762 }, { "epoch": 1.10736, "grad_norm": 0.024021926876560056, "learning_rate": 0.0001, "loss": 1.0334, "step": 5763 }, { "epoch": 1.1074133333333334, "grad_norm": 0.026831401906895803, "learning_rate": 0.0001, "loss": 1.0186, "step": 5764 }, { "epoch": 1.1074666666666666, "grad_norm": 0.023289107944469943, "learning_rate": 0.0001, "loss": 0.9541, "step": 5765 }, { "epoch": 1.10752, "grad_norm": 0.025347058977415456, "learning_rate": 0.0001, "loss": 0.9949, "step": 5766 }, { "epoch": 1.1075733333333333, "grad_norm": 0.02284190400671026, "learning_rate": 0.0001, "loss": 0.9447, "step": 5767 }, { "epoch": 1.1076266666666668, "grad_norm": 0.026208403866262324, "learning_rate": 0.0001, "loss": 0.9137, "step": 5768 }, { "epoch": 1.10768, "grad_norm": 0.027119032919969983, "learning_rate": 0.0001, "loss": 0.975, "step": 5769 }, { "epoch": 1.1077333333333332, "grad_norm": 0.02399165137558722, "learning_rate": 0.0001, "loss": 0.9998, "step": 5770 }, { "epoch": 1.1077866666666667, "grad_norm": 0.02731784115013912, "learning_rate": 0.0001, "loss": 0.9862, "step": 5771 }, { "epoch": 1.10784, "grad_norm": 0.02466814938655514, "learning_rate": 0.0001, "loss": 0.9889, "step": 5772 }, { "epoch": 1.1078933333333334, "grad_norm": 0.026002274840438284, "learning_rate": 0.0001, "loss": 1.0159, "step": 5773 }, { "epoch": 1.1079466666666666, "grad_norm": 0.023997827257462797, "learning_rate": 0.0001, "loss": 1.0059, "step": 5774 }, { "epoch": 1.108, "grad_norm": 0.024227286368251052, "learning_rate": 0.0001, "loss": 0.9811, "step": 5775 }, { "epoch": 1.1080533333333333, "grad_norm": 0.02601279025997172, "learning_rate": 0.0001, "loss": 1.0342, "step": 5776 }, { "epoch": 1.1081066666666666, "grad_norm": 0.027863787243752717, "learning_rate": 0.0001, "loss": 0.9879, "step": 5777 }, { "epoch": 1.10816, "grad_norm": 0.025476364650418328, "learning_rate": 0.0001, "loss": 0.9781, "step": 5778 }, { "epoch": 1.1082133333333333, "grad_norm": 0.028007182867645856, "learning_rate": 0.0001, "loss": 0.9707, "step": 5779 }, { "epoch": 1.1082666666666667, "grad_norm": 0.025110989738485186, "learning_rate": 0.0001, "loss": 1.0075, "step": 5780 }, { "epoch": 1.10832, "grad_norm": 0.024014903962715207, "learning_rate": 0.0001, "loss": 0.9455, "step": 5781 }, { "epoch": 1.1083733333333334, "grad_norm": 0.024711652409810714, "learning_rate": 0.0001, "loss": 0.9867, "step": 5782 }, { "epoch": 1.1084266666666667, "grad_norm": 0.024631043875630063, "learning_rate": 0.0001, "loss": 1.0223, "step": 5783 }, { "epoch": 1.10848, "grad_norm": 0.023958515321982156, "learning_rate": 0.0001, "loss": 1.0058, "step": 5784 }, { "epoch": 1.1085333333333334, "grad_norm": 0.02433904360206574, "learning_rate": 0.0001, "loss": 1.022, "step": 5785 }, { "epoch": 1.1085866666666666, "grad_norm": 0.02495867564205744, "learning_rate": 0.0001, "loss": 1.0292, "step": 5786 }, { "epoch": 1.10864, "grad_norm": 0.023487135769021214, "learning_rate": 0.0001, "loss": 0.9757, "step": 5787 }, { "epoch": 1.1086933333333333, "grad_norm": 0.026710257972031446, "learning_rate": 0.0001, "loss": 0.9815, "step": 5788 }, { "epoch": 1.1087466666666668, "grad_norm": 0.024795015446326937, "learning_rate": 0.0001, "loss": 0.9347, "step": 5789 }, { "epoch": 1.1088, "grad_norm": 0.024480103651101124, "learning_rate": 0.0001, "loss": 0.9997, "step": 5790 }, { "epoch": 1.1088533333333332, "grad_norm": 0.02484325153264851, "learning_rate": 0.0001, "loss": 0.9347, "step": 5791 }, { "epoch": 1.1089066666666667, "grad_norm": 0.02408094449064151, "learning_rate": 0.0001, "loss": 0.9841, "step": 5792 }, { "epoch": 1.10896, "grad_norm": 0.02664191662956247, "learning_rate": 0.0001, "loss": 0.9524, "step": 5793 }, { "epoch": 1.1090133333333334, "grad_norm": 0.025859763644660982, "learning_rate": 0.0001, "loss": 0.9413, "step": 5794 }, { "epoch": 1.1090666666666666, "grad_norm": 0.024489254810948803, "learning_rate": 0.0001, "loss": 0.9443, "step": 5795 }, { "epoch": 1.1091199999999999, "grad_norm": 0.025744030634845164, "learning_rate": 0.0001, "loss": 0.9791, "step": 5796 }, { "epoch": 1.1091733333333333, "grad_norm": 0.02516039952234454, "learning_rate": 0.0001, "loss": 0.9647, "step": 5797 }, { "epoch": 1.1092266666666666, "grad_norm": 0.024992922016709777, "learning_rate": 0.0001, "loss": 0.9634, "step": 5798 }, { "epoch": 1.10928, "grad_norm": 0.023849702203761706, "learning_rate": 0.0001, "loss": 0.9567, "step": 5799 }, { "epoch": 1.1093333333333333, "grad_norm": 0.025170668375922873, "learning_rate": 0.0001, "loss": 1.0356, "step": 5800 }, { "epoch": 1.1093333333333333, "eval_accuracy": 0.6182009414287016, "eval_loss": 1.3655881881713867, "eval_runtime": 63.2872, "eval_samples_per_second": 15.801, "eval_steps_per_second": 0.506, "step": 5800 }, { "epoch": 1.1093866666666667, "grad_norm": 0.025054542051416107, "learning_rate": 0.0001, "loss": 0.9654, "step": 5801 }, { "epoch": 1.10944, "grad_norm": 0.024317428278769093, "learning_rate": 0.0001, "loss": 0.9619, "step": 5802 }, { "epoch": 1.1094933333333334, "grad_norm": 0.025504314728592936, "learning_rate": 0.0001, "loss": 0.9892, "step": 5803 }, { "epoch": 1.1095466666666667, "grad_norm": 0.025092001522056002, "learning_rate": 0.0001, "loss": 0.9373, "step": 5804 }, { "epoch": 1.1096, "grad_norm": 0.024324796537428837, "learning_rate": 0.0001, "loss": 0.9827, "step": 5805 }, { "epoch": 1.1096533333333334, "grad_norm": 0.025284019604956756, "learning_rate": 0.0001, "loss": 0.9907, "step": 5806 }, { "epoch": 1.1097066666666666, "grad_norm": 0.02574916691093276, "learning_rate": 0.0001, "loss": 0.9597, "step": 5807 }, { "epoch": 1.10976, "grad_norm": 0.02463419970501748, "learning_rate": 0.0001, "loss": 0.9747, "step": 5808 }, { "epoch": 1.1098133333333333, "grad_norm": 0.02468322217649787, "learning_rate": 0.0001, "loss": 0.9639, "step": 5809 }, { "epoch": 1.1098666666666666, "grad_norm": 0.024669281612101326, "learning_rate": 0.0001, "loss": 1.0236, "step": 5810 }, { "epoch": 1.10992, "grad_norm": 0.024767611395539506, "learning_rate": 0.0001, "loss": 0.9984, "step": 5811 }, { "epoch": 1.1099733333333333, "grad_norm": 0.023285716624338225, "learning_rate": 0.0001, "loss": 0.9997, "step": 5812 }, { "epoch": 1.1100266666666667, "grad_norm": 0.02756785611804421, "learning_rate": 0.0001, "loss": 0.9811, "step": 5813 }, { "epoch": 1.11008, "grad_norm": 0.0258655839152441, "learning_rate": 0.0001, "loss": 0.9376, "step": 5814 }, { "epoch": 1.1101333333333334, "grad_norm": 0.02483086174542267, "learning_rate": 0.0001, "loss": 0.9865, "step": 5815 }, { "epoch": 1.1101866666666667, "grad_norm": 0.022416342381026827, "learning_rate": 0.0001, "loss": 0.9185, "step": 5816 }, { "epoch": 1.1102400000000001, "grad_norm": 0.02371497575266575, "learning_rate": 0.0001, "loss": 0.9253, "step": 5817 }, { "epoch": 1.1102933333333334, "grad_norm": 0.02509851553564867, "learning_rate": 0.0001, "loss": 0.9476, "step": 5818 }, { "epoch": 1.1103466666666666, "grad_norm": 0.023170080798750502, "learning_rate": 0.0001, "loss": 0.9777, "step": 5819 }, { "epoch": 1.1104, "grad_norm": 0.02489162874876585, "learning_rate": 0.0001, "loss": 1.0004, "step": 5820 }, { "epoch": 1.1104533333333333, "grad_norm": 0.02698251126135709, "learning_rate": 0.0001, "loss": 0.9558, "step": 5821 }, { "epoch": 1.1105066666666668, "grad_norm": 0.02395938112898078, "learning_rate": 0.0001, "loss": 1.0352, "step": 5822 }, { "epoch": 1.11056, "grad_norm": 0.023449258715526673, "learning_rate": 0.0001, "loss": 0.9717, "step": 5823 }, { "epoch": 1.1106133333333332, "grad_norm": 0.02347615878438622, "learning_rate": 0.0001, "loss": 0.937, "step": 5824 }, { "epoch": 1.1106666666666667, "grad_norm": 0.025746419398084537, "learning_rate": 0.0001, "loss": 0.9654, "step": 5825 }, { "epoch": 1.11072, "grad_norm": 0.023732712537787495, "learning_rate": 0.0001, "loss": 0.9509, "step": 5826 }, { "epoch": 1.1107733333333334, "grad_norm": 0.02567430580039889, "learning_rate": 0.0001, "loss": 0.9222, "step": 5827 }, { "epoch": 1.1108266666666666, "grad_norm": 0.02632791948539354, "learning_rate": 0.0001, "loss": 1.0037, "step": 5828 }, { "epoch": 1.11088, "grad_norm": 0.02379585561231056, "learning_rate": 0.0001, "loss": 0.9559, "step": 5829 }, { "epoch": 1.1109333333333333, "grad_norm": 0.02491626948998343, "learning_rate": 0.0001, "loss": 1.0225, "step": 5830 }, { "epoch": 1.1109866666666666, "grad_norm": 0.024919259025828953, "learning_rate": 0.0001, "loss": 0.9551, "step": 5831 }, { "epoch": 1.11104, "grad_norm": 0.024452444977629065, "learning_rate": 0.0001, "loss": 0.9551, "step": 5832 }, { "epoch": 1.1110933333333333, "grad_norm": 0.022512301695117823, "learning_rate": 0.0001, "loss": 0.9499, "step": 5833 }, { "epoch": 1.1111466666666667, "grad_norm": 0.028277124938258895, "learning_rate": 0.0001, "loss": 0.9726, "step": 5834 }, { "epoch": 1.1112, "grad_norm": 0.026755158338158943, "learning_rate": 0.0001, "loss": 0.9882, "step": 5835 }, { "epoch": 1.1112533333333334, "grad_norm": 0.02412643607301642, "learning_rate": 0.0001, "loss": 1.0096, "step": 5836 }, { "epoch": 1.1113066666666667, "grad_norm": 0.0259115557313889, "learning_rate": 0.0001, "loss": 0.9403, "step": 5837 }, { "epoch": 1.11136, "grad_norm": 0.02329279831865745, "learning_rate": 0.0001, "loss": 0.9539, "step": 5838 }, { "epoch": 1.1114133333333334, "grad_norm": 0.027519338167603744, "learning_rate": 0.0001, "loss": 0.9909, "step": 5839 }, { "epoch": 1.1114666666666666, "grad_norm": 0.02451102513474203, "learning_rate": 0.0001, "loss": 0.9642, "step": 5840 }, { "epoch": 1.11152, "grad_norm": 0.023713899430765066, "learning_rate": 0.0001, "loss": 0.9613, "step": 5841 }, { "epoch": 1.1115733333333333, "grad_norm": 0.02402120017223577, "learning_rate": 0.0001, "loss": 0.9594, "step": 5842 }, { "epoch": 1.1116266666666668, "grad_norm": 0.02420327661217613, "learning_rate": 0.0001, "loss": 1.001, "step": 5843 }, { "epoch": 1.11168, "grad_norm": 0.023272891946369615, "learning_rate": 0.0001, "loss": 0.9831, "step": 5844 }, { "epoch": 1.1117333333333332, "grad_norm": 0.02438404050455527, "learning_rate": 0.0001, "loss": 1.0105, "step": 5845 }, { "epoch": 1.1117866666666667, "grad_norm": 0.024778589230012114, "learning_rate": 0.0001, "loss": 0.98, "step": 5846 }, { "epoch": 1.11184, "grad_norm": 0.025074667843837335, "learning_rate": 0.0001, "loss": 0.989, "step": 5847 }, { "epoch": 1.1118933333333334, "grad_norm": 0.02335524378200087, "learning_rate": 0.0001, "loss": 0.9421, "step": 5848 }, { "epoch": 1.1119466666666666, "grad_norm": 0.026065333727846578, "learning_rate": 0.0001, "loss": 0.9645, "step": 5849 }, { "epoch": 1.112, "grad_norm": 0.02694971212130911, "learning_rate": 0.0001, "loss": 1.0013, "step": 5850 }, { "epoch": 1.1120533333333333, "grad_norm": 0.02283920621886357, "learning_rate": 0.0001, "loss": 0.9686, "step": 5851 }, { "epoch": 1.1121066666666666, "grad_norm": 0.025176800274640306, "learning_rate": 0.0001, "loss": 0.9802, "step": 5852 }, { "epoch": 1.11216, "grad_norm": 0.024182989385497164, "learning_rate": 0.0001, "loss": 0.998, "step": 5853 }, { "epoch": 1.1122133333333333, "grad_norm": 0.023041946305553583, "learning_rate": 0.0001, "loss": 0.9271, "step": 5854 }, { "epoch": 1.1122666666666667, "grad_norm": 0.02504923130281724, "learning_rate": 0.0001, "loss": 0.9321, "step": 5855 }, { "epoch": 1.11232, "grad_norm": 0.025329840477050548, "learning_rate": 0.0001, "loss": 0.9732, "step": 5856 }, { "epoch": 1.1123733333333334, "grad_norm": 0.0262925142162347, "learning_rate": 0.0001, "loss": 0.9893, "step": 5857 }, { "epoch": 1.1124266666666667, "grad_norm": 0.024823281198054072, "learning_rate": 0.0001, "loss": 0.998, "step": 5858 }, { "epoch": 1.11248, "grad_norm": 0.024566249075222934, "learning_rate": 0.0001, "loss": 1.0337, "step": 5859 }, { "epoch": 1.1125333333333334, "grad_norm": 0.02367537248310708, "learning_rate": 0.0001, "loss": 0.9804, "step": 5860 }, { "epoch": 1.1125866666666666, "grad_norm": 0.02501633535570611, "learning_rate": 0.0001, "loss": 1.0078, "step": 5861 }, { "epoch": 1.11264, "grad_norm": 0.028011619853165345, "learning_rate": 0.0001, "loss": 0.9731, "step": 5862 }, { "epoch": 1.1126933333333333, "grad_norm": 0.024483496468406266, "learning_rate": 0.0001, "loss": 1.0033, "step": 5863 }, { "epoch": 1.1127466666666668, "grad_norm": 0.023518805880280647, "learning_rate": 0.0001, "loss": 0.9959, "step": 5864 }, { "epoch": 1.1128, "grad_norm": 0.023994863333668865, "learning_rate": 0.0001, "loss": 0.9391, "step": 5865 }, { "epoch": 1.1128533333333333, "grad_norm": 0.025932479653673905, "learning_rate": 0.0001, "loss": 0.993, "step": 5866 }, { "epoch": 1.1129066666666667, "grad_norm": 0.0238900959599984, "learning_rate": 0.0001, "loss": 1.0321, "step": 5867 }, { "epoch": 1.11296, "grad_norm": 0.02335003158998613, "learning_rate": 0.0001, "loss": 1.0146, "step": 5868 }, { "epoch": 1.1130133333333334, "grad_norm": 0.024968321895009252, "learning_rate": 0.0001, "loss": 0.9528, "step": 5869 }, { "epoch": 1.1130666666666666, "grad_norm": 0.029764555370831215, "learning_rate": 0.0001, "loss": 0.9283, "step": 5870 }, { "epoch": 1.1131199999999999, "grad_norm": 0.023375916794441984, "learning_rate": 0.0001, "loss": 0.9863, "step": 5871 }, { "epoch": 1.1131733333333333, "grad_norm": 0.023342652294472445, "learning_rate": 0.0001, "loss": 0.9608, "step": 5872 }, { "epoch": 1.1132266666666666, "grad_norm": 0.024215939320929244, "learning_rate": 0.0001, "loss": 1.0071, "step": 5873 }, { "epoch": 1.11328, "grad_norm": 0.02546597475197924, "learning_rate": 0.0001, "loss": 0.9491, "step": 5874 }, { "epoch": 1.1133333333333333, "grad_norm": 0.024720779102156643, "learning_rate": 0.0001, "loss": 0.9404, "step": 5875 }, { "epoch": 1.1133866666666667, "grad_norm": 0.025270077244811024, "learning_rate": 0.0001, "loss": 0.954, "step": 5876 }, { "epoch": 1.11344, "grad_norm": 0.025514182921980634, "learning_rate": 0.0001, "loss": 0.9883, "step": 5877 }, { "epoch": 1.1134933333333334, "grad_norm": 0.022735055631217513, "learning_rate": 0.0001, "loss": 1.0081, "step": 5878 }, { "epoch": 1.1135466666666667, "grad_norm": 0.024372719397667723, "learning_rate": 0.0001, "loss": 0.9607, "step": 5879 }, { "epoch": 1.1136, "grad_norm": 0.024139064418314433, "learning_rate": 0.0001, "loss": 0.9307, "step": 5880 }, { "epoch": 1.1136533333333334, "grad_norm": 0.026046917376671173, "learning_rate": 0.0001, "loss": 0.9906, "step": 5881 }, { "epoch": 1.1137066666666666, "grad_norm": 0.024666091145529402, "learning_rate": 0.0001, "loss": 1.0444, "step": 5882 }, { "epoch": 1.11376, "grad_norm": 0.02405312826561245, "learning_rate": 0.0001, "loss": 0.945, "step": 5883 }, { "epoch": 1.1138133333333333, "grad_norm": 0.025849970860015715, "learning_rate": 0.0001, "loss": 0.9561, "step": 5884 }, { "epoch": 1.1138666666666666, "grad_norm": 0.025194055062102157, "learning_rate": 0.0001, "loss": 0.9973, "step": 5885 }, { "epoch": 1.11392, "grad_norm": 0.02549671005670012, "learning_rate": 0.0001, "loss": 0.9585, "step": 5886 }, { "epoch": 1.1139733333333333, "grad_norm": 0.023596048023300596, "learning_rate": 0.0001, "loss": 0.9811, "step": 5887 }, { "epoch": 1.1140266666666667, "grad_norm": 0.023072112951730884, "learning_rate": 0.0001, "loss": 0.992, "step": 5888 }, { "epoch": 1.11408, "grad_norm": 0.023469086430195678, "learning_rate": 0.0001, "loss": 0.9872, "step": 5889 }, { "epoch": 1.1141333333333334, "grad_norm": 0.02438587066103468, "learning_rate": 0.0001, "loss": 0.9832, "step": 5890 }, { "epoch": 1.1141866666666667, "grad_norm": 0.024930195486209932, "learning_rate": 0.0001, "loss": 0.9194, "step": 5891 }, { "epoch": 1.11424, "grad_norm": 0.02438642673165763, "learning_rate": 0.0001, "loss": 0.9922, "step": 5892 }, { "epoch": 1.1142933333333334, "grad_norm": 0.026166458450300925, "learning_rate": 0.0001, "loss": 0.9565, "step": 5893 }, { "epoch": 1.1143466666666666, "grad_norm": 0.024105710816736382, "learning_rate": 0.0001, "loss": 0.9664, "step": 5894 }, { "epoch": 1.1144, "grad_norm": 0.02469416453501075, "learning_rate": 0.0001, "loss": 0.9889, "step": 5895 }, { "epoch": 1.1144533333333333, "grad_norm": 0.023342164354857982, "learning_rate": 0.0001, "loss": 0.9953, "step": 5896 }, { "epoch": 1.1145066666666668, "grad_norm": 0.02440905340918853, "learning_rate": 0.0001, "loss": 0.9571, "step": 5897 }, { "epoch": 1.11456, "grad_norm": 0.02848188474118291, "learning_rate": 0.0001, "loss": 1.0169, "step": 5898 }, { "epoch": 1.1146133333333332, "grad_norm": 0.023255988257227248, "learning_rate": 0.0001, "loss": 0.9885, "step": 5899 }, { "epoch": 1.1146666666666667, "grad_norm": 0.023939783647570653, "learning_rate": 0.0001, "loss": 0.9898, "step": 5900 }, { "epoch": 1.11472, "grad_norm": 0.024062481061688998, "learning_rate": 0.0001, "loss": 0.9987, "step": 5901 }, { "epoch": 1.1147733333333334, "grad_norm": 0.024188476743634432, "learning_rate": 0.0001, "loss": 0.9719, "step": 5902 }, { "epoch": 1.1148266666666666, "grad_norm": 0.024785775415722952, "learning_rate": 0.0001, "loss": 0.9785, "step": 5903 }, { "epoch": 1.11488, "grad_norm": 0.02380051259747505, "learning_rate": 0.0001, "loss": 1.044, "step": 5904 }, { "epoch": 1.1149333333333333, "grad_norm": 0.021811826669405784, "learning_rate": 0.0001, "loss": 0.9662, "step": 5905 }, { "epoch": 1.1149866666666666, "grad_norm": 0.02502050514455395, "learning_rate": 0.0001, "loss": 1.0059, "step": 5906 }, { "epoch": 1.11504, "grad_norm": 0.02470039293691687, "learning_rate": 0.0001, "loss": 1.0419, "step": 5907 }, { "epoch": 1.1150933333333333, "grad_norm": 0.026511488099232802, "learning_rate": 0.0001, "loss": 0.9426, "step": 5908 }, { "epoch": 1.1151466666666667, "grad_norm": 0.03282893120921153, "learning_rate": 0.0001, "loss": 1.012, "step": 5909 }, { "epoch": 1.1152, "grad_norm": 0.025315671725951533, "learning_rate": 0.0001, "loss": 1.0357, "step": 5910 }, { "epoch": 1.1152533333333334, "grad_norm": 0.02387315802777819, "learning_rate": 0.0001, "loss": 0.9586, "step": 5911 }, { "epoch": 1.1153066666666667, "grad_norm": 0.025923789576962238, "learning_rate": 0.0001, "loss": 1.034, "step": 5912 }, { "epoch": 1.11536, "grad_norm": 0.023736441202909405, "learning_rate": 0.0001, "loss": 1.0227, "step": 5913 }, { "epoch": 1.1154133333333334, "grad_norm": 0.023522364785144058, "learning_rate": 0.0001, "loss": 0.9574, "step": 5914 }, { "epoch": 1.1154666666666666, "grad_norm": 0.025781041645689676, "learning_rate": 0.0001, "loss": 1.0055, "step": 5915 }, { "epoch": 1.11552, "grad_norm": 0.023489291715648147, "learning_rate": 0.0001, "loss": 0.9777, "step": 5916 }, { "epoch": 1.1155733333333333, "grad_norm": 0.023178649466714274, "learning_rate": 0.0001, "loss": 1.0203, "step": 5917 }, { "epoch": 1.1156266666666668, "grad_norm": 0.024967421233590855, "learning_rate": 0.0001, "loss": 0.996, "step": 5918 }, { "epoch": 1.11568, "grad_norm": 0.024452916801779273, "learning_rate": 0.0001, "loss": 0.9995, "step": 5919 }, { "epoch": 1.1157333333333332, "grad_norm": 0.02470185095910496, "learning_rate": 0.0001, "loss": 0.9505, "step": 5920 }, { "epoch": 1.1157866666666667, "grad_norm": 0.02612494689979026, "learning_rate": 0.0001, "loss": 0.981, "step": 5921 }, { "epoch": 1.11584, "grad_norm": 0.025166030896812516, "learning_rate": 0.0001, "loss": 0.9371, "step": 5922 }, { "epoch": 1.1158933333333334, "grad_norm": 0.02373893286070655, "learning_rate": 0.0001, "loss": 0.9846, "step": 5923 }, { "epoch": 1.1159466666666666, "grad_norm": 0.023526329275517028, "learning_rate": 0.0001, "loss": 1.001, "step": 5924 }, { "epoch": 1.116, "grad_norm": 0.02551595660749056, "learning_rate": 0.0001, "loss": 1.0133, "step": 5925 }, { "epoch": 1.1160533333333333, "grad_norm": 0.02529241440443662, "learning_rate": 0.0001, "loss": 0.9677, "step": 5926 }, { "epoch": 1.1161066666666666, "grad_norm": 0.02510435299372389, "learning_rate": 0.0001, "loss": 0.9759, "step": 5927 }, { "epoch": 1.11616, "grad_norm": 0.02573894982504277, "learning_rate": 0.0001, "loss": 0.9482, "step": 5928 }, { "epoch": 1.1162133333333333, "grad_norm": 0.02356310133640346, "learning_rate": 0.0001, "loss": 1.0253, "step": 5929 }, { "epoch": 1.1162666666666667, "grad_norm": 0.024322592758736855, "learning_rate": 0.0001, "loss": 0.9566, "step": 5930 }, { "epoch": 1.11632, "grad_norm": 0.02549094495128183, "learning_rate": 0.0001, "loss": 0.9808, "step": 5931 }, { "epoch": 1.1163733333333332, "grad_norm": 0.024997540818977527, "learning_rate": 0.0001, "loss": 0.9594, "step": 5932 }, { "epoch": 1.1164266666666667, "grad_norm": 0.023645588342810563, "learning_rate": 0.0001, "loss": 1.0237, "step": 5933 }, { "epoch": 1.11648, "grad_norm": 0.024586696323281015, "learning_rate": 0.0001, "loss": 0.951, "step": 5934 }, { "epoch": 1.1165333333333334, "grad_norm": 0.02334460096049282, "learning_rate": 0.0001, "loss": 0.9908, "step": 5935 }, { "epoch": 1.1165866666666666, "grad_norm": 0.025186694844563765, "learning_rate": 0.0001, "loss": 0.9, "step": 5936 }, { "epoch": 1.11664, "grad_norm": 0.025471599130743674, "learning_rate": 0.0001, "loss": 0.9588, "step": 5937 }, { "epoch": 1.1166933333333333, "grad_norm": 0.025923039344713423, "learning_rate": 0.0001, "loss": 0.9667, "step": 5938 }, { "epoch": 1.1167466666666668, "grad_norm": 0.02705317224208427, "learning_rate": 0.0001, "loss": 0.9949, "step": 5939 }, { "epoch": 1.1168, "grad_norm": 0.024810778333431503, "learning_rate": 0.0001, "loss": 0.9756, "step": 5940 }, { "epoch": 1.1168533333333333, "grad_norm": 0.023636843666888084, "learning_rate": 0.0001, "loss": 0.9732, "step": 5941 }, { "epoch": 1.1169066666666667, "grad_norm": 0.023680301873923778, "learning_rate": 0.0001, "loss": 0.9375, "step": 5942 }, { "epoch": 1.11696, "grad_norm": 0.025164740004557495, "learning_rate": 0.0001, "loss": 0.939, "step": 5943 }, { "epoch": 1.1170133333333334, "grad_norm": 0.021832322874211593, "learning_rate": 0.0001, "loss": 0.9959, "step": 5944 }, { "epoch": 1.1170666666666667, "grad_norm": 0.028343472549836057, "learning_rate": 0.0001, "loss": 0.9661, "step": 5945 }, { "epoch": 1.11712, "grad_norm": 0.02455532027838161, "learning_rate": 0.0001, "loss": 0.9931, "step": 5946 }, { "epoch": 1.1171733333333334, "grad_norm": 0.023688384443245693, "learning_rate": 0.0001, "loss": 1.0015, "step": 5947 }, { "epoch": 1.1172266666666666, "grad_norm": 0.025442165756779378, "learning_rate": 0.0001, "loss": 0.9357, "step": 5948 }, { "epoch": 1.11728, "grad_norm": 0.024057783358238518, "learning_rate": 0.0001, "loss": 0.9574, "step": 5949 }, { "epoch": 1.1173333333333333, "grad_norm": 0.023559160986768704, "learning_rate": 0.0001, "loss": 0.9552, "step": 5950 }, { "epoch": 1.1173866666666668, "grad_norm": 0.026069430500744294, "learning_rate": 0.0001, "loss": 1.0076, "step": 5951 }, { "epoch": 1.11744, "grad_norm": 0.02528933554315585, "learning_rate": 0.0001, "loss": 0.9984, "step": 5952 }, { "epoch": 1.1174933333333334, "grad_norm": 0.024591998646919917, "learning_rate": 0.0001, "loss": 0.9651, "step": 5953 }, { "epoch": 1.1175466666666667, "grad_norm": 0.023803522728687847, "learning_rate": 0.0001, "loss": 0.9172, "step": 5954 }, { "epoch": 1.1176, "grad_norm": 0.023437289425729965, "learning_rate": 0.0001, "loss": 1.0001, "step": 5955 }, { "epoch": 1.1176533333333334, "grad_norm": 0.02512819581475808, "learning_rate": 0.0001, "loss": 0.9816, "step": 5956 }, { "epoch": 1.1177066666666666, "grad_norm": 0.023553930759519608, "learning_rate": 0.0001, "loss": 1.004, "step": 5957 }, { "epoch": 1.11776, "grad_norm": 0.02471010083976714, "learning_rate": 0.0001, "loss": 0.9862, "step": 5958 }, { "epoch": 1.1178133333333333, "grad_norm": 0.023890978945947577, "learning_rate": 0.0001, "loss": 0.9803, "step": 5959 }, { "epoch": 1.1178666666666666, "grad_norm": 0.022719686722798883, "learning_rate": 0.0001, "loss": 1.0235, "step": 5960 }, { "epoch": 1.11792, "grad_norm": 0.024928643875970578, "learning_rate": 0.0001, "loss": 0.9576, "step": 5961 }, { "epoch": 1.1179733333333333, "grad_norm": 0.024187524320133626, "learning_rate": 0.0001, "loss": 0.9908, "step": 5962 }, { "epoch": 1.1180266666666667, "grad_norm": 0.023010009597304096, "learning_rate": 0.0001, "loss": 0.9286, "step": 5963 }, { "epoch": 1.11808, "grad_norm": 0.025770329808923405, "learning_rate": 0.0001, "loss": 0.9523, "step": 5964 }, { "epoch": 1.1181333333333334, "grad_norm": 0.02326110103783602, "learning_rate": 0.0001, "loss": 0.9989, "step": 5965 }, { "epoch": 1.1181866666666667, "grad_norm": 0.0242362814737316, "learning_rate": 0.0001, "loss": 0.994, "step": 5966 }, { "epoch": 1.11824, "grad_norm": 0.023763691900696368, "learning_rate": 0.0001, "loss": 0.9721, "step": 5967 }, { "epoch": 1.1182933333333334, "grad_norm": 0.022214671565407237, "learning_rate": 0.0001, "loss": 0.9373, "step": 5968 }, { "epoch": 1.1183466666666666, "grad_norm": 0.023997406499741927, "learning_rate": 0.0001, "loss": 0.9698, "step": 5969 }, { "epoch": 1.1184, "grad_norm": 0.026364675221371054, "learning_rate": 0.0001, "loss": 0.9916, "step": 5970 }, { "epoch": 1.1184533333333333, "grad_norm": 0.02497346291964689, "learning_rate": 0.0001, "loss": 0.9839, "step": 5971 }, { "epoch": 1.1185066666666668, "grad_norm": 0.023994914662545077, "learning_rate": 0.0001, "loss": 0.9907, "step": 5972 }, { "epoch": 1.11856, "grad_norm": 0.025946145637369633, "learning_rate": 0.0001, "loss": 0.9747, "step": 5973 }, { "epoch": 1.1186133333333332, "grad_norm": 0.025087637207131624, "learning_rate": 0.0001, "loss": 0.9563, "step": 5974 }, { "epoch": 1.1186666666666667, "grad_norm": 0.028135445898069326, "learning_rate": 0.0001, "loss": 0.9402, "step": 5975 }, { "epoch": 1.11872, "grad_norm": 0.02519388652607875, "learning_rate": 0.0001, "loss": 0.9251, "step": 5976 }, { "epoch": 1.1187733333333334, "grad_norm": 0.026487001176472888, "learning_rate": 0.0001, "loss": 0.9631, "step": 5977 }, { "epoch": 1.1188266666666666, "grad_norm": 0.024526707499611125, "learning_rate": 0.0001, "loss": 0.9721, "step": 5978 }, { "epoch": 1.11888, "grad_norm": 0.02449228509213342, "learning_rate": 0.0001, "loss": 1.0041, "step": 5979 }, { "epoch": 1.1189333333333333, "grad_norm": 0.025577130289059655, "learning_rate": 0.0001, "loss": 0.9998, "step": 5980 }, { "epoch": 1.1189866666666666, "grad_norm": 0.02395477208459, "learning_rate": 0.0001, "loss": 1.0047, "step": 5981 }, { "epoch": 1.11904, "grad_norm": 0.023696082038063726, "learning_rate": 0.0001, "loss": 0.9703, "step": 5982 }, { "epoch": 1.1190933333333333, "grad_norm": 0.024496516043729787, "learning_rate": 0.0001, "loss": 0.9872, "step": 5983 }, { "epoch": 1.1191466666666667, "grad_norm": 0.026819693563996116, "learning_rate": 0.0001, "loss": 0.9707, "step": 5984 }, { "epoch": 1.1192, "grad_norm": 0.024315839527815363, "learning_rate": 0.0001, "loss": 0.9609, "step": 5985 }, { "epoch": 1.1192533333333334, "grad_norm": 0.02435610986004348, "learning_rate": 0.0001, "loss": 0.9854, "step": 5986 }, { "epoch": 1.1193066666666667, "grad_norm": 0.025941478291374574, "learning_rate": 0.0001, "loss": 0.9529, "step": 5987 }, { "epoch": 1.11936, "grad_norm": 0.025423181050290834, "learning_rate": 0.0001, "loss": 1.0165, "step": 5988 }, { "epoch": 1.1194133333333334, "grad_norm": 0.023841892910702496, "learning_rate": 0.0001, "loss": 0.9737, "step": 5989 }, { "epoch": 1.1194666666666666, "grad_norm": 0.024220934486526836, "learning_rate": 0.0001, "loss": 0.8823, "step": 5990 }, { "epoch": 1.11952, "grad_norm": 0.023916493470116623, "learning_rate": 0.0001, "loss": 0.9501, "step": 5991 }, { "epoch": 1.1195733333333333, "grad_norm": 0.024003638362095847, "learning_rate": 0.0001, "loss": 0.8975, "step": 5992 }, { "epoch": 1.1196266666666668, "grad_norm": 0.025257647657716282, "learning_rate": 0.0001, "loss": 0.9753, "step": 5993 }, { "epoch": 1.11968, "grad_norm": 0.023817106705764264, "learning_rate": 0.0001, "loss": 0.9682, "step": 5994 }, { "epoch": 1.1197333333333332, "grad_norm": 0.024183624494873702, "learning_rate": 0.0001, "loss": 0.9772, "step": 5995 }, { "epoch": 1.1197866666666667, "grad_norm": 0.02465108177104548, "learning_rate": 0.0001, "loss": 0.9785, "step": 5996 }, { "epoch": 1.11984, "grad_norm": 0.024753519553122032, "learning_rate": 0.0001, "loss": 0.9582, "step": 5997 }, { "epoch": 1.1198933333333334, "grad_norm": 0.024227045145595625, "learning_rate": 0.0001, "loss": 0.9513, "step": 5998 }, { "epoch": 1.1199466666666666, "grad_norm": 0.023363983402364598, "learning_rate": 0.0001, "loss": 0.9631, "step": 5999 }, { "epoch": 1.12, "grad_norm": 0.023009824213017976, "learning_rate": 0.0001, "loss": 0.997, "step": 6000 }, { "epoch": 1.12, "eval_accuracy": 0.6183114529312923, "eval_loss": 1.3644635677337646, "eval_runtime": 62.3296, "eval_samples_per_second": 16.044, "eval_steps_per_second": 0.513, "step": 6000 }, { "epoch": 1.1200533333333333, "grad_norm": 0.026111068847343433, "learning_rate": 0.0001, "loss": 0.9702, "step": 6001 }, { "epoch": 1.1201066666666666, "grad_norm": 0.02517448246061294, "learning_rate": 0.0001, "loss": 0.9807, "step": 6002 }, { "epoch": 1.12016, "grad_norm": 0.023470320923546496, "learning_rate": 0.0001, "loss": 0.9791, "step": 6003 }, { "epoch": 1.1202133333333333, "grad_norm": 0.024581931633538168, "learning_rate": 0.0001, "loss": 1.0243, "step": 6004 }, { "epoch": 1.1202666666666667, "grad_norm": 0.02542269847506126, "learning_rate": 0.0001, "loss": 0.9878, "step": 6005 }, { "epoch": 1.12032, "grad_norm": 0.02461495181342963, "learning_rate": 0.0001, "loss": 1.0321, "step": 6006 }, { "epoch": 1.1203733333333332, "grad_norm": 0.024936951525056445, "learning_rate": 0.0001, "loss": 0.9808, "step": 6007 }, { "epoch": 1.1204266666666667, "grad_norm": 0.023580510191206088, "learning_rate": 0.0001, "loss": 0.9782, "step": 6008 }, { "epoch": 1.12048, "grad_norm": 0.022823630251138885, "learning_rate": 0.0001, "loss": 0.9765, "step": 6009 }, { "epoch": 1.1205333333333334, "grad_norm": 0.02472076483055284, "learning_rate": 0.0001, "loss": 0.955, "step": 6010 }, { "epoch": 1.1205866666666666, "grad_norm": 0.022979227294491922, "learning_rate": 0.0001, "loss": 1.0225, "step": 6011 }, { "epoch": 1.12064, "grad_norm": 0.022164063989539535, "learning_rate": 0.0001, "loss": 0.8615, "step": 6012 }, { "epoch": 1.1206933333333333, "grad_norm": 0.02450836953485121, "learning_rate": 0.0001, "loss": 0.9479, "step": 6013 }, { "epoch": 1.1207466666666668, "grad_norm": 0.024371346851702884, "learning_rate": 0.0001, "loss": 1.0177, "step": 6014 }, { "epoch": 1.1208, "grad_norm": 0.024205255573361954, "learning_rate": 0.0001, "loss": 0.9904, "step": 6015 }, { "epoch": 1.1208533333333333, "grad_norm": 0.02307162842576779, "learning_rate": 0.0001, "loss": 0.9667, "step": 6016 }, { "epoch": 1.1209066666666667, "grad_norm": 0.024311077607782193, "learning_rate": 0.0001, "loss": 0.9653, "step": 6017 }, { "epoch": 1.12096, "grad_norm": 0.024355621290816816, "learning_rate": 0.0001, "loss": 0.9737, "step": 6018 }, { "epoch": 1.1210133333333334, "grad_norm": 0.02495479196164724, "learning_rate": 0.0001, "loss": 0.9, "step": 6019 }, { "epoch": 1.1210666666666667, "grad_norm": 0.023140081012443074, "learning_rate": 0.0001, "loss": 1.0295, "step": 6020 }, { "epoch": 1.12112, "grad_norm": 0.022668277615880573, "learning_rate": 0.0001, "loss": 0.979, "step": 6021 }, { "epoch": 1.1211733333333334, "grad_norm": 0.024912704633046772, "learning_rate": 0.0001, "loss": 1.0283, "step": 6022 }, { "epoch": 1.1212266666666666, "grad_norm": 0.023977191294880316, "learning_rate": 0.0001, "loss": 0.981, "step": 6023 }, { "epoch": 1.12128, "grad_norm": 0.027283254420610237, "learning_rate": 0.0001, "loss": 1.0092, "step": 6024 }, { "epoch": 1.1213333333333333, "grad_norm": 0.023760982389956924, "learning_rate": 0.0001, "loss": 1.0564, "step": 6025 }, { "epoch": 1.1213866666666668, "grad_norm": 0.025792416960791636, "learning_rate": 0.0001, "loss": 0.9715, "step": 6026 }, { "epoch": 1.12144, "grad_norm": 0.024871047667753773, "learning_rate": 0.0001, "loss": 1.0337, "step": 6027 }, { "epoch": 1.1214933333333332, "grad_norm": 0.024285787341284684, "learning_rate": 0.0001, "loss": 0.9552, "step": 6028 }, { "epoch": 1.1215466666666667, "grad_norm": 0.02495529407029699, "learning_rate": 0.0001, "loss": 0.9825, "step": 6029 }, { "epoch": 1.1216, "grad_norm": 0.02437606357048867, "learning_rate": 0.0001, "loss": 0.9333, "step": 6030 }, { "epoch": 1.1216533333333334, "grad_norm": 0.024084019071030274, "learning_rate": 0.0001, "loss": 0.9798, "step": 6031 }, { "epoch": 1.1217066666666666, "grad_norm": 0.024219278610886383, "learning_rate": 0.0001, "loss": 0.896, "step": 6032 }, { "epoch": 1.12176, "grad_norm": 0.023864409033548528, "learning_rate": 0.0001, "loss": 0.967, "step": 6033 }, { "epoch": 1.1218133333333333, "grad_norm": 0.025003297524975803, "learning_rate": 0.0001, "loss": 1.0331, "step": 6034 }, { "epoch": 1.1218666666666666, "grad_norm": 0.023938998509968383, "learning_rate": 0.0001, "loss": 0.9979, "step": 6035 }, { "epoch": 1.12192, "grad_norm": 0.02446376424360774, "learning_rate": 0.0001, "loss": 0.9814, "step": 6036 }, { "epoch": 1.1219733333333333, "grad_norm": 0.025277468112871144, "learning_rate": 0.0001, "loss": 1.0097, "step": 6037 }, { "epoch": 1.1220266666666667, "grad_norm": 0.02475370929813907, "learning_rate": 0.0001, "loss": 0.9674, "step": 6038 }, { "epoch": 1.12208, "grad_norm": 0.024925789113269287, "learning_rate": 0.0001, "loss": 1.0081, "step": 6039 }, { "epoch": 1.1221333333333334, "grad_norm": 0.0270460472303692, "learning_rate": 0.0001, "loss": 1.0041, "step": 6040 }, { "epoch": 1.1221866666666667, "grad_norm": 0.024585384711934822, "learning_rate": 0.0001, "loss": 0.9689, "step": 6041 }, { "epoch": 1.12224, "grad_norm": 0.025038682339951997, "learning_rate": 0.0001, "loss": 1.0125, "step": 6042 }, { "epoch": 1.1222933333333334, "grad_norm": 0.024926258415304412, "learning_rate": 0.0001, "loss": 1.033, "step": 6043 }, { "epoch": 1.1223466666666666, "grad_norm": 0.023981757306526713, "learning_rate": 0.0001, "loss": 1.0259, "step": 6044 }, { "epoch": 1.1224, "grad_norm": 0.02320983230804631, "learning_rate": 0.0001, "loss": 0.9385, "step": 6045 }, { "epoch": 1.1224533333333333, "grad_norm": 0.025164343176467548, "learning_rate": 0.0001, "loss": 0.9553, "step": 6046 }, { "epoch": 1.1225066666666668, "grad_norm": 0.025433111491025572, "learning_rate": 0.0001, "loss": 0.9407, "step": 6047 }, { "epoch": 1.12256, "grad_norm": 0.0223265644176758, "learning_rate": 0.0001, "loss": 0.988, "step": 6048 }, { "epoch": 1.1226133333333332, "grad_norm": 0.023186571991223485, "learning_rate": 0.0001, "loss": 0.9618, "step": 6049 }, { "epoch": 1.1226666666666667, "grad_norm": 0.02623039342849378, "learning_rate": 0.0001, "loss": 1.0217, "step": 6050 }, { "epoch": 1.12272, "grad_norm": 0.023117770322666178, "learning_rate": 0.0001, "loss": 1.0002, "step": 6051 }, { "epoch": 1.1227733333333334, "grad_norm": 0.023145080210056453, "learning_rate": 0.0001, "loss": 1.0425, "step": 6052 }, { "epoch": 1.1228266666666666, "grad_norm": 0.02325204173811156, "learning_rate": 0.0001, "loss": 1.0152, "step": 6053 }, { "epoch": 1.12288, "grad_norm": 0.02311550861223969, "learning_rate": 0.0001, "loss": 0.9097, "step": 6054 }, { "epoch": 1.1229333333333333, "grad_norm": 0.025021780513159418, "learning_rate": 0.0001, "loss": 0.9455, "step": 6055 }, { "epoch": 1.1229866666666666, "grad_norm": 0.02281200586742871, "learning_rate": 0.0001, "loss": 0.931, "step": 6056 }, { "epoch": 1.12304, "grad_norm": 0.023590917739044866, "learning_rate": 0.0001, "loss": 0.968, "step": 6057 }, { "epoch": 1.1230933333333333, "grad_norm": 0.02583454650406388, "learning_rate": 0.0001, "loss": 0.9744, "step": 6058 }, { "epoch": 1.1231466666666667, "grad_norm": 0.02423128074029217, "learning_rate": 0.0001, "loss": 1.0181, "step": 6059 }, { "epoch": 1.1232, "grad_norm": 0.024363236004598887, "learning_rate": 0.0001, "loss": 0.9557, "step": 6060 }, { "epoch": 1.1232533333333334, "grad_norm": 0.02548819200245024, "learning_rate": 0.0001, "loss": 0.9638, "step": 6061 }, { "epoch": 1.1233066666666667, "grad_norm": 0.02393100922192328, "learning_rate": 0.0001, "loss": 0.9709, "step": 6062 }, { "epoch": 1.12336, "grad_norm": 0.024216208035003916, "learning_rate": 0.0001, "loss": 0.9458, "step": 6063 }, { "epoch": 1.1234133333333334, "grad_norm": 0.024528310397937587, "learning_rate": 0.0001, "loss": 0.9652, "step": 6064 }, { "epoch": 1.1234666666666666, "grad_norm": 0.02349848673022574, "learning_rate": 0.0001, "loss": 0.9816, "step": 6065 }, { "epoch": 1.12352, "grad_norm": 0.02361441541077125, "learning_rate": 0.0001, "loss": 0.988, "step": 6066 }, { "epoch": 1.1235733333333333, "grad_norm": 0.023063036694412203, "learning_rate": 0.0001, "loss": 0.9773, "step": 6067 }, { "epoch": 1.1236266666666666, "grad_norm": 0.024923984022584524, "learning_rate": 0.0001, "loss": 0.9197, "step": 6068 }, { "epoch": 1.12368, "grad_norm": 0.02443193174671285, "learning_rate": 0.0001, "loss": 0.9438, "step": 6069 }, { "epoch": 1.1237333333333333, "grad_norm": 0.023668298431952457, "learning_rate": 0.0001, "loss": 0.9807, "step": 6070 }, { "epoch": 1.1237866666666667, "grad_norm": 0.02488470210925742, "learning_rate": 0.0001, "loss": 1.0034, "step": 6071 }, { "epoch": 1.12384, "grad_norm": 0.025805907715965328, "learning_rate": 0.0001, "loss": 0.9561, "step": 6072 }, { "epoch": 1.1238933333333334, "grad_norm": 0.025477100545841617, "learning_rate": 0.0001, "loss": 1.0067, "step": 6073 }, { "epoch": 1.1239466666666666, "grad_norm": 0.022758288674456333, "learning_rate": 0.0001, "loss": 0.996, "step": 6074 }, { "epoch": 1.124, "grad_norm": 0.024151864042117298, "learning_rate": 0.0001, "loss": 0.9582, "step": 6075 }, { "epoch": 1.1240533333333333, "grad_norm": 0.025176434871005935, "learning_rate": 0.0001, "loss": 1.0606, "step": 6076 }, { "epoch": 1.1241066666666666, "grad_norm": 0.023365188082869495, "learning_rate": 0.0001, "loss": 0.997, "step": 6077 }, { "epoch": 1.12416, "grad_norm": 0.026567659140990508, "learning_rate": 0.0001, "loss": 1.0358, "step": 6078 }, { "epoch": 1.1242133333333333, "grad_norm": 0.023966067201656213, "learning_rate": 0.0001, "loss": 1.001, "step": 6079 }, { "epoch": 1.1242666666666667, "grad_norm": 0.021682254431922232, "learning_rate": 0.0001, "loss": 0.9953, "step": 6080 }, { "epoch": 1.12432, "grad_norm": 0.024738410270778208, "learning_rate": 0.0001, "loss": 0.9411, "step": 6081 }, { "epoch": 1.1243733333333332, "grad_norm": 0.030232619647930673, "learning_rate": 0.0001, "loss": 1.0065, "step": 6082 }, { "epoch": 1.1244266666666667, "grad_norm": 0.02734749327859642, "learning_rate": 0.0001, "loss": 0.9734, "step": 6083 }, { "epoch": 1.12448, "grad_norm": 0.02535893332748055, "learning_rate": 0.0001, "loss": 0.9625, "step": 6084 }, { "epoch": 1.1245333333333334, "grad_norm": 0.024013698409011897, "learning_rate": 0.0001, "loss": 0.9592, "step": 6085 }, { "epoch": 1.1245866666666666, "grad_norm": 0.0257133005195854, "learning_rate": 0.0001, "loss": 0.9458, "step": 6086 }, { "epoch": 1.12464, "grad_norm": 0.026785549897715748, "learning_rate": 0.0001, "loss": 0.9343, "step": 6087 }, { "epoch": 1.1246933333333333, "grad_norm": 0.023242032914863008, "learning_rate": 0.0001, "loss": 1.0032, "step": 6088 }, { "epoch": 1.1247466666666668, "grad_norm": 0.025721373248724522, "learning_rate": 0.0001, "loss": 0.9721, "step": 6089 }, { "epoch": 1.1248, "grad_norm": 0.023357480424529856, "learning_rate": 0.0001, "loss": 0.9223, "step": 6090 }, { "epoch": 1.1248533333333333, "grad_norm": 0.024412467269085192, "learning_rate": 0.0001, "loss": 0.9038, "step": 6091 }, { "epoch": 1.1249066666666667, "grad_norm": 0.026155456730368867, "learning_rate": 0.0001, "loss": 0.9688, "step": 6092 }, { "epoch": 1.12496, "grad_norm": 0.025461036010799073, "learning_rate": 0.0001, "loss": 0.9719, "step": 6093 }, { "epoch": 1.1250133333333334, "grad_norm": 0.02433667320993162, "learning_rate": 0.0001, "loss": 0.9574, "step": 6094 }, { "epoch": 1.1250666666666667, "grad_norm": 0.02522884207010873, "learning_rate": 0.0001, "loss": 0.9661, "step": 6095 }, { "epoch": 1.12512, "grad_norm": 0.02488105842528394, "learning_rate": 0.0001, "loss": 0.9834, "step": 6096 }, { "epoch": 1.1251733333333334, "grad_norm": 0.02644441159545943, "learning_rate": 0.0001, "loss": 1.0155, "step": 6097 }, { "epoch": 1.1252266666666666, "grad_norm": 0.024119250928534435, "learning_rate": 0.0001, "loss": 0.9422, "step": 6098 }, { "epoch": 1.12528, "grad_norm": 0.022850039345002696, "learning_rate": 0.0001, "loss": 0.9618, "step": 6099 }, { "epoch": 1.1253333333333333, "grad_norm": 0.026131544872740244, "learning_rate": 0.0001, "loss": 0.9646, "step": 6100 }, { "epoch": 1.1253866666666668, "grad_norm": 0.025100785661605597, "learning_rate": 0.0001, "loss": 0.9357, "step": 6101 }, { "epoch": 1.12544, "grad_norm": 0.023191751949923522, "learning_rate": 0.0001, "loss": 0.9971, "step": 6102 }, { "epoch": 1.1254933333333335, "grad_norm": 0.02291901236123668, "learning_rate": 0.0001, "loss": 0.9554, "step": 6103 }, { "epoch": 1.1255466666666667, "grad_norm": 0.024224498057176424, "learning_rate": 0.0001, "loss": 1.0561, "step": 6104 }, { "epoch": 1.1256, "grad_norm": 0.022659981162381757, "learning_rate": 0.0001, "loss": 0.9865, "step": 6105 }, { "epoch": 1.1256533333333334, "grad_norm": 0.024905839223880535, "learning_rate": 0.0001, "loss": 0.9354, "step": 6106 }, { "epoch": 1.1257066666666666, "grad_norm": 0.024248503982309134, "learning_rate": 0.0001, "loss": 1.0462, "step": 6107 }, { "epoch": 1.12576, "grad_norm": 0.02256962982459394, "learning_rate": 0.0001, "loss": 1.0096, "step": 6108 }, { "epoch": 1.1258133333333333, "grad_norm": 0.025145871260896346, "learning_rate": 0.0001, "loss": 1.0177, "step": 6109 }, { "epoch": 1.1258666666666666, "grad_norm": 0.025487308597288184, "learning_rate": 0.0001, "loss": 1.0007, "step": 6110 }, { "epoch": 1.12592, "grad_norm": 0.023688098743784258, "learning_rate": 0.0001, "loss": 0.9872, "step": 6111 }, { "epoch": 1.1259733333333333, "grad_norm": 0.02720305142404734, "learning_rate": 0.0001, "loss": 1.0016, "step": 6112 }, { "epoch": 1.1260266666666667, "grad_norm": 0.02420060419211194, "learning_rate": 0.0001, "loss": 0.9486, "step": 6113 }, { "epoch": 1.12608, "grad_norm": 0.024040665120437166, "learning_rate": 0.0001, "loss": 0.9896, "step": 6114 }, { "epoch": 1.1261333333333332, "grad_norm": 0.022552286008086345, "learning_rate": 0.0001, "loss": 0.962, "step": 6115 }, { "epoch": 1.1261866666666667, "grad_norm": 0.026065602388786538, "learning_rate": 0.0001, "loss": 0.9888, "step": 6116 }, { "epoch": 1.12624, "grad_norm": 0.02471755097170445, "learning_rate": 0.0001, "loss": 0.9249, "step": 6117 }, { "epoch": 1.1262933333333334, "grad_norm": 0.022442759208468235, "learning_rate": 0.0001, "loss": 1.0226, "step": 6118 }, { "epoch": 1.1263466666666666, "grad_norm": 0.024650044882784928, "learning_rate": 0.0001, "loss": 1.0009, "step": 6119 }, { "epoch": 1.1264, "grad_norm": 0.022850336723151825, "learning_rate": 0.0001, "loss": 0.9385, "step": 6120 }, { "epoch": 1.1264533333333333, "grad_norm": 0.023495321867095898, "learning_rate": 0.0001, "loss": 0.8973, "step": 6121 }, { "epoch": 1.1265066666666668, "grad_norm": 0.026489702841565543, "learning_rate": 0.0001, "loss": 0.9762, "step": 6122 }, { "epoch": 1.12656, "grad_norm": 0.02592051906073953, "learning_rate": 0.0001, "loss": 0.9895, "step": 6123 }, { "epoch": 1.1266133333333332, "grad_norm": 0.024218815716228675, "learning_rate": 0.0001, "loss": 0.9663, "step": 6124 }, { "epoch": 1.1266666666666667, "grad_norm": 0.02395802865784599, "learning_rate": 0.0001, "loss": 0.9942, "step": 6125 }, { "epoch": 1.12672, "grad_norm": 0.023783164391936683, "learning_rate": 0.0001, "loss": 0.9475, "step": 6126 }, { "epoch": 1.1267733333333334, "grad_norm": 0.023718381523590227, "learning_rate": 0.0001, "loss": 1.0118, "step": 6127 }, { "epoch": 1.1268266666666666, "grad_norm": 0.023638032357006674, "learning_rate": 0.0001, "loss": 0.9277, "step": 6128 }, { "epoch": 1.1268799999999999, "grad_norm": 0.02503764812833439, "learning_rate": 0.0001, "loss": 1.0171, "step": 6129 }, { "epoch": 1.1269333333333333, "grad_norm": 0.022926698025235427, "learning_rate": 0.0001, "loss": 1.0715, "step": 6130 }, { "epoch": 1.1269866666666666, "grad_norm": 0.02260598122252205, "learning_rate": 0.0001, "loss": 0.9276, "step": 6131 }, { "epoch": 1.12704, "grad_norm": 0.024037076659709732, "learning_rate": 0.0001, "loss": 1.005, "step": 6132 }, { "epoch": 1.1270933333333333, "grad_norm": 0.023784090523349646, "learning_rate": 0.0001, "loss": 0.9732, "step": 6133 }, { "epoch": 1.1271466666666667, "grad_norm": 0.025269687379305752, "learning_rate": 0.0001, "loss": 0.9254, "step": 6134 }, { "epoch": 1.1272, "grad_norm": 0.02503274856190863, "learning_rate": 0.0001, "loss": 0.9481, "step": 6135 }, { "epoch": 1.1272533333333334, "grad_norm": 0.023037683084154305, "learning_rate": 0.0001, "loss": 0.9803, "step": 6136 }, { "epoch": 1.1273066666666667, "grad_norm": 0.02626065038757913, "learning_rate": 0.0001, "loss": 0.9962, "step": 6137 }, { "epoch": 1.12736, "grad_norm": 0.02540429770808406, "learning_rate": 0.0001, "loss": 1.0076, "step": 6138 }, { "epoch": 1.1274133333333334, "grad_norm": 0.024089892844791624, "learning_rate": 0.0001, "loss": 0.9749, "step": 6139 }, { "epoch": 1.1274666666666666, "grad_norm": 0.025525417951854958, "learning_rate": 0.0001, "loss": 1.0008, "step": 6140 }, { "epoch": 1.12752, "grad_norm": 0.024979096260586937, "learning_rate": 0.0001, "loss": 0.9956, "step": 6141 }, { "epoch": 1.1275733333333333, "grad_norm": 0.025244529004704287, "learning_rate": 0.0001, "loss": 0.982, "step": 6142 }, { "epoch": 1.1276266666666666, "grad_norm": 0.024509688119205956, "learning_rate": 0.0001, "loss": 0.993, "step": 6143 }, { "epoch": 1.12768, "grad_norm": 0.025028287120394472, "learning_rate": 0.0001, "loss": 0.972, "step": 6144 }, { "epoch": 1.1277333333333333, "grad_norm": 0.0264418534708115, "learning_rate": 0.0001, "loss": 0.9192, "step": 6145 }, { "epoch": 1.1277866666666667, "grad_norm": 0.024920841984167386, "learning_rate": 0.0001, "loss": 0.9649, "step": 6146 }, { "epoch": 1.12784, "grad_norm": 0.024811896460693792, "learning_rate": 0.0001, "loss": 0.9672, "step": 6147 }, { "epoch": 1.1278933333333334, "grad_norm": 0.023771161696275637, "learning_rate": 0.0001, "loss": 0.9159, "step": 6148 }, { "epoch": 1.1279466666666667, "grad_norm": 0.024243997816041873, "learning_rate": 0.0001, "loss": 0.9497, "step": 6149 }, { "epoch": 1.1280000000000001, "grad_norm": 0.025412880561679257, "learning_rate": 0.0001, "loss": 0.9506, "step": 6150 }, { "epoch": 1.1280533333333334, "grad_norm": 0.027928726497623783, "learning_rate": 0.0001, "loss": 0.9723, "step": 6151 }, { "epoch": 1.1281066666666666, "grad_norm": 0.022233090055961573, "learning_rate": 0.0001, "loss": 0.936, "step": 6152 }, { "epoch": 1.12816, "grad_norm": 0.026755599038276158, "learning_rate": 0.0001, "loss": 1.026, "step": 6153 }, { "epoch": 1.1282133333333333, "grad_norm": 0.023081559877491737, "learning_rate": 0.0001, "loss": 0.9637, "step": 6154 }, { "epoch": 1.1282666666666668, "grad_norm": 0.023814950844741833, "learning_rate": 0.0001, "loss": 0.9594, "step": 6155 }, { "epoch": 1.12832, "grad_norm": 0.023605180229906028, "learning_rate": 0.0001, "loss": 1.0182, "step": 6156 }, { "epoch": 1.1283733333333332, "grad_norm": 0.025111224493499885, "learning_rate": 0.0001, "loss": 0.9757, "step": 6157 }, { "epoch": 1.1284266666666667, "grad_norm": 0.02425242370254257, "learning_rate": 0.0001, "loss": 0.9997, "step": 6158 }, { "epoch": 1.12848, "grad_norm": 0.02601308310997367, "learning_rate": 0.0001, "loss": 0.941, "step": 6159 }, { "epoch": 1.1285333333333334, "grad_norm": 0.02415136379981654, "learning_rate": 0.0001, "loss": 0.9274, "step": 6160 }, { "epoch": 1.1285866666666666, "grad_norm": 0.024838454495899505, "learning_rate": 0.0001, "loss": 0.947, "step": 6161 }, { "epoch": 1.12864, "grad_norm": 0.024158128680993433, "learning_rate": 0.0001, "loss": 0.9743, "step": 6162 }, { "epoch": 1.1286933333333333, "grad_norm": 0.024699254355516526, "learning_rate": 0.0001, "loss": 0.963, "step": 6163 }, { "epoch": 1.1287466666666668, "grad_norm": 0.02554673124672243, "learning_rate": 0.0001, "loss": 0.9663, "step": 6164 }, { "epoch": 1.1288, "grad_norm": 0.024426187632880427, "learning_rate": 0.0001, "loss": 0.9894, "step": 6165 }, { "epoch": 1.1288533333333333, "grad_norm": 0.026321459829796064, "learning_rate": 0.0001, "loss": 1.0011, "step": 6166 }, { "epoch": 1.1289066666666667, "grad_norm": 0.023840216092616485, "learning_rate": 0.0001, "loss": 0.965, "step": 6167 }, { "epoch": 1.12896, "grad_norm": 0.02551228337121447, "learning_rate": 0.0001, "loss": 0.9735, "step": 6168 }, { "epoch": 1.1290133333333334, "grad_norm": 0.022461522049469163, "learning_rate": 0.0001, "loss": 0.9512, "step": 6169 }, { "epoch": 1.1290666666666667, "grad_norm": 0.02692177760310647, "learning_rate": 0.0001, "loss": 0.9625, "step": 6170 }, { "epoch": 1.12912, "grad_norm": 0.023942360882934305, "learning_rate": 0.0001, "loss": 0.9875, "step": 6171 }, { "epoch": 1.1291733333333334, "grad_norm": 0.02503899256004894, "learning_rate": 0.0001, "loss": 0.9435, "step": 6172 }, { "epoch": 1.1292266666666666, "grad_norm": 0.023654882548216554, "learning_rate": 0.0001, "loss": 0.9659, "step": 6173 }, { "epoch": 1.12928, "grad_norm": 0.02553762042443435, "learning_rate": 0.0001, "loss": 1.0404, "step": 6174 }, { "epoch": 1.1293333333333333, "grad_norm": 0.02385422998797272, "learning_rate": 0.0001, "loss": 0.9466, "step": 6175 }, { "epoch": 1.1293866666666668, "grad_norm": 0.025334634425684996, "learning_rate": 0.0001, "loss": 0.9753, "step": 6176 }, { "epoch": 1.12944, "grad_norm": 0.028155287725483813, "learning_rate": 0.0001, "loss": 0.9963, "step": 6177 }, { "epoch": 1.1294933333333332, "grad_norm": 0.024488475336720217, "learning_rate": 0.0001, "loss": 0.9704, "step": 6178 }, { "epoch": 1.1295466666666667, "grad_norm": 0.02641291845625174, "learning_rate": 0.0001, "loss": 0.9693, "step": 6179 }, { "epoch": 1.1296, "grad_norm": 0.027398434497250664, "learning_rate": 0.0001, "loss": 0.9218, "step": 6180 }, { "epoch": 1.1296533333333334, "grad_norm": 0.023067012676708545, "learning_rate": 0.0001, "loss": 0.9884, "step": 6181 }, { "epoch": 1.1297066666666666, "grad_norm": 0.024563008576837922, "learning_rate": 0.0001, "loss": 0.9948, "step": 6182 }, { "epoch": 1.12976, "grad_norm": 0.02437301095109284, "learning_rate": 0.0001, "loss": 0.9508, "step": 6183 }, { "epoch": 1.1298133333333333, "grad_norm": 0.030982068318175224, "learning_rate": 0.0001, "loss": 0.9905, "step": 6184 }, { "epoch": 1.1298666666666666, "grad_norm": 0.02437734939862814, "learning_rate": 0.0001, "loss": 0.9858, "step": 6185 }, { "epoch": 1.12992, "grad_norm": 0.02358691967933695, "learning_rate": 0.0001, "loss": 0.9331, "step": 6186 }, { "epoch": 1.1299733333333333, "grad_norm": 0.027353145036304614, "learning_rate": 0.0001, "loss": 0.9691, "step": 6187 }, { "epoch": 1.1300266666666667, "grad_norm": 0.023817086485990204, "learning_rate": 0.0001, "loss": 0.9377, "step": 6188 }, { "epoch": 1.13008, "grad_norm": 0.02369949507919073, "learning_rate": 0.0001, "loss": 0.9446, "step": 6189 }, { "epoch": 1.1301333333333332, "grad_norm": 0.024275952619615303, "learning_rate": 0.0001, "loss": 0.9466, "step": 6190 }, { "epoch": 1.1301866666666667, "grad_norm": 0.023039032526374438, "learning_rate": 0.0001, "loss": 0.9503, "step": 6191 }, { "epoch": 1.13024, "grad_norm": 0.02500086659048086, "learning_rate": 0.0001, "loss": 1.029, "step": 6192 }, { "epoch": 1.1302933333333334, "grad_norm": 0.02301590864901697, "learning_rate": 0.0001, "loss": 1.0525, "step": 6193 }, { "epoch": 1.1303466666666666, "grad_norm": 0.02567149615224196, "learning_rate": 0.0001, "loss": 0.9857, "step": 6194 }, { "epoch": 1.1304, "grad_norm": 0.025283142351649912, "learning_rate": 0.0001, "loss": 0.9552, "step": 6195 }, { "epoch": 1.1304533333333333, "grad_norm": 0.024873782018034293, "learning_rate": 0.0001, "loss": 0.979, "step": 6196 }, { "epoch": 1.1305066666666668, "grad_norm": 0.025395101405061054, "learning_rate": 0.0001, "loss": 0.9616, "step": 6197 }, { "epoch": 1.13056, "grad_norm": 0.024029624849588975, "learning_rate": 0.0001, "loss": 0.9326, "step": 6198 }, { "epoch": 1.1306133333333332, "grad_norm": 0.02431843064479585, "learning_rate": 0.0001, "loss": 1.0119, "step": 6199 }, { "epoch": 1.1306666666666667, "grad_norm": 0.0227029774440774, "learning_rate": 0.0001, "loss": 0.9585, "step": 6200 }, { "epoch": 1.1306666666666667, "eval_accuracy": 0.6184966489289307, "eval_loss": 1.3635296821594238, "eval_runtime": 63.3817, "eval_samples_per_second": 15.777, "eval_steps_per_second": 0.505, "step": 6200 }, { "epoch": 1.13072, "grad_norm": 0.023810241535526994, "learning_rate": 0.0001, "loss": 1.0046, "step": 6201 }, { "epoch": 1.1307733333333334, "grad_norm": 0.02381625555295138, "learning_rate": 0.0001, "loss": 0.9598, "step": 6202 }, { "epoch": 1.1308266666666666, "grad_norm": 0.024893055141667484, "learning_rate": 0.0001, "loss": 0.9721, "step": 6203 }, { "epoch": 1.1308799999999999, "grad_norm": 0.02380990459412209, "learning_rate": 0.0001, "loss": 0.9728, "step": 6204 }, { "epoch": 1.1309333333333333, "grad_norm": 0.023741686907397395, "learning_rate": 0.0001, "loss": 0.9848, "step": 6205 }, { "epoch": 1.1309866666666666, "grad_norm": 0.024816415182014447, "learning_rate": 0.0001, "loss": 0.9501, "step": 6206 }, { "epoch": 1.13104, "grad_norm": 0.023456065702652715, "learning_rate": 0.0001, "loss": 0.8911, "step": 6207 }, { "epoch": 1.1310933333333333, "grad_norm": 0.02314931131221301, "learning_rate": 0.0001, "loss": 1.0344, "step": 6208 }, { "epoch": 1.1311466666666667, "grad_norm": 0.026720757318299693, "learning_rate": 0.0001, "loss": 1.0103, "step": 6209 }, { "epoch": 1.1312, "grad_norm": 0.024739752724987008, "learning_rate": 0.0001, "loss": 1.0242, "step": 6210 }, { "epoch": 1.1312533333333334, "grad_norm": 0.024274034764124656, "learning_rate": 0.0001, "loss": 0.9494, "step": 6211 }, { "epoch": 1.1313066666666667, "grad_norm": 0.023097522245960744, "learning_rate": 0.0001, "loss": 0.9727, "step": 6212 }, { "epoch": 1.13136, "grad_norm": 0.025720197284344364, "learning_rate": 0.0001, "loss": 1.0181, "step": 6213 }, { "epoch": 1.1314133333333334, "grad_norm": 0.022501823846149457, "learning_rate": 0.0001, "loss": 0.9895, "step": 6214 }, { "epoch": 1.1314666666666666, "grad_norm": 0.02536686596682958, "learning_rate": 0.0001, "loss": 1.0163, "step": 6215 }, { "epoch": 1.13152, "grad_norm": 0.02551174468030929, "learning_rate": 0.0001, "loss": 0.9519, "step": 6216 }, { "epoch": 1.1315733333333333, "grad_norm": 0.023212498369046233, "learning_rate": 0.0001, "loss": 0.963, "step": 6217 }, { "epoch": 1.1316266666666666, "grad_norm": 0.026447963661568916, "learning_rate": 0.0001, "loss": 0.9861, "step": 6218 }, { "epoch": 1.13168, "grad_norm": 0.025262156202335368, "learning_rate": 0.0001, "loss": 0.9782, "step": 6219 }, { "epoch": 1.1317333333333333, "grad_norm": 0.023319604876406618, "learning_rate": 0.0001, "loss": 0.9563, "step": 6220 }, { "epoch": 1.1317866666666667, "grad_norm": 0.024574509305105855, "learning_rate": 0.0001, "loss": 0.9963, "step": 6221 }, { "epoch": 1.13184, "grad_norm": 0.023904010349038902, "learning_rate": 0.0001, "loss": 0.9924, "step": 6222 }, { "epoch": 1.1318933333333334, "grad_norm": 0.027067100055024728, "learning_rate": 0.0001, "loss": 0.9214, "step": 6223 }, { "epoch": 1.1319466666666667, "grad_norm": 0.023770460079688527, "learning_rate": 0.0001, "loss": 0.9667, "step": 6224 }, { "epoch": 1.1320000000000001, "grad_norm": 0.023705172816230368, "learning_rate": 0.0001, "loss": 0.918, "step": 6225 }, { "epoch": 1.1320533333333334, "grad_norm": 0.02613152282660081, "learning_rate": 0.0001, "loss": 0.9761, "step": 6226 }, { "epoch": 1.1321066666666666, "grad_norm": 0.025788615092379327, "learning_rate": 0.0001, "loss": 0.9703, "step": 6227 }, { "epoch": 1.13216, "grad_norm": 0.02334815934504521, "learning_rate": 0.0001, "loss": 1.0195, "step": 6228 }, { "epoch": 1.1322133333333333, "grad_norm": 0.023566546498926387, "learning_rate": 0.0001, "loss": 1.001, "step": 6229 }, { "epoch": 1.1322666666666668, "grad_norm": 0.027101348354894497, "learning_rate": 0.0001, "loss": 0.9397, "step": 6230 }, { "epoch": 1.13232, "grad_norm": 0.023721203902675302, "learning_rate": 0.0001, "loss": 0.8889, "step": 6231 }, { "epoch": 1.1323733333333332, "grad_norm": 0.023726450509201025, "learning_rate": 0.0001, "loss": 0.9915, "step": 6232 }, { "epoch": 1.1324266666666667, "grad_norm": 0.024917492630879095, "learning_rate": 0.0001, "loss": 1.0497, "step": 6233 }, { "epoch": 1.13248, "grad_norm": 0.023610686883277703, "learning_rate": 0.0001, "loss": 1.0029, "step": 6234 }, { "epoch": 1.1325333333333334, "grad_norm": 0.023200103092173067, "learning_rate": 0.0001, "loss": 0.9475, "step": 6235 }, { "epoch": 1.1325866666666666, "grad_norm": 0.028454044777031836, "learning_rate": 0.0001, "loss": 0.9743, "step": 6236 }, { "epoch": 1.13264, "grad_norm": 0.027446062884232937, "learning_rate": 0.0001, "loss": 0.9986, "step": 6237 }, { "epoch": 1.1326933333333333, "grad_norm": 0.025359955009642828, "learning_rate": 0.0001, "loss": 0.9516, "step": 6238 }, { "epoch": 1.1327466666666668, "grad_norm": 0.026416662128823393, "learning_rate": 0.0001, "loss": 0.9842, "step": 6239 }, { "epoch": 1.1328, "grad_norm": 0.024024258075885964, "learning_rate": 0.0001, "loss": 0.9802, "step": 6240 }, { "epoch": 1.1328533333333333, "grad_norm": 0.02455338558794006, "learning_rate": 0.0001, "loss": 0.9708, "step": 6241 }, { "epoch": 1.1329066666666667, "grad_norm": 0.025239839718249918, "learning_rate": 0.0001, "loss": 0.9418, "step": 6242 }, { "epoch": 1.13296, "grad_norm": 0.02248351355849562, "learning_rate": 0.0001, "loss": 0.9364, "step": 6243 }, { "epoch": 1.1330133333333334, "grad_norm": 0.025514866032073126, "learning_rate": 0.0001, "loss": 0.9351, "step": 6244 }, { "epoch": 1.1330666666666667, "grad_norm": 0.024949946459870583, "learning_rate": 0.0001, "loss": 0.9697, "step": 6245 }, { "epoch": 1.13312, "grad_norm": 0.022972560531962, "learning_rate": 0.0001, "loss": 0.9509, "step": 6246 }, { "epoch": 1.1331733333333334, "grad_norm": 0.02474476971494049, "learning_rate": 0.0001, "loss": 0.9827, "step": 6247 }, { "epoch": 1.1332266666666666, "grad_norm": 0.026383987751659916, "learning_rate": 0.0001, "loss": 0.9469, "step": 6248 }, { "epoch": 1.13328, "grad_norm": 0.02496342811955565, "learning_rate": 0.0001, "loss": 0.9397, "step": 6249 }, { "epoch": 1.1333333333333333, "grad_norm": 0.023566542501435896, "learning_rate": 0.0001, "loss": 1.0428, "step": 6250 }, { "epoch": 1.1333866666666665, "grad_norm": 0.02563228866347953, "learning_rate": 0.0001, "loss": 0.9494, "step": 6251 }, { "epoch": 1.13344, "grad_norm": 0.0232566425048362, "learning_rate": 0.0001, "loss": 0.9568, "step": 6252 }, { "epoch": 1.1334933333333332, "grad_norm": 0.02602743465646449, "learning_rate": 0.0001, "loss": 0.9676, "step": 6253 }, { "epoch": 1.1335466666666667, "grad_norm": 0.023474880851999766, "learning_rate": 0.0001, "loss": 0.9762, "step": 6254 }, { "epoch": 1.1336, "grad_norm": 0.02467508931738061, "learning_rate": 0.0001, "loss": 0.9643, "step": 6255 }, { "epoch": 1.1336533333333334, "grad_norm": 0.024554180095735564, "learning_rate": 0.0001, "loss": 0.9729, "step": 6256 }, { "epoch": 1.1337066666666666, "grad_norm": 0.025028045286178226, "learning_rate": 0.0001, "loss": 0.9641, "step": 6257 }, { "epoch": 1.13376, "grad_norm": 0.02435033852630937, "learning_rate": 0.0001, "loss": 0.9691, "step": 6258 }, { "epoch": 1.1338133333333333, "grad_norm": 0.02823130710231987, "learning_rate": 0.0001, "loss": 0.987, "step": 6259 }, { "epoch": 1.1338666666666666, "grad_norm": 0.025246701048993753, "learning_rate": 0.0001, "loss": 1.0149, "step": 6260 }, { "epoch": 1.13392, "grad_norm": 0.02608428515814389, "learning_rate": 0.0001, "loss": 1.0022, "step": 6261 }, { "epoch": 1.1339733333333333, "grad_norm": 0.024173936024423363, "learning_rate": 0.0001, "loss": 0.9693, "step": 6262 }, { "epoch": 1.1340266666666667, "grad_norm": 0.024870123371411326, "learning_rate": 0.0001, "loss": 0.9557, "step": 6263 }, { "epoch": 1.13408, "grad_norm": 0.024336711709777952, "learning_rate": 0.0001, "loss": 0.9827, "step": 6264 }, { "epoch": 1.1341333333333332, "grad_norm": 0.024114020861607226, "learning_rate": 0.0001, "loss": 0.9252, "step": 6265 }, { "epoch": 1.1341866666666667, "grad_norm": 0.02494917739101946, "learning_rate": 0.0001, "loss": 0.992, "step": 6266 }, { "epoch": 1.13424, "grad_norm": 0.02653453805781737, "learning_rate": 0.0001, "loss": 0.9493, "step": 6267 }, { "epoch": 1.1342933333333334, "grad_norm": 0.024309014515579392, "learning_rate": 0.0001, "loss": 0.9468, "step": 6268 }, { "epoch": 1.1343466666666666, "grad_norm": 0.024745950074251885, "learning_rate": 0.0001, "loss": 1.0253, "step": 6269 }, { "epoch": 1.1344, "grad_norm": 0.026624318477129524, "learning_rate": 0.0001, "loss": 1.0586, "step": 6270 }, { "epoch": 1.1344533333333333, "grad_norm": 0.028018918100180694, "learning_rate": 0.0001, "loss": 0.9052, "step": 6271 }, { "epoch": 1.1345066666666668, "grad_norm": 0.02424306459936888, "learning_rate": 0.0001, "loss": 0.9343, "step": 6272 }, { "epoch": 1.13456, "grad_norm": 0.02786765784891461, "learning_rate": 0.0001, "loss": 0.9355, "step": 6273 }, { "epoch": 1.1346133333333333, "grad_norm": 0.024557459398895913, "learning_rate": 0.0001, "loss": 0.9935, "step": 6274 }, { "epoch": 1.1346666666666667, "grad_norm": 0.026229883230482132, "learning_rate": 0.0001, "loss": 0.9177, "step": 6275 }, { "epoch": 1.13472, "grad_norm": 0.027690034203638483, "learning_rate": 0.0001, "loss": 1.0046, "step": 6276 }, { "epoch": 1.1347733333333334, "grad_norm": 0.025068438814169723, "learning_rate": 0.0001, "loss": 0.9087, "step": 6277 }, { "epoch": 1.1348266666666667, "grad_norm": 0.02745221416528204, "learning_rate": 0.0001, "loss": 0.8997, "step": 6278 }, { "epoch": 1.1348799999999999, "grad_norm": 0.02590812577855964, "learning_rate": 0.0001, "loss": 0.9933, "step": 6279 }, { "epoch": 1.1349333333333333, "grad_norm": 0.027912998856617084, "learning_rate": 0.0001, "loss": 1.0202, "step": 6280 }, { "epoch": 1.1349866666666666, "grad_norm": 0.024154070761963416, "learning_rate": 0.0001, "loss": 0.976, "step": 6281 }, { "epoch": 1.13504, "grad_norm": 0.02511778483090487, "learning_rate": 0.0001, "loss": 1.0012, "step": 6282 }, { "epoch": 1.1350933333333333, "grad_norm": 0.025119192115491278, "learning_rate": 0.0001, "loss": 1.0068, "step": 6283 }, { "epoch": 1.1351466666666667, "grad_norm": 0.026775306196735568, "learning_rate": 0.0001, "loss": 0.9431, "step": 6284 }, { "epoch": 1.1352, "grad_norm": 0.024915579578611048, "learning_rate": 0.0001, "loss": 0.9908, "step": 6285 }, { "epoch": 1.1352533333333334, "grad_norm": 0.023032899350952634, "learning_rate": 0.0001, "loss": 0.9553, "step": 6286 }, { "epoch": 1.1353066666666667, "grad_norm": 0.02394654252202087, "learning_rate": 0.0001, "loss": 0.9597, "step": 6287 }, { "epoch": 1.13536, "grad_norm": 0.02418217759788644, "learning_rate": 0.0001, "loss": 0.9892, "step": 6288 }, { "epoch": 1.1354133333333334, "grad_norm": 0.025836032682371023, "learning_rate": 0.0001, "loss": 0.986, "step": 6289 }, { "epoch": 1.1354666666666666, "grad_norm": 0.022899282435598346, "learning_rate": 0.0001, "loss": 0.9339, "step": 6290 }, { "epoch": 1.13552, "grad_norm": 0.022678063920103787, "learning_rate": 0.0001, "loss": 0.9443, "step": 6291 }, { "epoch": 1.1355733333333333, "grad_norm": 0.024033479384927853, "learning_rate": 0.0001, "loss": 0.9099, "step": 6292 }, { "epoch": 1.1356266666666666, "grad_norm": 0.02502333895408304, "learning_rate": 0.0001, "loss": 1.0379, "step": 6293 }, { "epoch": 1.13568, "grad_norm": 0.024286514932002904, "learning_rate": 0.0001, "loss": 0.9482, "step": 6294 }, { "epoch": 1.1357333333333333, "grad_norm": 0.022581725345157316, "learning_rate": 0.0001, "loss": 0.9812, "step": 6295 }, { "epoch": 1.1357866666666667, "grad_norm": 0.023804943302821215, "learning_rate": 0.0001, "loss": 0.958, "step": 6296 }, { "epoch": 1.13584, "grad_norm": 0.02288801716325332, "learning_rate": 0.0001, "loss": 0.921, "step": 6297 }, { "epoch": 1.1358933333333334, "grad_norm": 0.024173125880748013, "learning_rate": 0.0001, "loss": 0.9135, "step": 6298 }, { "epoch": 1.1359466666666667, "grad_norm": 0.024260484777648965, "learning_rate": 0.0001, "loss": 0.9989, "step": 6299 }, { "epoch": 1.1360000000000001, "grad_norm": 0.022313465080804736, "learning_rate": 0.0001, "loss": 1.0044, "step": 6300 }, { "epoch": 1.1360533333333334, "grad_norm": 0.024354417247663268, "learning_rate": 0.0001, "loss": 0.9414, "step": 6301 }, { "epoch": 1.1361066666666666, "grad_norm": 0.02433730231965083, "learning_rate": 0.0001, "loss": 1.0087, "step": 6302 }, { "epoch": 1.13616, "grad_norm": 0.02230347347243854, "learning_rate": 0.0001, "loss": 0.986, "step": 6303 }, { "epoch": 1.1362133333333333, "grad_norm": 0.02155087598813873, "learning_rate": 0.0001, "loss": 0.9748, "step": 6304 }, { "epoch": 1.1362666666666668, "grad_norm": 0.023086190966207534, "learning_rate": 0.0001, "loss": 0.9563, "step": 6305 }, { "epoch": 1.13632, "grad_norm": 0.023940433596383738, "learning_rate": 0.0001, "loss": 0.9665, "step": 6306 }, { "epoch": 1.1363733333333332, "grad_norm": 0.02440739090779018, "learning_rate": 0.0001, "loss": 0.9453, "step": 6307 }, { "epoch": 1.1364266666666667, "grad_norm": 0.024245239259599642, "learning_rate": 0.0001, "loss": 0.921, "step": 6308 }, { "epoch": 1.13648, "grad_norm": 0.02373605356488629, "learning_rate": 0.0001, "loss": 0.9726, "step": 6309 }, { "epoch": 1.1365333333333334, "grad_norm": 0.023514256369988766, "learning_rate": 0.0001, "loss": 1.0182, "step": 6310 }, { "epoch": 1.1365866666666666, "grad_norm": 0.024093931373637967, "learning_rate": 0.0001, "loss": 0.9783, "step": 6311 }, { "epoch": 1.13664, "grad_norm": 0.023716466128258062, "learning_rate": 0.0001, "loss": 0.9574, "step": 6312 }, { "epoch": 1.1366933333333333, "grad_norm": 0.02442705919304108, "learning_rate": 0.0001, "loss": 1.0256, "step": 6313 }, { "epoch": 1.1367466666666666, "grad_norm": 0.024614998443177202, "learning_rate": 0.0001, "loss": 0.9693, "step": 6314 }, { "epoch": 1.1368, "grad_norm": 0.02270315974378459, "learning_rate": 0.0001, "loss": 0.9151, "step": 6315 }, { "epoch": 1.1368533333333333, "grad_norm": 0.024853013504019864, "learning_rate": 0.0001, "loss": 0.9736, "step": 6316 }, { "epoch": 1.1369066666666667, "grad_norm": 0.023717825219213225, "learning_rate": 0.0001, "loss": 1.0076, "step": 6317 }, { "epoch": 1.13696, "grad_norm": 0.0262595493676375, "learning_rate": 0.0001, "loss": 0.9803, "step": 6318 }, { "epoch": 1.1370133333333334, "grad_norm": 0.024847488297286585, "learning_rate": 0.0001, "loss": 1.0077, "step": 6319 }, { "epoch": 1.1370666666666667, "grad_norm": 0.023852706617085325, "learning_rate": 0.0001, "loss": 1.0472, "step": 6320 }, { "epoch": 1.13712, "grad_norm": 0.024430395656273304, "learning_rate": 0.0001, "loss": 0.9357, "step": 6321 }, { "epoch": 1.1371733333333334, "grad_norm": 0.02296572827861205, "learning_rate": 0.0001, "loss": 0.959, "step": 6322 }, { "epoch": 1.1372266666666666, "grad_norm": 0.023208215186654734, "learning_rate": 0.0001, "loss": 0.9354, "step": 6323 }, { "epoch": 1.13728, "grad_norm": 0.02309556606839938, "learning_rate": 0.0001, "loss": 0.9827, "step": 6324 }, { "epoch": 1.1373333333333333, "grad_norm": 0.023822114255089198, "learning_rate": 0.0001, "loss": 0.9901, "step": 6325 }, { "epoch": 1.1373866666666665, "grad_norm": 0.023143037529911977, "learning_rate": 0.0001, "loss": 1.0431, "step": 6326 }, { "epoch": 1.13744, "grad_norm": 0.026511524979378764, "learning_rate": 0.0001, "loss": 0.9206, "step": 6327 }, { "epoch": 1.1374933333333332, "grad_norm": 0.02391648836119645, "learning_rate": 0.0001, "loss": 0.9855, "step": 6328 }, { "epoch": 1.1375466666666667, "grad_norm": 0.02292448068392983, "learning_rate": 0.0001, "loss": 0.94, "step": 6329 }, { "epoch": 1.1376, "grad_norm": 0.024627183630149242, "learning_rate": 0.0001, "loss": 0.9453, "step": 6330 }, { "epoch": 1.1376533333333334, "grad_norm": 0.023476917298193328, "learning_rate": 0.0001, "loss": 0.9794, "step": 6331 }, { "epoch": 1.1377066666666666, "grad_norm": 0.022731974827275073, "learning_rate": 0.0001, "loss": 0.9447, "step": 6332 }, { "epoch": 1.13776, "grad_norm": 0.025724531524506673, "learning_rate": 0.0001, "loss": 1.0315, "step": 6333 }, { "epoch": 1.1378133333333333, "grad_norm": 0.024448526062343275, "learning_rate": 0.0001, "loss": 0.9836, "step": 6334 }, { "epoch": 1.1378666666666666, "grad_norm": 0.0233477678805777, "learning_rate": 0.0001, "loss": 0.9438, "step": 6335 }, { "epoch": 1.13792, "grad_norm": 0.025874323867214544, "learning_rate": 0.0001, "loss": 0.9469, "step": 6336 }, { "epoch": 1.1379733333333333, "grad_norm": 0.023700988566114984, "learning_rate": 0.0001, "loss": 0.9669, "step": 6337 }, { "epoch": 1.1380266666666667, "grad_norm": 0.024226089840556308, "learning_rate": 0.0001, "loss": 0.9726, "step": 6338 }, { "epoch": 1.13808, "grad_norm": 0.023604265098804214, "learning_rate": 0.0001, "loss": 1.0294, "step": 6339 }, { "epoch": 1.1381333333333332, "grad_norm": 0.024705527585522673, "learning_rate": 0.0001, "loss": 0.9042, "step": 6340 }, { "epoch": 1.1381866666666667, "grad_norm": 0.024405342514253015, "learning_rate": 0.0001, "loss": 0.9215, "step": 6341 }, { "epoch": 1.13824, "grad_norm": 0.026655892109698365, "learning_rate": 0.0001, "loss": 0.9873, "step": 6342 }, { "epoch": 1.1382933333333334, "grad_norm": 0.024694596146734856, "learning_rate": 0.0001, "loss": 0.9454, "step": 6343 }, { "epoch": 1.1383466666666666, "grad_norm": 0.02547858603839723, "learning_rate": 0.0001, "loss": 1.011, "step": 6344 }, { "epoch": 1.1384, "grad_norm": 0.02614606970619272, "learning_rate": 0.0001, "loss": 0.9801, "step": 6345 }, { "epoch": 1.1384533333333333, "grad_norm": 0.025607997800384676, "learning_rate": 0.0001, "loss": 1.0328, "step": 6346 }, { "epoch": 1.1385066666666668, "grad_norm": 0.026090350234659953, "learning_rate": 0.0001, "loss": 1.0326, "step": 6347 }, { "epoch": 1.13856, "grad_norm": 0.0248663711631664, "learning_rate": 0.0001, "loss": 1.0089, "step": 6348 }, { "epoch": 1.1386133333333333, "grad_norm": 0.02580076622949218, "learning_rate": 0.0001, "loss": 0.9523, "step": 6349 }, { "epoch": 1.1386666666666667, "grad_norm": 0.024489516154717318, "learning_rate": 0.0001, "loss": 0.8883, "step": 6350 }, { "epoch": 1.13872, "grad_norm": 0.023984384835825642, "learning_rate": 0.0001, "loss": 0.9471, "step": 6351 }, { "epoch": 1.1387733333333334, "grad_norm": 0.025292642583557522, "learning_rate": 0.0001, "loss": 0.9229, "step": 6352 }, { "epoch": 1.1388266666666667, "grad_norm": 0.026052918636883506, "learning_rate": 0.0001, "loss": 0.9703, "step": 6353 }, { "epoch": 1.13888, "grad_norm": 0.02846263906180166, "learning_rate": 0.0001, "loss": 0.9427, "step": 6354 }, { "epoch": 1.1389333333333334, "grad_norm": 0.02580918168918304, "learning_rate": 0.0001, "loss": 0.9797, "step": 6355 }, { "epoch": 1.1389866666666666, "grad_norm": 0.025901967246875476, "learning_rate": 0.0001, "loss": 0.9871, "step": 6356 }, { "epoch": 1.13904, "grad_norm": 0.026689874802297783, "learning_rate": 0.0001, "loss": 1.029, "step": 6357 }, { "epoch": 1.1390933333333333, "grad_norm": 0.02793515074538281, "learning_rate": 0.0001, "loss": 0.9812, "step": 6358 }, { "epoch": 1.1391466666666668, "grad_norm": 0.02632963463789118, "learning_rate": 0.0001, "loss": 0.9803, "step": 6359 }, { "epoch": 1.1392, "grad_norm": 0.02417241403681167, "learning_rate": 0.0001, "loss": 0.9887, "step": 6360 }, { "epoch": 1.1392533333333335, "grad_norm": 0.02688378278427708, "learning_rate": 0.0001, "loss": 0.8994, "step": 6361 }, { "epoch": 1.1393066666666667, "grad_norm": 0.02437384942918246, "learning_rate": 0.0001, "loss": 0.989, "step": 6362 }, { "epoch": 1.13936, "grad_norm": 0.02487071772147045, "learning_rate": 0.0001, "loss": 1.0305, "step": 6363 }, { "epoch": 1.1394133333333334, "grad_norm": 0.024600973047999644, "learning_rate": 0.0001, "loss": 1.003, "step": 6364 }, { "epoch": 1.1394666666666666, "grad_norm": 0.02540785519746137, "learning_rate": 0.0001, "loss": 0.9129, "step": 6365 }, { "epoch": 1.13952, "grad_norm": 0.024160967745178168, "learning_rate": 0.0001, "loss": 0.9739, "step": 6366 }, { "epoch": 1.1395733333333333, "grad_norm": 0.024532691267725774, "learning_rate": 0.0001, "loss": 1.0028, "step": 6367 }, { "epoch": 1.1396266666666666, "grad_norm": 0.024761506652442963, "learning_rate": 0.0001, "loss": 0.9737, "step": 6368 }, { "epoch": 1.13968, "grad_norm": 0.024652705826265966, "learning_rate": 0.0001, "loss": 1.0034, "step": 6369 }, { "epoch": 1.1397333333333333, "grad_norm": 0.02545978098779614, "learning_rate": 0.0001, "loss": 0.9686, "step": 6370 }, { "epoch": 1.1397866666666667, "grad_norm": 0.02295422423669946, "learning_rate": 0.0001, "loss": 0.9628, "step": 6371 }, { "epoch": 1.13984, "grad_norm": 0.025564167893754087, "learning_rate": 0.0001, "loss": 1.0129, "step": 6372 }, { "epoch": 1.1398933333333334, "grad_norm": 0.022540697234308293, "learning_rate": 0.0001, "loss": 1.0119, "step": 6373 }, { "epoch": 1.1399466666666667, "grad_norm": 0.025386995073081075, "learning_rate": 0.0001, "loss": 0.911, "step": 6374 }, { "epoch": 1.1400000000000001, "grad_norm": 0.023320870140435265, "learning_rate": 0.0001, "loss": 0.9465, "step": 6375 }, { "epoch": 1.1400533333333334, "grad_norm": 0.02690990287075511, "learning_rate": 0.0001, "loss": 0.9314, "step": 6376 }, { "epoch": 1.1401066666666666, "grad_norm": 0.022438099335574866, "learning_rate": 0.0001, "loss": 0.9589, "step": 6377 }, { "epoch": 1.14016, "grad_norm": 0.024572559078319584, "learning_rate": 0.0001, "loss": 0.9031, "step": 6378 }, { "epoch": 1.1402133333333333, "grad_norm": 0.02488433997001856, "learning_rate": 0.0001, "loss": 0.979, "step": 6379 }, { "epoch": 1.1402666666666668, "grad_norm": 0.02402286828241841, "learning_rate": 0.0001, "loss": 0.9978, "step": 6380 }, { "epoch": 1.14032, "grad_norm": 0.025036529699760286, "learning_rate": 0.0001, "loss": 0.9058, "step": 6381 }, { "epoch": 1.1403733333333332, "grad_norm": 0.025880062427014978, "learning_rate": 0.0001, "loss": 1.0104, "step": 6382 }, { "epoch": 1.1404266666666667, "grad_norm": 0.025739387493262187, "learning_rate": 0.0001, "loss": 0.9652, "step": 6383 }, { "epoch": 1.14048, "grad_norm": 0.025746335267111956, "learning_rate": 0.0001, "loss": 0.9, "step": 6384 }, { "epoch": 1.1405333333333334, "grad_norm": 0.024421113826270487, "learning_rate": 0.0001, "loss": 0.9701, "step": 6385 }, { "epoch": 1.1405866666666666, "grad_norm": 0.024647791301940798, "learning_rate": 0.0001, "loss": 0.9895, "step": 6386 }, { "epoch": 1.1406399999999999, "grad_norm": 0.022101797752025264, "learning_rate": 0.0001, "loss": 0.9783, "step": 6387 }, { "epoch": 1.1406933333333333, "grad_norm": 0.025813447216464048, "learning_rate": 0.0001, "loss": 0.9687, "step": 6388 }, { "epoch": 1.1407466666666666, "grad_norm": 0.025671302801500477, "learning_rate": 0.0001, "loss": 0.9334, "step": 6389 }, { "epoch": 1.1408, "grad_norm": 0.024746648559867, "learning_rate": 0.0001, "loss": 0.954, "step": 6390 }, { "epoch": 1.1408533333333333, "grad_norm": 0.024273517074715614, "learning_rate": 0.0001, "loss": 0.9552, "step": 6391 }, { "epoch": 1.1409066666666667, "grad_norm": 0.024190977757733528, "learning_rate": 0.0001, "loss": 0.9949, "step": 6392 }, { "epoch": 1.14096, "grad_norm": 0.023869766035121063, "learning_rate": 0.0001, "loss": 1.0328, "step": 6393 }, { "epoch": 1.1410133333333334, "grad_norm": 0.025244302265803025, "learning_rate": 0.0001, "loss": 0.9424, "step": 6394 }, { "epoch": 1.1410666666666667, "grad_norm": 0.025175132795299503, "learning_rate": 0.0001, "loss": 0.921, "step": 6395 }, { "epoch": 1.14112, "grad_norm": 0.02487249438718337, "learning_rate": 0.0001, "loss": 0.9974, "step": 6396 }, { "epoch": 1.1411733333333334, "grad_norm": 0.023171446752744424, "learning_rate": 0.0001, "loss": 0.9445, "step": 6397 }, { "epoch": 1.1412266666666666, "grad_norm": 0.024840245645674833, "learning_rate": 0.0001, "loss": 0.9922, "step": 6398 }, { "epoch": 1.14128, "grad_norm": 0.024777010186551783, "learning_rate": 0.0001, "loss": 1.0342, "step": 6399 }, { "epoch": 1.1413333333333333, "grad_norm": 0.025090654374568915, "learning_rate": 0.0001, "loss": 0.9672, "step": 6400 }, { "epoch": 1.1413333333333333, "eval_accuracy": 0.6186734942706756, "eval_loss": 1.3626307249069214, "eval_runtime": 63.9635, "eval_samples_per_second": 15.634, "eval_steps_per_second": 0.5, "step": 6400 }, { "epoch": 1.1413866666666665, "grad_norm": 0.024818713669395216, "learning_rate": 0.0001, "loss": 1.0496, "step": 6401 }, { "epoch": 1.14144, "grad_norm": 0.0234534580988266, "learning_rate": 0.0001, "loss": 0.9783, "step": 6402 }, { "epoch": 1.1414933333333332, "grad_norm": 0.025010178583587363, "learning_rate": 0.0001, "loss": 1.0334, "step": 6403 }, { "epoch": 1.1415466666666667, "grad_norm": 0.0238655505198689, "learning_rate": 0.0001, "loss": 0.9421, "step": 6404 }, { "epoch": 1.1416, "grad_norm": 0.023977841924485543, "learning_rate": 0.0001, "loss": 0.9529, "step": 6405 }, { "epoch": 1.1416533333333334, "grad_norm": 0.023504881317361743, "learning_rate": 0.0001, "loss": 0.9839, "step": 6406 }, { "epoch": 1.1417066666666666, "grad_norm": 0.022904200601188196, "learning_rate": 0.0001, "loss": 0.9267, "step": 6407 }, { "epoch": 1.14176, "grad_norm": 0.02470595106112979, "learning_rate": 0.0001, "loss": 0.9506, "step": 6408 }, { "epoch": 1.1418133333333333, "grad_norm": 0.024095608670189655, "learning_rate": 0.0001, "loss": 0.9604, "step": 6409 }, { "epoch": 1.1418666666666666, "grad_norm": 0.023461273988548505, "learning_rate": 0.0001, "loss": 0.9778, "step": 6410 }, { "epoch": 1.14192, "grad_norm": 0.02423907826447616, "learning_rate": 0.0001, "loss": 0.9904, "step": 6411 }, { "epoch": 1.1419733333333333, "grad_norm": 0.02198566462105393, "learning_rate": 0.0001, "loss": 0.9248, "step": 6412 }, { "epoch": 1.1420266666666667, "grad_norm": 0.024883659560744984, "learning_rate": 0.0001, "loss": 0.9931, "step": 6413 }, { "epoch": 1.14208, "grad_norm": 0.025335132768636838, "learning_rate": 0.0001, "loss": 0.9392, "step": 6414 }, { "epoch": 1.1421333333333332, "grad_norm": 0.023621275402453477, "learning_rate": 0.0001, "loss": 1.05, "step": 6415 }, { "epoch": 1.1421866666666667, "grad_norm": 0.02367690106392082, "learning_rate": 0.0001, "loss": 0.9509, "step": 6416 }, { "epoch": 1.14224, "grad_norm": 0.02507920267655227, "learning_rate": 0.0001, "loss": 0.9794, "step": 6417 }, { "epoch": 1.1422933333333334, "grad_norm": 0.025400689300331725, "learning_rate": 0.0001, "loss": 0.9862, "step": 6418 }, { "epoch": 1.1423466666666666, "grad_norm": 0.02416456525007284, "learning_rate": 0.0001, "loss": 0.9273, "step": 6419 }, { "epoch": 1.1424, "grad_norm": 0.02806600143803757, "learning_rate": 0.0001, "loss": 0.9512, "step": 6420 }, { "epoch": 1.1424533333333333, "grad_norm": 0.02412716127454667, "learning_rate": 0.0001, "loss": 0.9548, "step": 6421 }, { "epoch": 1.1425066666666668, "grad_norm": 0.02387214231713992, "learning_rate": 0.0001, "loss": 0.9633, "step": 6422 }, { "epoch": 1.14256, "grad_norm": 0.02491880676648782, "learning_rate": 0.0001, "loss": 0.9532, "step": 6423 }, { "epoch": 1.1426133333333333, "grad_norm": 0.024147535404968015, "learning_rate": 0.0001, "loss": 0.9457, "step": 6424 }, { "epoch": 1.1426666666666667, "grad_norm": 0.02534938293533649, "learning_rate": 0.0001, "loss": 0.9527, "step": 6425 }, { "epoch": 1.14272, "grad_norm": 0.024028147056052468, "learning_rate": 0.0001, "loss": 0.9857, "step": 6426 }, { "epoch": 1.1427733333333334, "grad_norm": 0.02800835343618442, "learning_rate": 0.0001, "loss": 1.0299, "step": 6427 }, { "epoch": 1.1428266666666667, "grad_norm": 0.024478466695519233, "learning_rate": 0.0001, "loss": 0.9797, "step": 6428 }, { "epoch": 1.14288, "grad_norm": 0.022683992253479023, "learning_rate": 0.0001, "loss": 0.9372, "step": 6429 }, { "epoch": 1.1429333333333334, "grad_norm": 0.02372234361688697, "learning_rate": 0.0001, "loss": 0.9719, "step": 6430 }, { "epoch": 1.1429866666666666, "grad_norm": 0.023380216394320284, "learning_rate": 0.0001, "loss": 0.9887, "step": 6431 }, { "epoch": 1.14304, "grad_norm": 0.024199869321845275, "learning_rate": 0.0001, "loss": 0.9373, "step": 6432 }, { "epoch": 1.1430933333333333, "grad_norm": 0.0246825043519838, "learning_rate": 0.0001, "loss": 0.9415, "step": 6433 }, { "epoch": 1.1431466666666668, "grad_norm": 0.02387653488643862, "learning_rate": 0.0001, "loss": 0.9835, "step": 6434 }, { "epoch": 1.1432, "grad_norm": 0.023963974288889484, "learning_rate": 0.0001, "loss": 0.9347, "step": 6435 }, { "epoch": 1.1432533333333335, "grad_norm": 0.023301720122636732, "learning_rate": 0.0001, "loss": 0.9733, "step": 6436 }, { "epoch": 1.1433066666666667, "grad_norm": 0.0261301732931032, "learning_rate": 0.0001, "loss": 0.9885, "step": 6437 }, { "epoch": 1.14336, "grad_norm": 0.022711358965545166, "learning_rate": 0.0001, "loss": 1.0023, "step": 6438 }, { "epoch": 1.1434133333333334, "grad_norm": 0.025277523412585295, "learning_rate": 0.0001, "loss": 0.995, "step": 6439 }, { "epoch": 1.1434666666666666, "grad_norm": 0.025493578540902312, "learning_rate": 0.0001, "loss": 1.0153, "step": 6440 }, { "epoch": 1.14352, "grad_norm": 0.02440457394920936, "learning_rate": 0.0001, "loss": 1.0341, "step": 6441 }, { "epoch": 1.1435733333333333, "grad_norm": 0.025236699002938803, "learning_rate": 0.0001, "loss": 0.994, "step": 6442 }, { "epoch": 1.1436266666666666, "grad_norm": 0.023125419888296694, "learning_rate": 0.0001, "loss": 0.9238, "step": 6443 }, { "epoch": 1.14368, "grad_norm": 0.024372963150758313, "learning_rate": 0.0001, "loss": 0.9986, "step": 6444 }, { "epoch": 1.1437333333333333, "grad_norm": 0.02330596704260975, "learning_rate": 0.0001, "loss": 0.9733, "step": 6445 }, { "epoch": 1.1437866666666667, "grad_norm": 0.02411118917448528, "learning_rate": 0.0001, "loss": 0.9636, "step": 6446 }, { "epoch": 1.14384, "grad_norm": 0.02355055157930137, "learning_rate": 0.0001, "loss": 0.9541, "step": 6447 }, { "epoch": 1.1438933333333334, "grad_norm": 0.025948300503684567, "learning_rate": 0.0001, "loss": 1.0336, "step": 6448 }, { "epoch": 1.1439466666666667, "grad_norm": 0.023467264413868136, "learning_rate": 0.0001, "loss": 0.9992, "step": 6449 }, { "epoch": 1.144, "grad_norm": 0.0233684580097858, "learning_rate": 0.0001, "loss": 0.9075, "step": 6450 }, { "epoch": 1.1440533333333334, "grad_norm": 0.02357950014295757, "learning_rate": 0.0001, "loss": 1.0298, "step": 6451 }, { "epoch": 1.1441066666666666, "grad_norm": 0.02450858733218133, "learning_rate": 0.0001, "loss": 0.982, "step": 6452 }, { "epoch": 1.14416, "grad_norm": 0.02250780746464672, "learning_rate": 0.0001, "loss": 0.9433, "step": 6453 }, { "epoch": 1.1442133333333333, "grad_norm": 0.023688714372722946, "learning_rate": 0.0001, "loss": 1.0208, "step": 6454 }, { "epoch": 1.1442666666666668, "grad_norm": 0.02385060805375982, "learning_rate": 0.0001, "loss": 0.928, "step": 6455 }, { "epoch": 1.14432, "grad_norm": 0.024508671723858802, "learning_rate": 0.0001, "loss": 1.0415, "step": 6456 }, { "epoch": 1.1443733333333332, "grad_norm": 0.026553438015414703, "learning_rate": 0.0001, "loss": 0.9458, "step": 6457 }, { "epoch": 1.1444266666666667, "grad_norm": 0.02330767668186131, "learning_rate": 0.0001, "loss": 0.996, "step": 6458 }, { "epoch": 1.14448, "grad_norm": 0.023778345519342877, "learning_rate": 0.0001, "loss": 0.9424, "step": 6459 }, { "epoch": 1.1445333333333334, "grad_norm": 0.022864320012817945, "learning_rate": 0.0001, "loss": 0.954, "step": 6460 }, { "epoch": 1.1445866666666666, "grad_norm": 0.02298729684665054, "learning_rate": 0.0001, "loss": 1.0139, "step": 6461 }, { "epoch": 1.1446399999999999, "grad_norm": 0.023804306063323375, "learning_rate": 0.0001, "loss": 0.9694, "step": 6462 }, { "epoch": 1.1446933333333333, "grad_norm": 0.022954912026556886, "learning_rate": 0.0001, "loss": 1.0019, "step": 6463 }, { "epoch": 1.1447466666666666, "grad_norm": 0.024284744533694582, "learning_rate": 0.0001, "loss": 0.9423, "step": 6464 }, { "epoch": 1.1448, "grad_norm": 0.024806387379134244, "learning_rate": 0.0001, "loss": 0.9649, "step": 6465 }, { "epoch": 1.1448533333333333, "grad_norm": 0.023523364657512355, "learning_rate": 0.0001, "loss": 1.0456, "step": 6466 }, { "epoch": 1.1449066666666667, "grad_norm": 0.022676090375195256, "learning_rate": 0.0001, "loss": 0.9514, "step": 6467 }, { "epoch": 1.14496, "grad_norm": 0.023638678361237852, "learning_rate": 0.0001, "loss": 0.973, "step": 6468 }, { "epoch": 1.1450133333333334, "grad_norm": 0.024693479964480507, "learning_rate": 0.0001, "loss": 0.9328, "step": 6469 }, { "epoch": 1.1450666666666667, "grad_norm": 0.022480993744444774, "learning_rate": 0.0001, "loss": 0.9727, "step": 6470 }, { "epoch": 1.14512, "grad_norm": 0.024722106684933038, "learning_rate": 0.0001, "loss": 0.9988, "step": 6471 }, { "epoch": 1.1451733333333334, "grad_norm": 0.024259128511809464, "learning_rate": 0.0001, "loss": 0.9251, "step": 6472 }, { "epoch": 1.1452266666666666, "grad_norm": 0.02596744687643352, "learning_rate": 0.0001, "loss": 1.0248, "step": 6473 }, { "epoch": 1.14528, "grad_norm": 0.02474329221784223, "learning_rate": 0.0001, "loss": 0.9492, "step": 6474 }, { "epoch": 1.1453333333333333, "grad_norm": 0.024862234644773513, "learning_rate": 0.0001, "loss": 1.0148, "step": 6475 }, { "epoch": 1.1453866666666666, "grad_norm": 0.023520912930095676, "learning_rate": 0.0001, "loss": 0.9612, "step": 6476 }, { "epoch": 1.14544, "grad_norm": 0.025325311521632705, "learning_rate": 0.0001, "loss": 1.0605, "step": 6477 }, { "epoch": 1.1454933333333333, "grad_norm": 0.024447067223005953, "learning_rate": 0.0001, "loss": 0.9951, "step": 6478 }, { "epoch": 1.1455466666666667, "grad_norm": 0.024173224476072435, "learning_rate": 0.0001, "loss": 0.971, "step": 6479 }, { "epoch": 1.1456, "grad_norm": 0.025119698323436437, "learning_rate": 0.0001, "loss": 0.9642, "step": 6480 }, { "epoch": 1.1456533333333334, "grad_norm": 0.023325698159894832, "learning_rate": 0.0001, "loss": 0.9842, "step": 6481 }, { "epoch": 1.1457066666666667, "grad_norm": 0.024773929667488658, "learning_rate": 0.0001, "loss": 0.9858, "step": 6482 }, { "epoch": 1.1457600000000001, "grad_norm": 0.025290947050124312, "learning_rate": 0.0001, "loss": 0.9593, "step": 6483 }, { "epoch": 1.1458133333333334, "grad_norm": 0.0233744089228315, "learning_rate": 0.0001, "loss": 0.9013, "step": 6484 }, { "epoch": 1.1458666666666666, "grad_norm": 0.026197840635050925, "learning_rate": 0.0001, "loss": 0.9877, "step": 6485 }, { "epoch": 1.14592, "grad_norm": 0.026405327382454564, "learning_rate": 0.0001, "loss": 0.9986, "step": 6486 }, { "epoch": 1.1459733333333333, "grad_norm": 0.024867837212642876, "learning_rate": 0.0001, "loss": 0.9686, "step": 6487 }, { "epoch": 1.1460266666666667, "grad_norm": 0.025196586870557133, "learning_rate": 0.0001, "loss": 0.9974, "step": 6488 }, { "epoch": 1.14608, "grad_norm": 0.023916046433919706, "learning_rate": 0.0001, "loss": 0.9092, "step": 6489 }, { "epoch": 1.1461333333333332, "grad_norm": 0.023531485391825473, "learning_rate": 0.0001, "loss": 0.9289, "step": 6490 }, { "epoch": 1.1461866666666667, "grad_norm": 0.02462174841770514, "learning_rate": 0.0001, "loss": 0.9464, "step": 6491 }, { "epoch": 1.14624, "grad_norm": 0.023193527376160643, "learning_rate": 0.0001, "loss": 0.9181, "step": 6492 }, { "epoch": 1.1462933333333334, "grad_norm": 0.02321943199383894, "learning_rate": 0.0001, "loss": 0.9698, "step": 6493 }, { "epoch": 1.1463466666666666, "grad_norm": 0.023715694988968177, "learning_rate": 0.0001, "loss": 0.893, "step": 6494 }, { "epoch": 1.1464, "grad_norm": 0.024874294021249015, "learning_rate": 0.0001, "loss": 0.9664, "step": 6495 }, { "epoch": 1.1464533333333333, "grad_norm": 0.025047125827971174, "learning_rate": 0.0001, "loss": 1.0192, "step": 6496 }, { "epoch": 1.1465066666666668, "grad_norm": 0.024069710496265568, "learning_rate": 0.0001, "loss": 1.0111, "step": 6497 }, { "epoch": 1.14656, "grad_norm": 0.023633505766138995, "learning_rate": 0.0001, "loss": 0.9558, "step": 6498 }, { "epoch": 1.1466133333333333, "grad_norm": 0.02565263869015109, "learning_rate": 0.0001, "loss": 1.026, "step": 6499 }, { "epoch": 1.1466666666666667, "grad_norm": 0.025800020834001337, "learning_rate": 0.0001, "loss": 0.939, "step": 6500 }, { "epoch": 1.14672, "grad_norm": 0.02207656729293947, "learning_rate": 0.0001, "loss": 0.9809, "step": 6501 }, { "epoch": 1.1467733333333334, "grad_norm": 0.024995683104104074, "learning_rate": 0.0001, "loss": 0.9243, "step": 6502 }, { "epoch": 1.1468266666666667, "grad_norm": 0.023696419923178395, "learning_rate": 0.0001, "loss": 0.9791, "step": 6503 }, { "epoch": 1.14688, "grad_norm": 0.023806530950243994, "learning_rate": 0.0001, "loss": 0.9707, "step": 6504 }, { "epoch": 1.1469333333333334, "grad_norm": 0.02545448128363791, "learning_rate": 0.0001, "loss": 1.0232, "step": 6505 }, { "epoch": 1.1469866666666666, "grad_norm": 0.024666916274401512, "learning_rate": 0.0001, "loss": 0.9469, "step": 6506 }, { "epoch": 1.14704, "grad_norm": 0.022912065091635514, "learning_rate": 0.0001, "loss": 0.8944, "step": 6507 }, { "epoch": 1.1470933333333333, "grad_norm": 0.023550044758622185, "learning_rate": 0.0001, "loss": 1.0068, "step": 6508 }, { "epoch": 1.1471466666666668, "grad_norm": 0.02437685621960573, "learning_rate": 0.0001, "loss": 0.9635, "step": 6509 }, { "epoch": 1.1472, "grad_norm": 0.023020106408630357, "learning_rate": 0.0001, "loss": 0.9811, "step": 6510 }, { "epoch": 1.1472533333333335, "grad_norm": 0.023499942005013333, "learning_rate": 0.0001, "loss": 0.9364, "step": 6511 }, { "epoch": 1.1473066666666667, "grad_norm": 0.02433521907324269, "learning_rate": 0.0001, "loss": 0.9787, "step": 6512 }, { "epoch": 1.14736, "grad_norm": 0.023361039305131306, "learning_rate": 0.0001, "loss": 1.013, "step": 6513 }, { "epoch": 1.1474133333333334, "grad_norm": 0.02349550391626517, "learning_rate": 0.0001, "loss": 1.0361, "step": 6514 }, { "epoch": 1.1474666666666666, "grad_norm": 0.023188368545517035, "learning_rate": 0.0001, "loss": 0.9571, "step": 6515 }, { "epoch": 1.14752, "grad_norm": 0.023925489251371505, "learning_rate": 0.0001, "loss": 0.9621, "step": 6516 }, { "epoch": 1.1475733333333333, "grad_norm": 0.023530586042873496, "learning_rate": 0.0001, "loss": 1.001, "step": 6517 }, { "epoch": 1.1476266666666666, "grad_norm": 0.025680789849237613, "learning_rate": 0.0001, "loss": 0.932, "step": 6518 }, { "epoch": 1.14768, "grad_norm": 0.02206243035409006, "learning_rate": 0.0001, "loss": 0.9282, "step": 6519 }, { "epoch": 1.1477333333333333, "grad_norm": 0.024085432440633728, "learning_rate": 0.0001, "loss": 1.0068, "step": 6520 }, { "epoch": 1.1477866666666667, "grad_norm": 0.02601724951316796, "learning_rate": 0.0001, "loss": 0.9704, "step": 6521 }, { "epoch": 1.14784, "grad_norm": 0.023835719266824797, "learning_rate": 0.0001, "loss": 0.9702, "step": 6522 }, { "epoch": 1.1478933333333332, "grad_norm": 0.024466475909952202, "learning_rate": 0.0001, "loss": 0.9515, "step": 6523 }, { "epoch": 1.1479466666666667, "grad_norm": 0.02346614193503451, "learning_rate": 0.0001, "loss": 0.9558, "step": 6524 }, { "epoch": 1.148, "grad_norm": 0.0246519352945607, "learning_rate": 0.0001, "loss": 1.0059, "step": 6525 }, { "epoch": 1.1480533333333334, "grad_norm": 0.023957835448706596, "learning_rate": 0.0001, "loss": 0.9558, "step": 6526 }, { "epoch": 1.1481066666666666, "grad_norm": 0.025356871198898238, "learning_rate": 0.0001, "loss": 0.9759, "step": 6527 }, { "epoch": 1.14816, "grad_norm": 0.025196456303498573, "learning_rate": 0.0001, "loss": 1.0025, "step": 6528 }, { "epoch": 1.1482133333333333, "grad_norm": 0.022577758967935672, "learning_rate": 0.0001, "loss": 0.9842, "step": 6529 }, { "epoch": 1.1482666666666668, "grad_norm": 0.025320586773826537, "learning_rate": 0.0001, "loss": 0.9468, "step": 6530 }, { "epoch": 1.14832, "grad_norm": 0.025790845070898384, "learning_rate": 0.0001, "loss": 0.9916, "step": 6531 }, { "epoch": 1.1483733333333332, "grad_norm": 0.026214572636302565, "learning_rate": 0.0001, "loss": 0.9916, "step": 6532 }, { "epoch": 1.1484266666666667, "grad_norm": 0.02778101246498952, "learning_rate": 0.0001, "loss": 0.9813, "step": 6533 }, { "epoch": 1.14848, "grad_norm": 0.029227215777425954, "learning_rate": 0.0001, "loss": 0.9325, "step": 6534 }, { "epoch": 1.1485333333333334, "grad_norm": 0.026143989103516205, "learning_rate": 0.0001, "loss": 0.9432, "step": 6535 }, { "epoch": 1.1485866666666666, "grad_norm": 0.026800934632167667, "learning_rate": 0.0001, "loss": 0.9355, "step": 6536 }, { "epoch": 1.1486399999999999, "grad_norm": 0.02570530826545334, "learning_rate": 0.0001, "loss": 1.0399, "step": 6537 }, { "epoch": 1.1486933333333333, "grad_norm": 0.02607260547962967, "learning_rate": 0.0001, "loss": 0.9734, "step": 6538 }, { "epoch": 1.1487466666666666, "grad_norm": 0.02527239194893959, "learning_rate": 0.0001, "loss": 0.978, "step": 6539 }, { "epoch": 1.1488, "grad_norm": 0.024622948896999185, "learning_rate": 0.0001, "loss": 0.9534, "step": 6540 }, { "epoch": 1.1488533333333333, "grad_norm": 0.024031334157241475, "learning_rate": 0.0001, "loss": 0.9334, "step": 6541 }, { "epoch": 1.1489066666666667, "grad_norm": 0.025183808606017023, "learning_rate": 0.0001, "loss": 0.975, "step": 6542 }, { "epoch": 1.14896, "grad_norm": 0.022826426632463336, "learning_rate": 0.0001, "loss": 0.9324, "step": 6543 }, { "epoch": 1.1490133333333334, "grad_norm": 0.02601362134779363, "learning_rate": 0.0001, "loss": 0.9457, "step": 6544 }, { "epoch": 1.1490666666666667, "grad_norm": 0.022914594037116848, "learning_rate": 0.0001, "loss": 0.9824, "step": 6545 }, { "epoch": 1.14912, "grad_norm": 0.026569463866633426, "learning_rate": 0.0001, "loss": 0.9211, "step": 6546 }, { "epoch": 1.1491733333333334, "grad_norm": 0.024708495921582897, "learning_rate": 0.0001, "loss": 0.9865, "step": 6547 }, { "epoch": 1.1492266666666666, "grad_norm": 0.02289010096352404, "learning_rate": 0.0001, "loss": 0.9494, "step": 6548 }, { "epoch": 1.14928, "grad_norm": 0.02412196770094686, "learning_rate": 0.0001, "loss": 1.0216, "step": 6549 }, { "epoch": 1.1493333333333333, "grad_norm": 0.026461401742204092, "learning_rate": 0.0001, "loss": 0.982, "step": 6550 }, { "epoch": 1.1493866666666666, "grad_norm": 0.024682570180443824, "learning_rate": 0.0001, "loss": 0.9235, "step": 6551 }, { "epoch": 1.14944, "grad_norm": 0.025761971834890728, "learning_rate": 0.0001, "loss": 0.9646, "step": 6552 }, { "epoch": 1.1494933333333333, "grad_norm": 0.02491818537545462, "learning_rate": 0.0001, "loss": 0.976, "step": 6553 }, { "epoch": 1.1495466666666667, "grad_norm": 0.022474684921744138, "learning_rate": 0.0001, "loss": 0.9554, "step": 6554 }, { "epoch": 1.1496, "grad_norm": 0.025510344137265384, "learning_rate": 0.0001, "loss": 0.9513, "step": 6555 }, { "epoch": 1.1496533333333334, "grad_norm": 0.024089799558805965, "learning_rate": 0.0001, "loss": 1.0108, "step": 6556 }, { "epoch": 1.1497066666666667, "grad_norm": 0.023429502003994126, "learning_rate": 0.0001, "loss": 0.9773, "step": 6557 }, { "epoch": 1.1497600000000001, "grad_norm": 0.02605308549672868, "learning_rate": 0.0001, "loss": 1.0229, "step": 6558 }, { "epoch": 1.1498133333333334, "grad_norm": 0.02493382504306148, "learning_rate": 0.0001, "loss": 0.9566, "step": 6559 }, { "epoch": 1.1498666666666666, "grad_norm": 0.02494106633479154, "learning_rate": 0.0001, "loss": 0.9397, "step": 6560 }, { "epoch": 1.14992, "grad_norm": 0.0237230030892974, "learning_rate": 0.0001, "loss": 0.938, "step": 6561 }, { "epoch": 1.1499733333333333, "grad_norm": 0.027551523394725864, "learning_rate": 0.0001, "loss": 0.9665, "step": 6562 }, { "epoch": 1.1500266666666668, "grad_norm": 0.026287569951938292, "learning_rate": 0.0001, "loss": 0.9636, "step": 6563 }, { "epoch": 1.15008, "grad_norm": 0.02466922380435168, "learning_rate": 0.0001, "loss": 0.9065, "step": 6564 }, { "epoch": 1.1501333333333332, "grad_norm": 0.024792417928977024, "learning_rate": 0.0001, "loss": 0.9272, "step": 6565 }, { "epoch": 1.1501866666666667, "grad_norm": 0.023146882199210732, "learning_rate": 0.0001, "loss": 0.9351, "step": 6566 }, { "epoch": 1.15024, "grad_norm": 0.02391134126206135, "learning_rate": 0.0001, "loss": 0.9281, "step": 6567 }, { "epoch": 1.1502933333333334, "grad_norm": 0.02419470292797179, "learning_rate": 0.0001, "loss": 1.0248, "step": 6568 }, { "epoch": 1.1503466666666666, "grad_norm": 0.0259392224639489, "learning_rate": 0.0001, "loss": 0.9384, "step": 6569 }, { "epoch": 1.1504, "grad_norm": 0.02457985099412832, "learning_rate": 0.0001, "loss": 0.912, "step": 6570 }, { "epoch": 1.1504533333333333, "grad_norm": 0.024789087271685287, "learning_rate": 0.0001, "loss": 1.0519, "step": 6571 }, { "epoch": 1.1505066666666668, "grad_norm": 0.022801421251511522, "learning_rate": 0.0001, "loss": 0.9952, "step": 6572 }, { "epoch": 1.15056, "grad_norm": 0.027157772337033287, "learning_rate": 0.0001, "loss": 0.9841, "step": 6573 }, { "epoch": 1.1506133333333333, "grad_norm": 0.02578697495754335, "learning_rate": 0.0001, "loss": 0.957, "step": 6574 }, { "epoch": 1.1506666666666667, "grad_norm": 0.026058724488998573, "learning_rate": 0.0001, "loss": 0.9802, "step": 6575 }, { "epoch": 1.15072, "grad_norm": 0.02448413207365997, "learning_rate": 0.0001, "loss": 1.0111, "step": 6576 }, { "epoch": 1.1507733333333334, "grad_norm": 0.02531909791909078, "learning_rate": 0.0001, "loss": 0.9475, "step": 6577 }, { "epoch": 1.1508266666666667, "grad_norm": 0.025250348525291927, "learning_rate": 0.0001, "loss": 0.9266, "step": 6578 }, { "epoch": 1.15088, "grad_norm": 0.024367898817617775, "learning_rate": 0.0001, "loss": 0.9763, "step": 6579 }, { "epoch": 1.1509333333333334, "grad_norm": 0.022941274013515697, "learning_rate": 0.0001, "loss": 0.9067, "step": 6580 }, { "epoch": 1.1509866666666666, "grad_norm": 0.025401242515354912, "learning_rate": 0.0001, "loss": 0.9282, "step": 6581 }, { "epoch": 1.15104, "grad_norm": 0.025252217500779817, "learning_rate": 0.0001, "loss": 0.9567, "step": 6582 }, { "epoch": 1.1510933333333333, "grad_norm": 0.026100053640574113, "learning_rate": 0.0001, "loss": 0.9286, "step": 6583 }, { "epoch": 1.1511466666666668, "grad_norm": 0.023477332458554143, "learning_rate": 0.0001, "loss": 0.9582, "step": 6584 }, { "epoch": 1.1512, "grad_norm": 0.025207468179386665, "learning_rate": 0.0001, "loss": 0.9449, "step": 6585 }, { "epoch": 1.1512533333333332, "grad_norm": 0.023516184052322243, "learning_rate": 0.0001, "loss": 0.9704, "step": 6586 }, { "epoch": 1.1513066666666667, "grad_norm": 0.023397108691315196, "learning_rate": 0.0001, "loss": 1.0043, "step": 6587 }, { "epoch": 1.15136, "grad_norm": 0.022965549978050906, "learning_rate": 0.0001, "loss": 0.9922, "step": 6588 }, { "epoch": 1.1514133333333334, "grad_norm": 0.02455438351433295, "learning_rate": 0.0001, "loss": 1.0218, "step": 6589 }, { "epoch": 1.1514666666666666, "grad_norm": 0.023901640922966563, "learning_rate": 0.0001, "loss": 1.021, "step": 6590 }, { "epoch": 1.15152, "grad_norm": 0.0238877577869763, "learning_rate": 0.0001, "loss": 1.0018, "step": 6591 }, { "epoch": 1.1515733333333333, "grad_norm": 0.024498444089627806, "learning_rate": 0.0001, "loss": 0.9654, "step": 6592 }, { "epoch": 1.1516266666666666, "grad_norm": 0.023221026861027817, "learning_rate": 0.0001, "loss": 0.9603, "step": 6593 }, { "epoch": 1.15168, "grad_norm": 0.02545193559111799, "learning_rate": 0.0001, "loss": 0.9919, "step": 6594 }, { "epoch": 1.1517333333333333, "grad_norm": 0.023714847895212304, "learning_rate": 0.0001, "loss": 0.9931, "step": 6595 }, { "epoch": 1.1517866666666667, "grad_norm": 0.023824854502992807, "learning_rate": 0.0001, "loss": 0.9443, "step": 6596 }, { "epoch": 1.15184, "grad_norm": 0.024011579161169, "learning_rate": 0.0001, "loss": 1.0311, "step": 6597 }, { "epoch": 1.1518933333333332, "grad_norm": 0.026070580171742717, "learning_rate": 0.0001, "loss": 0.9745, "step": 6598 }, { "epoch": 1.1519466666666667, "grad_norm": 0.024221968036371968, "learning_rate": 0.0001, "loss": 0.9662, "step": 6599 }, { "epoch": 1.152, "grad_norm": 0.02490220472698781, "learning_rate": 0.0001, "loss": 0.9681, "step": 6600 }, { "epoch": 1.152, "eval_accuracy": 0.6187920197091642, "eval_loss": 1.3618242740631104, "eval_runtime": 63.0885, "eval_samples_per_second": 15.851, "eval_steps_per_second": 0.507, "step": 6600 }, { "epoch": 1.1520533333333334, "grad_norm": 0.02681574735612942, "learning_rate": 0.0001, "loss": 1.015, "step": 6601 }, { "epoch": 1.1521066666666666, "grad_norm": 0.02316386123720833, "learning_rate": 0.0001, "loss": 0.9487, "step": 6602 }, { "epoch": 1.15216, "grad_norm": 0.022079226409837536, "learning_rate": 0.0001, "loss": 0.9847, "step": 6603 }, { "epoch": 1.1522133333333333, "grad_norm": 0.024474126703930225, "learning_rate": 0.0001, "loss": 1.0127, "step": 6604 }, { "epoch": 1.1522666666666668, "grad_norm": 0.023059630237737966, "learning_rate": 0.0001, "loss": 0.956, "step": 6605 }, { "epoch": 1.15232, "grad_norm": 0.022753099800981533, "learning_rate": 0.0001, "loss": 1.0168, "step": 6606 }, { "epoch": 1.1523733333333332, "grad_norm": 0.023306622965100554, "learning_rate": 0.0001, "loss": 0.9778, "step": 6607 }, { "epoch": 1.1524266666666667, "grad_norm": 0.024389405841714465, "learning_rate": 0.0001, "loss": 0.9492, "step": 6608 }, { "epoch": 1.15248, "grad_norm": 0.022542361602212704, "learning_rate": 0.0001, "loss": 0.8738, "step": 6609 }, { "epoch": 1.1525333333333334, "grad_norm": 0.02523455688753056, "learning_rate": 0.0001, "loss": 0.9709, "step": 6610 }, { "epoch": 1.1525866666666666, "grad_norm": 0.023527734075283344, "learning_rate": 0.0001, "loss": 0.9204, "step": 6611 }, { "epoch": 1.1526399999999999, "grad_norm": 0.026293045044547953, "learning_rate": 0.0001, "loss": 0.973, "step": 6612 }, { "epoch": 1.1526933333333333, "grad_norm": 0.023450274173306924, "learning_rate": 0.0001, "loss": 0.975, "step": 6613 }, { "epoch": 1.1527466666666666, "grad_norm": 0.025296651318137423, "learning_rate": 0.0001, "loss": 1.0007, "step": 6614 }, { "epoch": 1.1528, "grad_norm": 0.024570294752925253, "learning_rate": 0.0001, "loss": 1.0134, "step": 6615 }, { "epoch": 1.1528533333333333, "grad_norm": 0.026160515623017612, "learning_rate": 0.0001, "loss": 0.9605, "step": 6616 }, { "epoch": 1.1529066666666667, "grad_norm": 0.026959672772016864, "learning_rate": 0.0001, "loss": 0.9995, "step": 6617 }, { "epoch": 1.15296, "grad_norm": 0.024764385568375496, "learning_rate": 0.0001, "loss": 0.9513, "step": 6618 }, { "epoch": 1.1530133333333334, "grad_norm": 0.025177220508616985, "learning_rate": 0.0001, "loss": 0.9392, "step": 6619 }, { "epoch": 1.1530666666666667, "grad_norm": 0.024626062041971035, "learning_rate": 0.0001, "loss": 0.9652, "step": 6620 }, { "epoch": 1.15312, "grad_norm": 0.02321121091019076, "learning_rate": 0.0001, "loss": 1.0186, "step": 6621 }, { "epoch": 1.1531733333333334, "grad_norm": 0.025418163371526904, "learning_rate": 0.0001, "loss": 0.9772, "step": 6622 }, { "epoch": 1.1532266666666666, "grad_norm": 0.02483514504858228, "learning_rate": 0.0001, "loss": 0.9835, "step": 6623 }, { "epoch": 1.15328, "grad_norm": 0.02533069025999774, "learning_rate": 0.0001, "loss": 0.9427, "step": 6624 }, { "epoch": 1.1533333333333333, "grad_norm": 0.025779558051919935, "learning_rate": 0.0001, "loss": 0.9635, "step": 6625 }, { "epoch": 1.1533866666666666, "grad_norm": 0.02478076883524867, "learning_rate": 0.0001, "loss": 0.9274, "step": 6626 }, { "epoch": 1.15344, "grad_norm": 0.02458587851409054, "learning_rate": 0.0001, "loss": 1.0882, "step": 6627 }, { "epoch": 1.1534933333333333, "grad_norm": 0.02552687062401559, "learning_rate": 0.0001, "loss": 0.9953, "step": 6628 }, { "epoch": 1.1535466666666667, "grad_norm": 0.025226401238378972, "learning_rate": 0.0001, "loss": 0.9787, "step": 6629 }, { "epoch": 1.1536, "grad_norm": 0.026583227932106088, "learning_rate": 0.0001, "loss": 0.9227, "step": 6630 }, { "epoch": 1.1536533333333334, "grad_norm": 0.025985941038839444, "learning_rate": 0.0001, "loss": 0.9794, "step": 6631 }, { "epoch": 1.1537066666666667, "grad_norm": 0.02576833780213717, "learning_rate": 0.0001, "loss": 0.953, "step": 6632 }, { "epoch": 1.1537600000000001, "grad_norm": 0.02326610259177104, "learning_rate": 0.0001, "loss": 1.016, "step": 6633 }, { "epoch": 1.1538133333333334, "grad_norm": 0.024512508513019143, "learning_rate": 0.0001, "loss": 0.9722, "step": 6634 }, { "epoch": 1.1538666666666666, "grad_norm": 0.024556098288469653, "learning_rate": 0.0001, "loss": 0.9837, "step": 6635 }, { "epoch": 1.15392, "grad_norm": 0.024907860117939294, "learning_rate": 0.0001, "loss": 0.9854, "step": 6636 }, { "epoch": 1.1539733333333333, "grad_norm": 0.023010305013432944, "learning_rate": 0.0001, "loss": 0.9984, "step": 6637 }, { "epoch": 1.1540266666666668, "grad_norm": 0.02529927266900219, "learning_rate": 0.0001, "loss": 0.9484, "step": 6638 }, { "epoch": 1.15408, "grad_norm": 0.025167824376891627, "learning_rate": 0.0001, "loss": 0.9023, "step": 6639 }, { "epoch": 1.1541333333333332, "grad_norm": 0.02498633707045491, "learning_rate": 0.0001, "loss": 1.0032, "step": 6640 }, { "epoch": 1.1541866666666667, "grad_norm": 0.02469310317487284, "learning_rate": 0.0001, "loss": 0.9958, "step": 6641 }, { "epoch": 1.15424, "grad_norm": 0.02405218733694939, "learning_rate": 0.0001, "loss": 0.9753, "step": 6642 }, { "epoch": 1.1542933333333334, "grad_norm": 0.024416761138041046, "learning_rate": 0.0001, "loss": 0.9497, "step": 6643 }, { "epoch": 1.1543466666666666, "grad_norm": 0.026183111837989388, "learning_rate": 0.0001, "loss": 0.995, "step": 6644 }, { "epoch": 1.1544, "grad_norm": 0.025734452222214824, "learning_rate": 0.0001, "loss": 0.9907, "step": 6645 }, { "epoch": 1.1544533333333333, "grad_norm": 0.023964814495660826, "learning_rate": 0.0001, "loss": 0.9435, "step": 6646 }, { "epoch": 1.1545066666666666, "grad_norm": 0.025161657107320788, "learning_rate": 0.0001, "loss": 1.0056, "step": 6647 }, { "epoch": 1.15456, "grad_norm": 0.025325893747624898, "learning_rate": 0.0001, "loss": 1.0019, "step": 6648 }, { "epoch": 1.1546133333333333, "grad_norm": 0.023037455932354095, "learning_rate": 0.0001, "loss": 0.9507, "step": 6649 }, { "epoch": 1.1546666666666667, "grad_norm": 0.022934014635574533, "learning_rate": 0.0001, "loss": 0.8957, "step": 6650 }, { "epoch": 1.15472, "grad_norm": 0.022841082480548055, "learning_rate": 0.0001, "loss": 0.9956, "step": 6651 }, { "epoch": 1.1547733333333334, "grad_norm": 0.025401130161224465, "learning_rate": 0.0001, "loss": 0.9466, "step": 6652 }, { "epoch": 1.1548266666666667, "grad_norm": 0.025910368205511593, "learning_rate": 0.0001, "loss": 0.9555, "step": 6653 }, { "epoch": 1.15488, "grad_norm": 0.022927783161798783, "learning_rate": 0.0001, "loss": 1.0365, "step": 6654 }, { "epoch": 1.1549333333333334, "grad_norm": 0.02421604138452636, "learning_rate": 0.0001, "loss": 0.9873, "step": 6655 }, { "epoch": 1.1549866666666666, "grad_norm": 0.02491107978717869, "learning_rate": 0.0001, "loss": 1.0226, "step": 6656 }, { "epoch": 1.15504, "grad_norm": 0.02381233490051453, "learning_rate": 0.0001, "loss": 1.0365, "step": 6657 }, { "epoch": 1.1550933333333333, "grad_norm": 0.02566985688871368, "learning_rate": 0.0001, "loss": 0.9828, "step": 6658 }, { "epoch": 1.1551466666666665, "grad_norm": 0.02453976627830089, "learning_rate": 0.0001, "loss": 0.9829, "step": 6659 }, { "epoch": 1.1552, "grad_norm": 0.023130529525161335, "learning_rate": 0.0001, "loss": 0.9652, "step": 6660 }, { "epoch": 1.1552533333333332, "grad_norm": 0.02438143602417584, "learning_rate": 0.0001, "loss": 1.0089, "step": 6661 }, { "epoch": 1.1553066666666667, "grad_norm": 0.023840711122616806, "learning_rate": 0.0001, "loss": 0.9549, "step": 6662 }, { "epoch": 1.15536, "grad_norm": 0.02426873837192867, "learning_rate": 0.0001, "loss": 1.0094, "step": 6663 }, { "epoch": 1.1554133333333334, "grad_norm": 0.023640207409555032, "learning_rate": 0.0001, "loss": 1.0187, "step": 6664 }, { "epoch": 1.1554666666666666, "grad_norm": 0.025151657205243483, "learning_rate": 0.0001, "loss": 0.9367, "step": 6665 }, { "epoch": 1.15552, "grad_norm": 0.0246709798450016, "learning_rate": 0.0001, "loss": 0.9523, "step": 6666 }, { "epoch": 1.1555733333333333, "grad_norm": 0.024386267801024486, "learning_rate": 0.0001, "loss": 0.9936, "step": 6667 }, { "epoch": 1.1556266666666666, "grad_norm": 0.028029161139705657, "learning_rate": 0.0001, "loss": 1.0325, "step": 6668 }, { "epoch": 1.15568, "grad_norm": 0.0251600175871147, "learning_rate": 0.0001, "loss": 0.9249, "step": 6669 }, { "epoch": 1.1557333333333333, "grad_norm": 0.025063810452516853, "learning_rate": 0.0001, "loss": 0.9535, "step": 6670 }, { "epoch": 1.1557866666666667, "grad_norm": 0.024347109069295315, "learning_rate": 0.0001, "loss": 1.0058, "step": 6671 }, { "epoch": 1.15584, "grad_norm": 0.023477718494469956, "learning_rate": 0.0001, "loss": 0.9756, "step": 6672 }, { "epoch": 1.1558933333333332, "grad_norm": 0.023613233829705572, "learning_rate": 0.0001, "loss": 0.9845, "step": 6673 }, { "epoch": 1.1559466666666667, "grad_norm": 0.026643071339694187, "learning_rate": 0.0001, "loss": 0.9793, "step": 6674 }, { "epoch": 1.156, "grad_norm": 0.023715502301693225, "learning_rate": 0.0001, "loss": 0.9632, "step": 6675 }, { "epoch": 1.1560533333333334, "grad_norm": 0.02579218870250928, "learning_rate": 0.0001, "loss": 0.9689, "step": 6676 }, { "epoch": 1.1561066666666666, "grad_norm": 0.02409052319374008, "learning_rate": 0.0001, "loss": 0.9779, "step": 6677 }, { "epoch": 1.15616, "grad_norm": 0.025348229735358763, "learning_rate": 0.0001, "loss": 0.9953, "step": 6678 }, { "epoch": 1.1562133333333333, "grad_norm": 0.022797765031446923, "learning_rate": 0.0001, "loss": 0.9701, "step": 6679 }, { "epoch": 1.1562666666666668, "grad_norm": 0.024560274801067615, "learning_rate": 0.0001, "loss": 0.925, "step": 6680 }, { "epoch": 1.15632, "grad_norm": 0.026740742300532045, "learning_rate": 0.0001, "loss": 0.9262, "step": 6681 }, { "epoch": 1.1563733333333333, "grad_norm": 0.02367491683210547, "learning_rate": 0.0001, "loss": 0.9405, "step": 6682 }, { "epoch": 1.1564266666666667, "grad_norm": 0.025256979261666264, "learning_rate": 0.0001, "loss": 0.9439, "step": 6683 }, { "epoch": 1.15648, "grad_norm": 0.026238227631546856, "learning_rate": 0.0001, "loss": 0.999, "step": 6684 }, { "epoch": 1.1565333333333334, "grad_norm": 0.023679122923234975, "learning_rate": 0.0001, "loss": 0.9595, "step": 6685 }, { "epoch": 1.1565866666666667, "grad_norm": 0.024783535989638884, "learning_rate": 0.0001, "loss": 1.0574, "step": 6686 }, { "epoch": 1.15664, "grad_norm": 0.023462152972487424, "learning_rate": 0.0001, "loss": 0.9817, "step": 6687 }, { "epoch": 1.1566933333333334, "grad_norm": 0.02317828703131758, "learning_rate": 0.0001, "loss": 0.9566, "step": 6688 }, { "epoch": 1.1567466666666666, "grad_norm": 0.02384659077239771, "learning_rate": 0.0001, "loss": 0.983, "step": 6689 }, { "epoch": 1.1568, "grad_norm": 0.024586162071671518, "learning_rate": 0.0001, "loss": 0.986, "step": 6690 }, { "epoch": 1.1568533333333333, "grad_norm": 0.02325862326335573, "learning_rate": 0.0001, "loss": 0.9182, "step": 6691 }, { "epoch": 1.1569066666666667, "grad_norm": 0.022816935764298003, "learning_rate": 0.0001, "loss": 0.9572, "step": 6692 }, { "epoch": 1.15696, "grad_norm": 0.02509453372144507, "learning_rate": 0.0001, "loss": 0.9611, "step": 6693 }, { "epoch": 1.1570133333333334, "grad_norm": 0.024894364388052276, "learning_rate": 0.0001, "loss": 0.9652, "step": 6694 }, { "epoch": 1.1570666666666667, "grad_norm": 0.02346428810787568, "learning_rate": 0.0001, "loss": 0.9657, "step": 6695 }, { "epoch": 1.15712, "grad_norm": 0.025702337788562842, "learning_rate": 0.0001, "loss": 0.9673, "step": 6696 }, { "epoch": 1.1571733333333334, "grad_norm": 0.02280313859506297, "learning_rate": 0.0001, "loss": 0.9876, "step": 6697 }, { "epoch": 1.1572266666666666, "grad_norm": 0.023950956036274132, "learning_rate": 0.0001, "loss": 0.9255, "step": 6698 }, { "epoch": 1.15728, "grad_norm": 0.022286680455545906, "learning_rate": 0.0001, "loss": 0.918, "step": 6699 }, { "epoch": 1.1573333333333333, "grad_norm": 0.024543632291675138, "learning_rate": 0.0001, "loss": 0.9607, "step": 6700 }, { "epoch": 1.1573866666666666, "grad_norm": 0.02284178046748654, "learning_rate": 0.0001, "loss": 0.9691, "step": 6701 }, { "epoch": 1.15744, "grad_norm": 0.02371067787630345, "learning_rate": 0.0001, "loss": 0.9801, "step": 6702 }, { "epoch": 1.1574933333333333, "grad_norm": 0.02238934045449395, "learning_rate": 0.0001, "loss": 1.069, "step": 6703 }, { "epoch": 1.1575466666666667, "grad_norm": 0.023930879059137874, "learning_rate": 0.0001, "loss": 0.9849, "step": 6704 }, { "epoch": 1.1576, "grad_norm": 0.02368050825613908, "learning_rate": 0.0001, "loss": 0.994, "step": 6705 }, { "epoch": 1.1576533333333334, "grad_norm": 0.02598800634448165, "learning_rate": 0.0001, "loss": 0.9605, "step": 6706 }, { "epoch": 1.1577066666666667, "grad_norm": 0.022896145288164537, "learning_rate": 0.0001, "loss": 0.9891, "step": 6707 }, { "epoch": 1.1577600000000001, "grad_norm": 0.02217140530004076, "learning_rate": 0.0001, "loss": 0.9889, "step": 6708 }, { "epoch": 1.1578133333333334, "grad_norm": 0.02324111028355882, "learning_rate": 0.0001, "loss": 1.0143, "step": 6709 }, { "epoch": 1.1578666666666666, "grad_norm": 0.023470606659583337, "learning_rate": 0.0001, "loss": 0.9664, "step": 6710 }, { "epoch": 1.15792, "grad_norm": 0.02354685528105356, "learning_rate": 0.0001, "loss": 0.9408, "step": 6711 }, { "epoch": 1.1579733333333333, "grad_norm": 0.023038108734933775, "learning_rate": 0.0001, "loss": 0.9384, "step": 6712 }, { "epoch": 1.1580266666666668, "grad_norm": 0.022799613526409853, "learning_rate": 0.0001, "loss": 0.9567, "step": 6713 }, { "epoch": 1.15808, "grad_norm": 0.02483319800406582, "learning_rate": 0.0001, "loss": 0.9788, "step": 6714 }, { "epoch": 1.1581333333333332, "grad_norm": 0.02458537984034475, "learning_rate": 0.0001, "loss": 0.9578, "step": 6715 }, { "epoch": 1.1581866666666667, "grad_norm": 0.0255967675340945, "learning_rate": 0.0001, "loss": 1.069, "step": 6716 }, { "epoch": 1.15824, "grad_norm": 0.02513012135986171, "learning_rate": 0.0001, "loss": 0.9712, "step": 6717 }, { "epoch": 1.1582933333333334, "grad_norm": 0.025185520533658915, "learning_rate": 0.0001, "loss": 0.9877, "step": 6718 }, { "epoch": 1.1583466666666666, "grad_norm": 0.024308462649660186, "learning_rate": 0.0001, "loss": 0.9566, "step": 6719 }, { "epoch": 1.1584, "grad_norm": 0.024099717681172052, "learning_rate": 0.0001, "loss": 0.9672, "step": 6720 }, { "epoch": 1.1584533333333333, "grad_norm": 0.024717733857271197, "learning_rate": 0.0001, "loss": 0.9466, "step": 6721 }, { "epoch": 1.1585066666666666, "grad_norm": 0.025837577766540904, "learning_rate": 0.0001, "loss": 0.9492, "step": 6722 }, { "epoch": 1.15856, "grad_norm": 0.02469704904498805, "learning_rate": 0.0001, "loss": 0.9653, "step": 6723 }, { "epoch": 1.1586133333333333, "grad_norm": 0.024979379101575754, "learning_rate": 0.0001, "loss": 0.9477, "step": 6724 }, { "epoch": 1.1586666666666667, "grad_norm": 0.02330719038819885, "learning_rate": 0.0001, "loss": 0.9487, "step": 6725 }, { "epoch": 1.15872, "grad_norm": 0.025963067809105865, "learning_rate": 0.0001, "loss": 0.9491, "step": 6726 }, { "epoch": 1.1587733333333334, "grad_norm": 0.024713506493982688, "learning_rate": 0.0001, "loss": 0.9786, "step": 6727 }, { "epoch": 1.1588266666666667, "grad_norm": 0.02557505412951673, "learning_rate": 0.0001, "loss": 0.923, "step": 6728 }, { "epoch": 1.15888, "grad_norm": 0.02554060899926736, "learning_rate": 0.0001, "loss": 0.9935, "step": 6729 }, { "epoch": 1.1589333333333334, "grad_norm": 0.024382217276963672, "learning_rate": 0.0001, "loss": 0.9702, "step": 6730 }, { "epoch": 1.1589866666666666, "grad_norm": 0.023434418912832444, "learning_rate": 0.0001, "loss": 0.9235, "step": 6731 }, { "epoch": 1.15904, "grad_norm": 0.023055971004936542, "learning_rate": 0.0001, "loss": 0.9827, "step": 6732 }, { "epoch": 1.1590933333333333, "grad_norm": 0.02444022689190192, "learning_rate": 0.0001, "loss": 0.9254, "step": 6733 }, { "epoch": 1.1591466666666665, "grad_norm": 0.024756066803880004, "learning_rate": 0.0001, "loss": 0.9987, "step": 6734 }, { "epoch": 1.1592, "grad_norm": 0.025505810218924313, "learning_rate": 0.0001, "loss": 0.9446, "step": 6735 }, { "epoch": 1.1592533333333332, "grad_norm": 0.0250278749121504, "learning_rate": 0.0001, "loss": 0.9349, "step": 6736 }, { "epoch": 1.1593066666666667, "grad_norm": 0.02369400943638701, "learning_rate": 0.0001, "loss": 0.9961, "step": 6737 }, { "epoch": 1.15936, "grad_norm": 0.027264245298889975, "learning_rate": 0.0001, "loss": 1.0096, "step": 6738 }, { "epoch": 1.1594133333333334, "grad_norm": 0.025862020906406925, "learning_rate": 0.0001, "loss": 0.9992, "step": 6739 }, { "epoch": 1.1594666666666666, "grad_norm": 0.025779465618282524, "learning_rate": 0.0001, "loss": 1.0029, "step": 6740 }, { "epoch": 1.15952, "grad_norm": 0.025760717974103148, "learning_rate": 0.0001, "loss": 0.904, "step": 6741 }, { "epoch": 1.1595733333333333, "grad_norm": 0.02671087012365056, "learning_rate": 0.0001, "loss": 0.9992, "step": 6742 }, { "epoch": 1.1596266666666666, "grad_norm": 0.02411154620435899, "learning_rate": 0.0001, "loss": 0.9874, "step": 6743 }, { "epoch": 1.15968, "grad_norm": 0.024832852138751676, "learning_rate": 0.0001, "loss": 0.9838, "step": 6744 }, { "epoch": 1.1597333333333333, "grad_norm": 0.02524391150546621, "learning_rate": 0.0001, "loss": 0.9693, "step": 6745 }, { "epoch": 1.1597866666666667, "grad_norm": 0.023225903559293277, "learning_rate": 0.0001, "loss": 1.0111, "step": 6746 }, { "epoch": 1.15984, "grad_norm": 0.023363006481142375, "learning_rate": 0.0001, "loss": 1.003, "step": 6747 }, { "epoch": 1.1598933333333332, "grad_norm": 0.026630361083169966, "learning_rate": 0.0001, "loss": 0.9601, "step": 6748 }, { "epoch": 1.1599466666666667, "grad_norm": 0.02588514356341218, "learning_rate": 0.0001, "loss": 1.0247, "step": 6749 }, { "epoch": 1.16, "grad_norm": 0.023510948315141448, "learning_rate": 0.0001, "loss": 0.9257, "step": 6750 }, { "epoch": 1.1600533333333334, "grad_norm": 0.023119031177599086, "learning_rate": 0.0001, "loss": 0.9475, "step": 6751 }, { "epoch": 1.1601066666666666, "grad_norm": 0.02416566706020812, "learning_rate": 0.0001, "loss": 0.9595, "step": 6752 }, { "epoch": 1.16016, "grad_norm": 0.024064125796787347, "learning_rate": 0.0001, "loss": 0.9965, "step": 6753 }, { "epoch": 1.1602133333333333, "grad_norm": 0.02316044555872088, "learning_rate": 0.0001, "loss": 0.9726, "step": 6754 }, { "epoch": 1.1602666666666668, "grad_norm": 0.023307302438562737, "learning_rate": 0.0001, "loss": 1.0042, "step": 6755 }, { "epoch": 1.16032, "grad_norm": 0.02412843703014275, "learning_rate": 0.0001, "loss": 0.9968, "step": 6756 }, { "epoch": 1.1603733333333333, "grad_norm": 0.02465822783408485, "learning_rate": 0.0001, "loss": 1.0325, "step": 6757 }, { "epoch": 1.1604266666666667, "grad_norm": 0.02426126103034757, "learning_rate": 0.0001, "loss": 1.0278, "step": 6758 }, { "epoch": 1.16048, "grad_norm": 0.02268615015155995, "learning_rate": 0.0001, "loss": 0.9176, "step": 6759 }, { "epoch": 1.1605333333333334, "grad_norm": 0.023806534321443154, "learning_rate": 0.0001, "loss": 0.9135, "step": 6760 }, { "epoch": 1.1605866666666667, "grad_norm": 0.02464580733945791, "learning_rate": 0.0001, "loss": 1.0033, "step": 6761 }, { "epoch": 1.16064, "grad_norm": 0.023134852126629916, "learning_rate": 0.0001, "loss": 0.9363, "step": 6762 }, { "epoch": 1.1606933333333334, "grad_norm": 0.025087351674112385, "learning_rate": 0.0001, "loss": 0.9472, "step": 6763 }, { "epoch": 1.1607466666666666, "grad_norm": 0.024185000293092073, "learning_rate": 0.0001, "loss": 0.9576, "step": 6764 }, { "epoch": 1.1608, "grad_norm": 0.027215027909494354, "learning_rate": 0.0001, "loss": 0.9932, "step": 6765 }, { "epoch": 1.1608533333333333, "grad_norm": 0.024311064497770044, "learning_rate": 0.0001, "loss": 0.9935, "step": 6766 }, { "epoch": 1.1609066666666668, "grad_norm": 0.024370406373202206, "learning_rate": 0.0001, "loss": 1.017, "step": 6767 }, { "epoch": 1.16096, "grad_norm": 0.024560597815670004, "learning_rate": 0.0001, "loss": 0.9541, "step": 6768 }, { "epoch": 1.1610133333333335, "grad_norm": 0.022564323148253275, "learning_rate": 0.0001, "loss": 0.9576, "step": 6769 }, { "epoch": 1.1610666666666667, "grad_norm": 0.02383699357386726, "learning_rate": 0.0001, "loss": 1.063, "step": 6770 }, { "epoch": 1.16112, "grad_norm": 0.022733237424625675, "learning_rate": 0.0001, "loss": 1.0301, "step": 6771 }, { "epoch": 1.1611733333333334, "grad_norm": 0.023993333043207107, "learning_rate": 0.0001, "loss": 0.9679, "step": 6772 }, { "epoch": 1.1612266666666666, "grad_norm": 0.0249792914778152, "learning_rate": 0.0001, "loss": 0.9383, "step": 6773 }, { "epoch": 1.16128, "grad_norm": 0.023512380596656515, "learning_rate": 0.0001, "loss": 0.9859, "step": 6774 }, { "epoch": 1.1613333333333333, "grad_norm": 0.023886438887930753, "learning_rate": 0.0001, "loss": 1.0324, "step": 6775 }, { "epoch": 1.1613866666666666, "grad_norm": 0.023332776464137086, "learning_rate": 0.0001, "loss": 0.975, "step": 6776 }, { "epoch": 1.16144, "grad_norm": 0.027051239093929924, "learning_rate": 0.0001, "loss": 0.9951, "step": 6777 }, { "epoch": 1.1614933333333333, "grad_norm": 0.02510530058436534, "learning_rate": 0.0001, "loss": 0.9661, "step": 6778 }, { "epoch": 1.1615466666666667, "grad_norm": 0.024795774949340644, "learning_rate": 0.0001, "loss": 1.0203, "step": 6779 }, { "epoch": 1.1616, "grad_norm": 0.025327692507891842, "learning_rate": 0.0001, "loss": 1.0499, "step": 6780 }, { "epoch": 1.1616533333333334, "grad_norm": 0.02333609234988742, "learning_rate": 0.0001, "loss": 1.0085, "step": 6781 }, { "epoch": 1.1617066666666667, "grad_norm": 0.025248014964175235, "learning_rate": 0.0001, "loss": 0.961, "step": 6782 }, { "epoch": 1.16176, "grad_norm": 0.022971478698517053, "learning_rate": 0.0001, "loss": 0.987, "step": 6783 }, { "epoch": 1.1618133333333334, "grad_norm": 0.025394638363275688, "learning_rate": 0.0001, "loss": 1.0367, "step": 6784 }, { "epoch": 1.1618666666666666, "grad_norm": 0.023907325657261252, "learning_rate": 0.0001, "loss": 0.9085, "step": 6785 }, { "epoch": 1.16192, "grad_norm": 0.02310338173572221, "learning_rate": 0.0001, "loss": 0.9689, "step": 6786 }, { "epoch": 1.1619733333333333, "grad_norm": 0.022854128729296475, "learning_rate": 0.0001, "loss": 0.9358, "step": 6787 }, { "epoch": 1.1620266666666668, "grad_norm": 0.025124368509005925, "learning_rate": 0.0001, "loss": 0.9157, "step": 6788 }, { "epoch": 1.16208, "grad_norm": 0.023521588399528788, "learning_rate": 0.0001, "loss": 1.0082, "step": 6789 }, { "epoch": 1.1621333333333332, "grad_norm": 0.023956631005886662, "learning_rate": 0.0001, "loss": 0.9368, "step": 6790 }, { "epoch": 1.1621866666666667, "grad_norm": 0.02430665131364572, "learning_rate": 0.0001, "loss": 0.9429, "step": 6791 }, { "epoch": 1.16224, "grad_norm": 0.023441320906224705, "learning_rate": 0.0001, "loss": 0.9404, "step": 6792 }, { "epoch": 1.1622933333333334, "grad_norm": 0.025384153358528342, "learning_rate": 0.0001, "loss": 1.0574, "step": 6793 }, { "epoch": 1.1623466666666666, "grad_norm": 0.023361502498296643, "learning_rate": 0.0001, "loss": 0.9582, "step": 6794 }, { "epoch": 1.1623999999999999, "grad_norm": 0.02334050237055876, "learning_rate": 0.0001, "loss": 1.0186, "step": 6795 }, { "epoch": 1.1624533333333333, "grad_norm": 0.024414647872995573, "learning_rate": 0.0001, "loss": 0.9598, "step": 6796 }, { "epoch": 1.1625066666666666, "grad_norm": 0.025803137214703908, "learning_rate": 0.0001, "loss": 0.9362, "step": 6797 }, { "epoch": 1.16256, "grad_norm": 0.02429271628218668, "learning_rate": 0.0001, "loss": 0.9734, "step": 6798 }, { "epoch": 1.1626133333333333, "grad_norm": 0.024798230675014306, "learning_rate": 0.0001, "loss": 0.9345, "step": 6799 }, { "epoch": 1.1626666666666667, "grad_norm": 0.02535884039837735, "learning_rate": 0.0001, "loss": 1.0043, "step": 6800 }, { "epoch": 1.1626666666666667, "eval_accuracy": 0.6190252319781903, "eval_loss": 1.360657811164856, "eval_runtime": 62.6493, "eval_samples_per_second": 15.962, "eval_steps_per_second": 0.511, "step": 6800 }, { "epoch": 1.16272, "grad_norm": 0.025767012831928508, "learning_rate": 0.0001, "loss": 1.0014, "step": 6801 }, { "epoch": 1.1627733333333334, "grad_norm": 0.024786011083867892, "learning_rate": 0.0001, "loss": 1.0004, "step": 6802 }, { "epoch": 1.1628266666666667, "grad_norm": 0.026476127410031775, "learning_rate": 0.0001, "loss": 0.9408, "step": 6803 }, { "epoch": 1.16288, "grad_norm": 0.026785218272879725, "learning_rate": 0.0001, "loss": 0.9432, "step": 6804 }, { "epoch": 1.1629333333333334, "grad_norm": 0.0281722573010948, "learning_rate": 0.0001, "loss": 0.991, "step": 6805 }, { "epoch": 1.1629866666666666, "grad_norm": 0.024402256961101706, "learning_rate": 0.0001, "loss": 0.9987, "step": 6806 }, { "epoch": 1.16304, "grad_norm": 0.024653656532676822, "learning_rate": 0.0001, "loss": 0.9646, "step": 6807 }, { "epoch": 1.1630933333333333, "grad_norm": 0.026506022531168457, "learning_rate": 0.0001, "loss": 0.9445, "step": 6808 }, { "epoch": 1.1631466666666666, "grad_norm": 0.025939581835983955, "learning_rate": 0.0001, "loss": 0.9138, "step": 6809 }, { "epoch": 1.1632, "grad_norm": 0.024270165928994118, "learning_rate": 0.0001, "loss": 0.9644, "step": 6810 }, { "epoch": 1.1632533333333333, "grad_norm": 0.023018818877469066, "learning_rate": 0.0001, "loss": 0.9813, "step": 6811 }, { "epoch": 1.1633066666666667, "grad_norm": 0.026099398230884356, "learning_rate": 0.0001, "loss": 0.9618, "step": 6812 }, { "epoch": 1.16336, "grad_norm": 0.024318255938620432, "learning_rate": 0.0001, "loss": 0.971, "step": 6813 }, { "epoch": 1.1634133333333334, "grad_norm": 0.024986989135682626, "learning_rate": 0.0001, "loss": 0.9804, "step": 6814 }, { "epoch": 1.1634666666666666, "grad_norm": 0.023953957468716244, "learning_rate": 0.0001, "loss": 0.9429, "step": 6815 }, { "epoch": 1.16352, "grad_norm": 0.022879990516929877, "learning_rate": 0.0001, "loss": 0.9972, "step": 6816 }, { "epoch": 1.1635733333333333, "grad_norm": 0.023444391230691156, "learning_rate": 0.0001, "loss": 0.9855, "step": 6817 }, { "epoch": 1.1636266666666666, "grad_norm": 0.024278689926189662, "learning_rate": 0.0001, "loss": 0.9429, "step": 6818 }, { "epoch": 1.16368, "grad_norm": 0.023543642052739126, "learning_rate": 0.0001, "loss": 1.0219, "step": 6819 }, { "epoch": 1.1637333333333333, "grad_norm": 0.0232226919284889, "learning_rate": 0.0001, "loss": 0.943, "step": 6820 }, { "epoch": 1.1637866666666667, "grad_norm": 0.022886077787845585, "learning_rate": 0.0001, "loss": 0.9332, "step": 6821 }, { "epoch": 1.16384, "grad_norm": 0.02386460361392815, "learning_rate": 0.0001, "loss": 0.9566, "step": 6822 }, { "epoch": 1.1638933333333332, "grad_norm": 0.023239669663333455, "learning_rate": 0.0001, "loss": 0.9652, "step": 6823 }, { "epoch": 1.1639466666666667, "grad_norm": 0.022462655648670973, "learning_rate": 0.0001, "loss": 0.9767, "step": 6824 }, { "epoch": 1.164, "grad_norm": 0.026366758252185294, "learning_rate": 0.0001, "loss": 0.9856, "step": 6825 }, { "epoch": 1.1640533333333334, "grad_norm": 0.02521332615050943, "learning_rate": 0.0001, "loss": 0.9316, "step": 6826 }, { "epoch": 1.1641066666666666, "grad_norm": 0.025312395352453665, "learning_rate": 0.0001, "loss": 0.9893, "step": 6827 }, { "epoch": 1.16416, "grad_norm": 0.023851067166556692, "learning_rate": 0.0001, "loss": 0.9538, "step": 6828 }, { "epoch": 1.1642133333333333, "grad_norm": 0.024193259312865326, "learning_rate": 0.0001, "loss": 0.9957, "step": 6829 }, { "epoch": 1.1642666666666668, "grad_norm": 0.024658956715891266, "learning_rate": 0.0001, "loss": 0.9542, "step": 6830 }, { "epoch": 1.16432, "grad_norm": 0.0264371097239152, "learning_rate": 0.0001, "loss": 1.0491, "step": 6831 }, { "epoch": 1.1643733333333333, "grad_norm": 0.024000655188537962, "learning_rate": 0.0001, "loss": 0.9952, "step": 6832 }, { "epoch": 1.1644266666666667, "grad_norm": 0.02307534259617658, "learning_rate": 0.0001, "loss": 0.9922, "step": 6833 }, { "epoch": 1.16448, "grad_norm": 0.023962059098157303, "learning_rate": 0.0001, "loss": 0.9431, "step": 6834 }, { "epoch": 1.1645333333333334, "grad_norm": 0.023376229231281468, "learning_rate": 0.0001, "loss": 0.969, "step": 6835 }, { "epoch": 1.1645866666666667, "grad_norm": 0.024672701884721603, "learning_rate": 0.0001, "loss": 1.0206, "step": 6836 }, { "epoch": 1.16464, "grad_norm": 0.0293165369432914, "learning_rate": 0.0001, "loss": 0.9688, "step": 6837 }, { "epoch": 1.1646933333333334, "grad_norm": 0.023692007911661005, "learning_rate": 0.0001, "loss": 0.9778, "step": 6838 }, { "epoch": 1.1647466666666666, "grad_norm": 0.02735951307340649, "learning_rate": 0.0001, "loss": 0.9653, "step": 6839 }, { "epoch": 1.1648, "grad_norm": 0.025573216318602, "learning_rate": 0.0001, "loss": 0.9561, "step": 6840 }, { "epoch": 1.1648533333333333, "grad_norm": 0.027099584383656457, "learning_rate": 0.0001, "loss": 0.9554, "step": 6841 }, { "epoch": 1.1649066666666668, "grad_norm": 0.024264853153447796, "learning_rate": 0.0001, "loss": 1.0235, "step": 6842 }, { "epoch": 1.16496, "grad_norm": 0.023767024579545704, "learning_rate": 0.0001, "loss": 1.0158, "step": 6843 }, { "epoch": 1.1650133333333335, "grad_norm": 0.025746031962355344, "learning_rate": 0.0001, "loss": 0.9704, "step": 6844 }, { "epoch": 1.1650666666666667, "grad_norm": 0.022993166096174862, "learning_rate": 0.0001, "loss": 0.9914, "step": 6845 }, { "epoch": 1.16512, "grad_norm": 0.023612992120162074, "learning_rate": 0.0001, "loss": 0.9434, "step": 6846 }, { "epoch": 1.1651733333333334, "grad_norm": 0.023403019348433248, "learning_rate": 0.0001, "loss": 0.9617, "step": 6847 }, { "epoch": 1.1652266666666666, "grad_norm": 0.02402149603016801, "learning_rate": 0.0001, "loss": 0.997, "step": 6848 }, { "epoch": 1.16528, "grad_norm": 0.022388273494573892, "learning_rate": 0.0001, "loss": 1.0426, "step": 6849 }, { "epoch": 1.1653333333333333, "grad_norm": 0.02373755529998794, "learning_rate": 0.0001, "loss": 1.009, "step": 6850 }, { "epoch": 1.1653866666666666, "grad_norm": 0.024511477763865742, "learning_rate": 0.0001, "loss": 0.947, "step": 6851 }, { "epoch": 1.16544, "grad_norm": 0.023860765578444975, "learning_rate": 0.0001, "loss": 0.9169, "step": 6852 }, { "epoch": 1.1654933333333333, "grad_norm": 0.026823213971789075, "learning_rate": 0.0001, "loss": 0.968, "step": 6853 }, { "epoch": 1.1655466666666667, "grad_norm": 0.023712216506731932, "learning_rate": 0.0001, "loss": 0.9904, "step": 6854 }, { "epoch": 1.1656, "grad_norm": 0.02349925342148422, "learning_rate": 0.0001, "loss": 0.9821, "step": 6855 }, { "epoch": 1.1656533333333334, "grad_norm": 0.02303234079602407, "learning_rate": 0.0001, "loss": 0.9654, "step": 6856 }, { "epoch": 1.1657066666666667, "grad_norm": 0.024523303832194338, "learning_rate": 0.0001, "loss": 0.9747, "step": 6857 }, { "epoch": 1.16576, "grad_norm": 0.023739778523392947, "learning_rate": 0.0001, "loss": 0.9698, "step": 6858 }, { "epoch": 1.1658133333333334, "grad_norm": 0.02358205922093757, "learning_rate": 0.0001, "loss": 0.9398, "step": 6859 }, { "epoch": 1.1658666666666666, "grad_norm": 0.02531806841258065, "learning_rate": 0.0001, "loss": 0.9866, "step": 6860 }, { "epoch": 1.16592, "grad_norm": 0.02488032250068803, "learning_rate": 0.0001, "loss": 0.9697, "step": 6861 }, { "epoch": 1.1659733333333333, "grad_norm": 0.023765009949508618, "learning_rate": 0.0001, "loss": 0.983, "step": 6862 }, { "epoch": 1.1660266666666668, "grad_norm": 0.025353478902466184, "learning_rate": 0.0001, "loss": 0.9944, "step": 6863 }, { "epoch": 1.16608, "grad_norm": 0.025440184082523822, "learning_rate": 0.0001, "loss": 0.9503, "step": 6864 }, { "epoch": 1.1661333333333332, "grad_norm": 0.022155695114398806, "learning_rate": 0.0001, "loss": 0.9816, "step": 6865 }, { "epoch": 1.1661866666666667, "grad_norm": 0.02569682743127436, "learning_rate": 0.0001, "loss": 0.9902, "step": 6866 }, { "epoch": 1.16624, "grad_norm": 0.0249169963327629, "learning_rate": 0.0001, "loss": 0.9411, "step": 6867 }, { "epoch": 1.1662933333333334, "grad_norm": 0.025620050650038063, "learning_rate": 0.0001, "loss": 0.9313, "step": 6868 }, { "epoch": 1.1663466666666666, "grad_norm": 0.021753543919706297, "learning_rate": 0.0001, "loss": 0.9747, "step": 6869 }, { "epoch": 1.1663999999999999, "grad_norm": 0.023849264811330307, "learning_rate": 0.0001, "loss": 0.946, "step": 6870 }, { "epoch": 1.1664533333333333, "grad_norm": 0.02513323909922531, "learning_rate": 0.0001, "loss": 0.9684, "step": 6871 }, { "epoch": 1.1665066666666666, "grad_norm": 0.025228518653022954, "learning_rate": 0.0001, "loss": 0.947, "step": 6872 }, { "epoch": 1.16656, "grad_norm": 0.022852846626365168, "learning_rate": 0.0001, "loss": 0.9805, "step": 6873 }, { "epoch": 1.1666133333333333, "grad_norm": 0.02764144751306388, "learning_rate": 0.0001, "loss": 1.0189, "step": 6874 }, { "epoch": 1.1666666666666667, "grad_norm": 0.025944589791632788, "learning_rate": 0.0001, "loss": 0.9701, "step": 6875 }, { "epoch": 1.16672, "grad_norm": 0.02243639122818393, "learning_rate": 0.0001, "loss": 0.9734, "step": 6876 }, { "epoch": 1.1667733333333334, "grad_norm": 0.02472594667737776, "learning_rate": 0.0001, "loss": 0.9885, "step": 6877 }, { "epoch": 1.1668266666666667, "grad_norm": 0.02351577925787239, "learning_rate": 0.0001, "loss": 0.9916, "step": 6878 }, { "epoch": 1.16688, "grad_norm": 0.023203252822140617, "learning_rate": 0.0001, "loss": 0.9498, "step": 6879 }, { "epoch": 1.1669333333333334, "grad_norm": 0.025569007552464804, "learning_rate": 0.0001, "loss": 0.9522, "step": 6880 }, { "epoch": 1.1669866666666666, "grad_norm": 0.025482773763975106, "learning_rate": 0.0001, "loss": 0.971, "step": 6881 }, { "epoch": 1.16704, "grad_norm": 0.0253364099844221, "learning_rate": 0.0001, "loss": 0.949, "step": 6882 }, { "epoch": 1.1670933333333333, "grad_norm": 0.025394455009063018, "learning_rate": 0.0001, "loss": 0.9573, "step": 6883 }, { "epoch": 1.1671466666666666, "grad_norm": 0.025587296158033842, "learning_rate": 0.0001, "loss": 0.994, "step": 6884 }, { "epoch": 1.1672, "grad_norm": 0.023188288433800282, "learning_rate": 0.0001, "loss": 0.9585, "step": 6885 }, { "epoch": 1.1672533333333333, "grad_norm": 0.023886749466556355, "learning_rate": 0.0001, "loss": 0.9598, "step": 6886 }, { "epoch": 1.1673066666666667, "grad_norm": 0.02480113601915838, "learning_rate": 0.0001, "loss": 0.9098, "step": 6887 }, { "epoch": 1.16736, "grad_norm": 0.024299195090000968, "learning_rate": 0.0001, "loss": 0.9939, "step": 6888 }, { "epoch": 1.1674133333333334, "grad_norm": 0.023721576389822703, "learning_rate": 0.0001, "loss": 0.9726, "step": 6889 }, { "epoch": 1.1674666666666667, "grad_norm": 0.024221525995264708, "learning_rate": 0.0001, "loss": 0.9638, "step": 6890 }, { "epoch": 1.1675200000000001, "grad_norm": 0.023374795381699974, "learning_rate": 0.0001, "loss": 0.9625, "step": 6891 }, { "epoch": 1.1675733333333334, "grad_norm": 0.02666830119615866, "learning_rate": 0.0001, "loss": 1.0188, "step": 6892 }, { "epoch": 1.1676266666666666, "grad_norm": 0.022344714666868215, "learning_rate": 0.0001, "loss": 0.9848, "step": 6893 }, { "epoch": 1.16768, "grad_norm": 0.024641696024362086, "learning_rate": 0.0001, "loss": 0.9673, "step": 6894 }, { "epoch": 1.1677333333333333, "grad_norm": 0.024642054270132326, "learning_rate": 0.0001, "loss": 1.0125, "step": 6895 }, { "epoch": 1.1677866666666668, "grad_norm": 0.02482884165944881, "learning_rate": 0.0001, "loss": 0.9376, "step": 6896 }, { "epoch": 1.16784, "grad_norm": 0.026595058921092613, "learning_rate": 0.0001, "loss": 1.0261, "step": 6897 }, { "epoch": 1.1678933333333332, "grad_norm": 0.02383707661997, "learning_rate": 0.0001, "loss": 1.0164, "step": 6898 }, { "epoch": 1.1679466666666667, "grad_norm": 0.022814980422183606, "learning_rate": 0.0001, "loss": 1.0072, "step": 6899 }, { "epoch": 1.168, "grad_norm": 0.02713464971935948, "learning_rate": 0.0001, "loss": 0.9394, "step": 6900 }, { "epoch": 1.1680533333333334, "grad_norm": 0.02340131799529868, "learning_rate": 0.0001, "loss": 0.9845, "step": 6901 }, { "epoch": 1.1681066666666666, "grad_norm": 0.023833999374026988, "learning_rate": 0.0001, "loss": 1.0019, "step": 6902 }, { "epoch": 1.16816, "grad_norm": 0.024716291343854925, "learning_rate": 0.0001, "loss": 0.9481, "step": 6903 }, { "epoch": 1.1682133333333333, "grad_norm": 0.023650708207617558, "learning_rate": 0.0001, "loss": 1.0097, "step": 6904 }, { "epoch": 1.1682666666666668, "grad_norm": 0.025623724754061064, "learning_rate": 0.0001, "loss": 0.9824, "step": 6905 }, { "epoch": 1.16832, "grad_norm": 0.02435984682274022, "learning_rate": 0.0001, "loss": 1.0147, "step": 6906 }, { "epoch": 1.1683733333333333, "grad_norm": 0.02359268182360222, "learning_rate": 0.0001, "loss": 0.9809, "step": 6907 }, { "epoch": 1.1684266666666667, "grad_norm": 0.025067136672875683, "learning_rate": 0.0001, "loss": 1.0037, "step": 6908 }, { "epoch": 1.16848, "grad_norm": 0.022856027030426267, "learning_rate": 0.0001, "loss": 1.0117, "step": 6909 }, { "epoch": 1.1685333333333334, "grad_norm": 0.0254821409498281, "learning_rate": 0.0001, "loss": 1.0047, "step": 6910 }, { "epoch": 1.1685866666666667, "grad_norm": 0.025326008952492707, "learning_rate": 0.0001, "loss": 0.9397, "step": 6911 }, { "epoch": 1.16864, "grad_norm": 0.02283766883582871, "learning_rate": 0.0001, "loss": 0.9292, "step": 6912 }, { "epoch": 1.1686933333333334, "grad_norm": 0.024645990757785827, "learning_rate": 0.0001, "loss": 0.9267, "step": 6913 }, { "epoch": 1.1687466666666666, "grad_norm": 0.025121553012212645, "learning_rate": 0.0001, "loss": 0.9479, "step": 6914 }, { "epoch": 1.1688, "grad_norm": 0.024088331371734866, "learning_rate": 0.0001, "loss": 0.9674, "step": 6915 }, { "epoch": 1.1688533333333333, "grad_norm": 0.024917784358379786, "learning_rate": 0.0001, "loss": 0.932, "step": 6916 }, { "epoch": 1.1689066666666668, "grad_norm": 0.0243687198020497, "learning_rate": 0.0001, "loss": 1.0208, "step": 6917 }, { "epoch": 1.16896, "grad_norm": 0.022541976344911566, "learning_rate": 0.0001, "loss": 0.9325, "step": 6918 }, { "epoch": 1.1690133333333332, "grad_norm": 0.024207851115426116, "learning_rate": 0.0001, "loss": 0.9983, "step": 6919 }, { "epoch": 1.1690666666666667, "grad_norm": 0.023090589416632744, "learning_rate": 0.0001, "loss": 0.9941, "step": 6920 }, { "epoch": 1.16912, "grad_norm": 0.0229721176709582, "learning_rate": 0.0001, "loss": 1.007, "step": 6921 }, { "epoch": 1.1691733333333334, "grad_norm": 0.02573731056045605, "learning_rate": 0.0001, "loss": 0.9666, "step": 6922 }, { "epoch": 1.1692266666666666, "grad_norm": 0.02417773391808054, "learning_rate": 0.0001, "loss": 1.0106, "step": 6923 }, { "epoch": 1.16928, "grad_norm": 0.025973942481454654, "learning_rate": 0.0001, "loss": 1.0, "step": 6924 }, { "epoch": 1.1693333333333333, "grad_norm": 0.0277372495396433, "learning_rate": 0.0001, "loss": 0.9573, "step": 6925 }, { "epoch": 1.1693866666666666, "grad_norm": 0.02479798287015874, "learning_rate": 0.0001, "loss": 0.9926, "step": 6926 }, { "epoch": 1.16944, "grad_norm": 0.023272842784758035, "learning_rate": 0.0001, "loss": 0.9686, "step": 6927 }, { "epoch": 1.1694933333333333, "grad_norm": 0.02505579019339498, "learning_rate": 0.0001, "loss": 0.9505, "step": 6928 }, { "epoch": 1.1695466666666667, "grad_norm": 0.025692110768697856, "learning_rate": 0.0001, "loss": 0.9393, "step": 6929 }, { "epoch": 1.1696, "grad_norm": 0.023730424873614406, "learning_rate": 0.0001, "loss": 0.9568, "step": 6930 }, { "epoch": 1.1696533333333332, "grad_norm": 0.02584344380202352, "learning_rate": 0.0001, "loss": 0.9687, "step": 6931 }, { "epoch": 1.1697066666666667, "grad_norm": 0.024088866894179967, "learning_rate": 0.0001, "loss": 0.9273, "step": 6932 }, { "epoch": 1.16976, "grad_norm": 0.024417460598519722, "learning_rate": 0.0001, "loss": 0.9636, "step": 6933 }, { "epoch": 1.1698133333333334, "grad_norm": 0.025563772140873797, "learning_rate": 0.0001, "loss": 1.0007, "step": 6934 }, { "epoch": 1.1698666666666666, "grad_norm": 0.023810609036160543, "learning_rate": 0.0001, "loss": 0.926, "step": 6935 }, { "epoch": 1.16992, "grad_norm": 0.02396748459555155, "learning_rate": 0.0001, "loss": 0.9694, "step": 6936 }, { "epoch": 1.1699733333333333, "grad_norm": 0.02295706209471395, "learning_rate": 0.0001, "loss": 0.9768, "step": 6937 }, { "epoch": 1.1700266666666668, "grad_norm": 0.025582791414694148, "learning_rate": 0.0001, "loss": 0.9995, "step": 6938 }, { "epoch": 1.17008, "grad_norm": 0.02385783117389385, "learning_rate": 0.0001, "loss": 0.9477, "step": 6939 }, { "epoch": 1.1701333333333332, "grad_norm": 0.02355358485610262, "learning_rate": 0.0001, "loss": 0.951, "step": 6940 }, { "epoch": 1.1701866666666667, "grad_norm": 0.02587938899772382, "learning_rate": 0.0001, "loss": 0.9664, "step": 6941 }, { "epoch": 1.17024, "grad_norm": 0.025370088197923895, "learning_rate": 0.0001, "loss": 1.0248, "step": 6942 }, { "epoch": 1.1702933333333334, "grad_norm": 0.0254445387547434, "learning_rate": 0.0001, "loss": 0.9768, "step": 6943 }, { "epoch": 1.1703466666666666, "grad_norm": 0.02356748430450548, "learning_rate": 0.0001, "loss": 0.9697, "step": 6944 }, { "epoch": 1.1703999999999999, "grad_norm": 0.023941273393878516, "learning_rate": 0.0001, "loss": 0.9468, "step": 6945 }, { "epoch": 1.1704533333333333, "grad_norm": 0.0236174013575141, "learning_rate": 0.0001, "loss": 0.9908, "step": 6946 }, { "epoch": 1.1705066666666666, "grad_norm": 0.024369899215844662, "learning_rate": 0.0001, "loss": 0.9211, "step": 6947 }, { "epoch": 1.17056, "grad_norm": 0.024264794568095827, "learning_rate": 0.0001, "loss": 0.9561, "step": 6948 }, { "epoch": 1.1706133333333333, "grad_norm": 0.02315334797489342, "learning_rate": 0.0001, "loss": 0.9689, "step": 6949 }, { "epoch": 1.1706666666666667, "grad_norm": 0.02360073081579082, "learning_rate": 0.0001, "loss": 0.9361, "step": 6950 }, { "epoch": 1.17072, "grad_norm": 0.024392234530456653, "learning_rate": 0.0001, "loss": 0.9608, "step": 6951 }, { "epoch": 1.1707733333333334, "grad_norm": 0.023306708324441643, "learning_rate": 0.0001, "loss": 0.9758, "step": 6952 }, { "epoch": 1.1708266666666667, "grad_norm": 0.02435775204577092, "learning_rate": 0.0001, "loss": 0.9466, "step": 6953 }, { "epoch": 1.17088, "grad_norm": 0.022263348362326574, "learning_rate": 0.0001, "loss": 0.9503, "step": 6954 }, { "epoch": 1.1709333333333334, "grad_norm": 0.024884897417990322, "learning_rate": 0.0001, "loss": 1.1169, "step": 6955 }, { "epoch": 1.1709866666666666, "grad_norm": 0.02367814467631621, "learning_rate": 0.0001, "loss": 0.9511, "step": 6956 }, { "epoch": 1.17104, "grad_norm": 0.024955545331722024, "learning_rate": 0.0001, "loss": 1.0096, "step": 6957 }, { "epoch": 1.1710933333333333, "grad_norm": 0.026413734507959113, "learning_rate": 0.0001, "loss": 1.0295, "step": 6958 }, { "epoch": 1.1711466666666666, "grad_norm": 0.026122007306020233, "learning_rate": 0.0001, "loss": 1.0046, "step": 6959 }, { "epoch": 1.1712, "grad_norm": 0.025614446674793147, "learning_rate": 0.0001, "loss": 0.9833, "step": 6960 }, { "epoch": 1.1712533333333333, "grad_norm": 0.02506133104795325, "learning_rate": 0.0001, "loss": 1.0127, "step": 6961 }, { "epoch": 1.1713066666666667, "grad_norm": 0.024762384171575426, "learning_rate": 0.0001, "loss": 0.9419, "step": 6962 }, { "epoch": 1.17136, "grad_norm": 0.024451171016053572, "learning_rate": 0.0001, "loss": 1.0267, "step": 6963 }, { "epoch": 1.1714133333333334, "grad_norm": 0.02350992511506928, "learning_rate": 0.0001, "loss": 0.9583, "step": 6964 }, { "epoch": 1.1714666666666667, "grad_norm": 0.025039091337781146, "learning_rate": 0.0001, "loss": 0.9917, "step": 6965 }, { "epoch": 1.1715200000000001, "grad_norm": 0.02333255919147213, "learning_rate": 0.0001, "loss": 0.9787, "step": 6966 }, { "epoch": 1.1715733333333334, "grad_norm": 0.024161030222332392, "learning_rate": 0.0001, "loss": 0.9401, "step": 6967 }, { "epoch": 1.1716266666666666, "grad_norm": 0.02523105485995585, "learning_rate": 0.0001, "loss": 1.0056, "step": 6968 }, { "epoch": 1.17168, "grad_norm": 0.023930307105385712, "learning_rate": 0.0001, "loss": 0.9543, "step": 6969 }, { "epoch": 1.1717333333333333, "grad_norm": 0.024288548384147592, "learning_rate": 0.0001, "loss": 1.0142, "step": 6970 }, { "epoch": 1.1717866666666668, "grad_norm": 0.02538583299123739, "learning_rate": 0.0001, "loss": 1.0169, "step": 6971 }, { "epoch": 1.17184, "grad_norm": 0.024730353603862328, "learning_rate": 0.0001, "loss": 1.0213, "step": 6972 }, { "epoch": 1.1718933333333332, "grad_norm": 0.02652453493797288, "learning_rate": 0.0001, "loss": 0.9556, "step": 6973 }, { "epoch": 1.1719466666666667, "grad_norm": 0.026706289322040517, "learning_rate": 0.0001, "loss": 0.9691, "step": 6974 }, { "epoch": 1.172, "grad_norm": 0.024870089465150364, "learning_rate": 0.0001, "loss": 0.967, "step": 6975 }, { "epoch": 1.1720533333333334, "grad_norm": 0.0235378277320955, "learning_rate": 0.0001, "loss": 0.9706, "step": 6976 }, { "epoch": 1.1721066666666666, "grad_norm": 0.024987070707046907, "learning_rate": 0.0001, "loss": 1.0294, "step": 6977 }, { "epoch": 1.17216, "grad_norm": 0.024049211517626956, "learning_rate": 0.0001, "loss": 0.9711, "step": 6978 }, { "epoch": 1.1722133333333333, "grad_norm": 0.024182675617960617, "learning_rate": 0.0001, "loss": 0.9236, "step": 6979 }, { "epoch": 1.1722666666666668, "grad_norm": 0.025761365941700205, "learning_rate": 0.0001, "loss": 0.9919, "step": 6980 }, { "epoch": 1.17232, "grad_norm": 0.022905623612322262, "learning_rate": 0.0001, "loss": 0.8928, "step": 6981 }, { "epoch": 1.1723733333333333, "grad_norm": 0.023216065179511452, "learning_rate": 0.0001, "loss": 0.9187, "step": 6982 }, { "epoch": 1.1724266666666667, "grad_norm": 0.024530209714282193, "learning_rate": 0.0001, "loss": 0.9695, "step": 6983 }, { "epoch": 1.17248, "grad_norm": 0.026156553312374146, "learning_rate": 0.0001, "loss": 0.9407, "step": 6984 }, { "epoch": 1.1725333333333334, "grad_norm": 0.024843308833507695, "learning_rate": 0.0001, "loss": 0.9808, "step": 6985 }, { "epoch": 1.1725866666666667, "grad_norm": 0.023989442552823592, "learning_rate": 0.0001, "loss": 0.9723, "step": 6986 }, { "epoch": 1.17264, "grad_norm": 0.025059561667842258, "learning_rate": 0.0001, "loss": 0.9529, "step": 6987 }, { "epoch": 1.1726933333333334, "grad_norm": 0.025810191638630166, "learning_rate": 0.0001, "loss": 0.953, "step": 6988 }, { "epoch": 1.1727466666666666, "grad_norm": 0.024121175548255304, "learning_rate": 0.0001, "loss": 0.8872, "step": 6989 }, { "epoch": 1.1728, "grad_norm": 0.025711370194559817, "learning_rate": 0.0001, "loss": 0.9508, "step": 6990 }, { "epoch": 1.1728533333333333, "grad_norm": 0.025422542773447836, "learning_rate": 0.0001, "loss": 0.9101, "step": 6991 }, { "epoch": 1.1729066666666665, "grad_norm": 0.025492050222549995, "learning_rate": 0.0001, "loss": 0.9629, "step": 6992 }, { "epoch": 1.17296, "grad_norm": 0.023515717169399247, "learning_rate": 0.0001, "loss": 0.9642, "step": 6993 }, { "epoch": 1.1730133333333332, "grad_norm": 0.02497357582126835, "learning_rate": 0.0001, "loss": 0.9544, "step": 6994 }, { "epoch": 1.1730666666666667, "grad_norm": 0.025338519520666746, "learning_rate": 0.0001, "loss": 0.9393, "step": 6995 }, { "epoch": 1.17312, "grad_norm": 0.02569439225513597, "learning_rate": 0.0001, "loss": 1.0029, "step": 6996 }, { "epoch": 1.1731733333333334, "grad_norm": 0.02297163626959044, "learning_rate": 0.0001, "loss": 0.9771, "step": 6997 }, { "epoch": 1.1732266666666666, "grad_norm": 0.023097914427197715, "learning_rate": 0.0001, "loss": 0.9201, "step": 6998 }, { "epoch": 1.17328, "grad_norm": 0.02363924479094071, "learning_rate": 0.0001, "loss": 1.0321, "step": 6999 }, { "epoch": 1.1733333333333333, "grad_norm": 0.02298821819737453, "learning_rate": 0.0001, "loss": 0.9835, "step": 7000 }, { "epoch": 1.1733333333333333, "eval_accuracy": 0.6191704929843379, "eval_loss": 1.3596595525741577, "eval_runtime": 63.6252, "eval_samples_per_second": 15.717, "eval_steps_per_second": 0.503, "step": 7000 }, { "epoch": 1.1733866666666666, "grad_norm": 0.02667502440624875, "learning_rate": 0.0001, "loss": 1.0281, "step": 7001 }, { "epoch": 1.17344, "grad_norm": 0.024418164012195695, "learning_rate": 0.0001, "loss": 0.9967, "step": 7002 }, { "epoch": 1.1734933333333333, "grad_norm": 0.023625736382502004, "learning_rate": 0.0001, "loss": 1.043, "step": 7003 }, { "epoch": 1.1735466666666667, "grad_norm": 0.02429074094690126, "learning_rate": 0.0001, "loss": 0.9403, "step": 7004 }, { "epoch": 1.1736, "grad_norm": 0.025065734735981372, "learning_rate": 0.0001, "loss": 0.8994, "step": 7005 }, { "epoch": 1.1736533333333332, "grad_norm": 0.02365005502432619, "learning_rate": 0.0001, "loss": 0.961, "step": 7006 }, { "epoch": 1.1737066666666667, "grad_norm": 0.025753522162193922, "learning_rate": 0.0001, "loss": 0.9573, "step": 7007 }, { "epoch": 1.17376, "grad_norm": 0.023503285946185944, "learning_rate": 0.0001, "loss": 0.9492, "step": 7008 }, { "epoch": 1.1738133333333334, "grad_norm": 0.025038874685428567, "learning_rate": 0.0001, "loss": 0.9953, "step": 7009 }, { "epoch": 1.1738666666666666, "grad_norm": 0.022983995335784962, "learning_rate": 0.0001, "loss": 0.9886, "step": 7010 }, { "epoch": 1.17392, "grad_norm": 0.022950361202798458, "learning_rate": 0.0001, "loss": 0.9101, "step": 7011 }, { "epoch": 1.1739733333333333, "grad_norm": 0.024514134640961114, "learning_rate": 0.0001, "loss": 0.9774, "step": 7012 }, { "epoch": 1.1740266666666668, "grad_norm": 0.022622454317474578, "learning_rate": 0.0001, "loss": 1.0085, "step": 7013 }, { "epoch": 1.17408, "grad_norm": 0.023307011633868207, "learning_rate": 0.0001, "loss": 0.9172, "step": 7014 }, { "epoch": 1.1741333333333333, "grad_norm": 0.023163832628241208, "learning_rate": 0.0001, "loss": 1.012, "step": 7015 }, { "epoch": 1.1741866666666667, "grad_norm": 0.025126484267711573, "learning_rate": 0.0001, "loss": 0.9588, "step": 7016 }, { "epoch": 1.17424, "grad_norm": 0.024230724446285632, "learning_rate": 0.0001, "loss": 1.0122, "step": 7017 }, { "epoch": 1.1742933333333334, "grad_norm": 0.023287546673252744, "learning_rate": 0.0001, "loss": 0.9527, "step": 7018 }, { "epoch": 1.1743466666666666, "grad_norm": 0.025241235371018876, "learning_rate": 0.0001, "loss": 0.9529, "step": 7019 }, { "epoch": 1.1743999999999999, "grad_norm": 0.026014971518258108, "learning_rate": 0.0001, "loss": 1.0066, "step": 7020 }, { "epoch": 1.1744533333333333, "grad_norm": 0.023417539232913308, "learning_rate": 0.0001, "loss": 0.9642, "step": 7021 }, { "epoch": 1.1745066666666666, "grad_norm": 0.025445005779137688, "learning_rate": 0.0001, "loss": 1.0397, "step": 7022 }, { "epoch": 1.17456, "grad_norm": 0.02351995989663083, "learning_rate": 0.0001, "loss": 0.9365, "step": 7023 }, { "epoch": 1.1746133333333333, "grad_norm": 0.023543330108385784, "learning_rate": 0.0001, "loss": 0.9844, "step": 7024 }, { "epoch": 1.1746666666666667, "grad_norm": 0.023771694626863245, "learning_rate": 0.0001, "loss": 0.9829, "step": 7025 }, { "epoch": 1.17472, "grad_norm": 0.02551981461676124, "learning_rate": 0.0001, "loss": 0.9756, "step": 7026 }, { "epoch": 1.1747733333333334, "grad_norm": 0.02336971266607128, "learning_rate": 0.0001, "loss": 0.9701, "step": 7027 }, { "epoch": 1.1748266666666667, "grad_norm": 0.023946469862739003, "learning_rate": 0.0001, "loss": 0.9659, "step": 7028 }, { "epoch": 1.17488, "grad_norm": 0.024101607353182265, "learning_rate": 0.0001, "loss": 0.954, "step": 7029 }, { "epoch": 1.1749333333333334, "grad_norm": 0.022652146440137157, "learning_rate": 0.0001, "loss": 1.0101, "step": 7030 }, { "epoch": 1.1749866666666666, "grad_norm": 0.024290023893507283, "learning_rate": 0.0001, "loss": 1.0166, "step": 7031 }, { "epoch": 1.17504, "grad_norm": 0.024218984962262883, "learning_rate": 0.0001, "loss": 1.039, "step": 7032 }, { "epoch": 1.1750933333333333, "grad_norm": 0.023520081879556284, "learning_rate": 0.0001, "loss": 1.0065, "step": 7033 }, { "epoch": 1.1751466666666666, "grad_norm": 0.022888075690015983, "learning_rate": 0.0001, "loss": 1.012, "step": 7034 }, { "epoch": 1.1752, "grad_norm": 0.025818591204743883, "learning_rate": 0.0001, "loss": 0.9923, "step": 7035 }, { "epoch": 1.1752533333333333, "grad_norm": 0.023995650349216774, "learning_rate": 0.0001, "loss": 0.9688, "step": 7036 }, { "epoch": 1.1753066666666667, "grad_norm": 0.024050776290608585, "learning_rate": 0.0001, "loss": 0.9757, "step": 7037 }, { "epoch": 1.17536, "grad_norm": 0.025089706146696384, "learning_rate": 0.0001, "loss": 1.0067, "step": 7038 }, { "epoch": 1.1754133333333334, "grad_norm": 0.02491243018034038, "learning_rate": 0.0001, "loss": 0.9629, "step": 7039 }, { "epoch": 1.1754666666666667, "grad_norm": 0.031248511919378077, "learning_rate": 0.0001, "loss": 0.958, "step": 7040 }, { "epoch": 1.1755200000000001, "grad_norm": 0.023759556748708804, "learning_rate": 0.0001, "loss": 0.9612, "step": 7041 }, { "epoch": 1.1755733333333334, "grad_norm": 0.02533332722720153, "learning_rate": 0.0001, "loss": 0.9881, "step": 7042 }, { "epoch": 1.1756266666666666, "grad_norm": 0.025543998908305898, "learning_rate": 0.0001, "loss": 0.9882, "step": 7043 }, { "epoch": 1.17568, "grad_norm": 0.027199031154858715, "learning_rate": 0.0001, "loss": 0.9224, "step": 7044 }, { "epoch": 1.1757333333333333, "grad_norm": 0.023662855413393618, "learning_rate": 0.0001, "loss": 1.0233, "step": 7045 }, { "epoch": 1.1757866666666668, "grad_norm": 0.025471629993117327, "learning_rate": 0.0001, "loss": 0.9575, "step": 7046 }, { "epoch": 1.17584, "grad_norm": 0.024160316547820096, "learning_rate": 0.0001, "loss": 0.9557, "step": 7047 }, { "epoch": 1.1758933333333332, "grad_norm": 0.02355660260906995, "learning_rate": 0.0001, "loss": 0.9691, "step": 7048 }, { "epoch": 1.1759466666666667, "grad_norm": 0.02444471080976791, "learning_rate": 0.0001, "loss": 0.9813, "step": 7049 }, { "epoch": 1.176, "grad_norm": 0.024487065948363685, "learning_rate": 0.0001, "loss": 0.9234, "step": 7050 }, { "epoch": 1.1760533333333334, "grad_norm": 0.02131299612838919, "learning_rate": 0.0001, "loss": 0.9621, "step": 7051 }, { "epoch": 1.1761066666666666, "grad_norm": 0.02471116972897347, "learning_rate": 0.0001, "loss": 0.9751, "step": 7052 }, { "epoch": 1.17616, "grad_norm": 0.02475530305942166, "learning_rate": 0.0001, "loss": 0.9147, "step": 7053 }, { "epoch": 1.1762133333333333, "grad_norm": 0.02474976481498379, "learning_rate": 0.0001, "loss": 0.9555, "step": 7054 }, { "epoch": 1.1762666666666666, "grad_norm": 0.02516139608752597, "learning_rate": 0.0001, "loss": 0.9522, "step": 7055 }, { "epoch": 1.17632, "grad_norm": 0.025195399665170922, "learning_rate": 0.0001, "loss": 0.9522, "step": 7056 }, { "epoch": 1.1763733333333333, "grad_norm": 0.027650953530258794, "learning_rate": 0.0001, "loss": 0.9825, "step": 7057 }, { "epoch": 1.1764266666666667, "grad_norm": 0.022951753981031938, "learning_rate": 0.0001, "loss": 0.9864, "step": 7058 }, { "epoch": 1.17648, "grad_norm": 0.022554928933921678, "learning_rate": 0.0001, "loss": 0.9535, "step": 7059 }, { "epoch": 1.1765333333333334, "grad_norm": 0.02418030666353971, "learning_rate": 0.0001, "loss": 0.9858, "step": 7060 }, { "epoch": 1.1765866666666667, "grad_norm": 0.022107478129663127, "learning_rate": 0.0001, "loss": 0.9682, "step": 7061 }, { "epoch": 1.17664, "grad_norm": 0.022858225190389516, "learning_rate": 0.0001, "loss": 0.9504, "step": 7062 }, { "epoch": 1.1766933333333334, "grad_norm": 0.022800395873512215, "learning_rate": 0.0001, "loss": 0.9656, "step": 7063 }, { "epoch": 1.1767466666666666, "grad_norm": 0.02469216409708643, "learning_rate": 0.0001, "loss": 1.0082, "step": 7064 }, { "epoch": 1.1768, "grad_norm": 0.023932585311814632, "learning_rate": 0.0001, "loss": 1.023, "step": 7065 }, { "epoch": 1.1768533333333333, "grad_norm": 0.024113585490265054, "learning_rate": 0.0001, "loss": 0.9682, "step": 7066 }, { "epoch": 1.1769066666666665, "grad_norm": 0.024336355395716804, "learning_rate": 0.0001, "loss": 0.9409, "step": 7067 }, { "epoch": 1.17696, "grad_norm": 0.024242534903949307, "learning_rate": 0.0001, "loss": 1.021, "step": 7068 }, { "epoch": 1.1770133333333332, "grad_norm": 0.025121429449966988, "learning_rate": 0.0001, "loss": 0.9932, "step": 7069 }, { "epoch": 1.1770666666666667, "grad_norm": 0.02509633027312255, "learning_rate": 0.0001, "loss": 1.0047, "step": 7070 }, { "epoch": 1.17712, "grad_norm": 0.029457371428656648, "learning_rate": 0.0001, "loss": 0.9708, "step": 7071 }, { "epoch": 1.1771733333333334, "grad_norm": 0.02480911683329764, "learning_rate": 0.0001, "loss": 1.0253, "step": 7072 }, { "epoch": 1.1772266666666666, "grad_norm": 0.025255828260090516, "learning_rate": 0.0001, "loss": 0.9821, "step": 7073 }, { "epoch": 1.17728, "grad_norm": 0.023873606801247203, "learning_rate": 0.0001, "loss": 0.9706, "step": 7074 }, { "epoch": 1.1773333333333333, "grad_norm": 0.026383015616662748, "learning_rate": 0.0001, "loss": 0.9492, "step": 7075 }, { "epoch": 1.1773866666666666, "grad_norm": 0.027267340740913908, "learning_rate": 0.0001, "loss": 0.9274, "step": 7076 }, { "epoch": 1.17744, "grad_norm": 0.025381599941619013, "learning_rate": 0.0001, "loss": 0.9219, "step": 7077 }, { "epoch": 1.1774933333333333, "grad_norm": 0.0237847451258361, "learning_rate": 0.0001, "loss": 0.9603, "step": 7078 }, { "epoch": 1.1775466666666667, "grad_norm": 0.02480677156609177, "learning_rate": 0.0001, "loss": 0.978, "step": 7079 }, { "epoch": 1.1776, "grad_norm": 0.024973570287600208, "learning_rate": 0.0001, "loss": 0.9723, "step": 7080 }, { "epoch": 1.1776533333333332, "grad_norm": 0.025364952485788666, "learning_rate": 0.0001, "loss": 1.0086, "step": 7081 }, { "epoch": 1.1777066666666667, "grad_norm": 0.025745289652924785, "learning_rate": 0.0001, "loss": 0.994, "step": 7082 }, { "epoch": 1.17776, "grad_norm": 0.023603711306276788, "learning_rate": 0.0001, "loss": 0.9479, "step": 7083 }, { "epoch": 1.1778133333333334, "grad_norm": 0.0271230754140236, "learning_rate": 0.0001, "loss": 1.0314, "step": 7084 }, { "epoch": 1.1778666666666666, "grad_norm": 0.02346104727763027, "learning_rate": 0.0001, "loss": 0.9425, "step": 7085 }, { "epoch": 1.17792, "grad_norm": 0.023847674074655777, "learning_rate": 0.0001, "loss": 0.9458, "step": 7086 }, { "epoch": 1.1779733333333333, "grad_norm": 0.025183848293668272, "learning_rate": 0.0001, "loss": 0.9646, "step": 7087 }, { "epoch": 1.1780266666666668, "grad_norm": 0.024792041639925863, "learning_rate": 0.0001, "loss": 0.9399, "step": 7088 }, { "epoch": 1.17808, "grad_norm": 0.026916552961202152, "learning_rate": 0.0001, "loss": 0.9342, "step": 7089 }, { "epoch": 1.1781333333333333, "grad_norm": 0.025462541304654612, "learning_rate": 0.0001, "loss": 0.9633, "step": 7090 }, { "epoch": 1.1781866666666667, "grad_norm": 0.024589468766284872, "learning_rate": 0.0001, "loss": 0.9485, "step": 7091 }, { "epoch": 1.17824, "grad_norm": 0.02548489324680942, "learning_rate": 0.0001, "loss": 0.9601, "step": 7092 }, { "epoch": 1.1782933333333334, "grad_norm": 0.025868970639121334, "learning_rate": 0.0001, "loss": 0.9971, "step": 7093 }, { "epoch": 1.1783466666666667, "grad_norm": 0.025776245392355596, "learning_rate": 0.0001, "loss": 0.9655, "step": 7094 }, { "epoch": 1.1784, "grad_norm": 0.023103584507833803, "learning_rate": 0.0001, "loss": 0.9195, "step": 7095 }, { "epoch": 1.1784533333333334, "grad_norm": 0.023955616972966838, "learning_rate": 0.0001, "loss": 0.9399, "step": 7096 }, { "epoch": 1.1785066666666666, "grad_norm": 0.02472422030536202, "learning_rate": 0.0001, "loss": 0.9189, "step": 7097 }, { "epoch": 1.17856, "grad_norm": 0.025048452824795175, "learning_rate": 0.0001, "loss": 0.9421, "step": 7098 }, { "epoch": 1.1786133333333333, "grad_norm": 0.02443122581651039, "learning_rate": 0.0001, "loss": 0.9691, "step": 7099 }, { "epoch": 1.1786666666666668, "grad_norm": 0.024912536861265308, "learning_rate": 0.0001, "loss": 1.0194, "step": 7100 }, { "epoch": 1.17872, "grad_norm": 0.026364933300361854, "learning_rate": 0.0001, "loss": 0.9634, "step": 7101 }, { "epoch": 1.1787733333333335, "grad_norm": 0.026752467754642906, "learning_rate": 0.0001, "loss": 0.971, "step": 7102 }, { "epoch": 1.1788266666666667, "grad_norm": 0.02364739615160194, "learning_rate": 0.0001, "loss": 0.9603, "step": 7103 }, { "epoch": 1.17888, "grad_norm": 0.023521955050454776, "learning_rate": 0.0001, "loss": 0.9668, "step": 7104 }, { "epoch": 1.1789333333333334, "grad_norm": 0.023786048014684008, "learning_rate": 0.0001, "loss": 0.9591, "step": 7105 }, { "epoch": 1.1789866666666666, "grad_norm": 0.023922610192238052, "learning_rate": 0.0001, "loss": 0.985, "step": 7106 }, { "epoch": 1.17904, "grad_norm": 0.02433493418607752, "learning_rate": 0.0001, "loss": 0.9798, "step": 7107 }, { "epoch": 1.1790933333333333, "grad_norm": 0.023814416542593118, "learning_rate": 0.0001, "loss": 0.9934, "step": 7108 }, { "epoch": 1.1791466666666666, "grad_norm": 0.02308312647819943, "learning_rate": 0.0001, "loss": 0.934, "step": 7109 }, { "epoch": 1.1792, "grad_norm": 0.024929679413760283, "learning_rate": 0.0001, "loss": 0.9986, "step": 7110 }, { "epoch": 1.1792533333333333, "grad_norm": 0.02429827154728894, "learning_rate": 0.0001, "loss": 0.9201, "step": 7111 }, { "epoch": 1.1793066666666667, "grad_norm": 0.024734115513789186, "learning_rate": 0.0001, "loss": 1.0144, "step": 7112 }, { "epoch": 1.17936, "grad_norm": 0.024277375248288095, "learning_rate": 0.0001, "loss": 0.9583, "step": 7113 }, { "epoch": 1.1794133333333334, "grad_norm": 0.023793283975614078, "learning_rate": 0.0001, "loss": 0.9658, "step": 7114 }, { "epoch": 1.1794666666666667, "grad_norm": 0.023754388994049594, "learning_rate": 0.0001, "loss": 0.9758, "step": 7115 }, { "epoch": 1.1795200000000001, "grad_norm": 0.024989474711045456, "learning_rate": 0.0001, "loss": 0.9986, "step": 7116 }, { "epoch": 1.1795733333333334, "grad_norm": 0.024131252297813273, "learning_rate": 0.0001, "loss": 1.0375, "step": 7117 }, { "epoch": 1.1796266666666666, "grad_norm": 0.026265013319867154, "learning_rate": 0.0001, "loss": 0.976, "step": 7118 }, { "epoch": 1.17968, "grad_norm": 0.024680324878551433, "learning_rate": 0.0001, "loss": 0.9119, "step": 7119 }, { "epoch": 1.1797333333333333, "grad_norm": 0.023539857265058774, "learning_rate": 0.0001, "loss": 0.9655, "step": 7120 }, { "epoch": 1.1797866666666668, "grad_norm": 0.024841862054223254, "learning_rate": 0.0001, "loss": 0.9837, "step": 7121 }, { "epoch": 1.17984, "grad_norm": 0.024497427111670106, "learning_rate": 0.0001, "loss": 0.9597, "step": 7122 }, { "epoch": 1.1798933333333332, "grad_norm": 0.02267933317222244, "learning_rate": 0.0001, "loss": 0.9345, "step": 7123 }, { "epoch": 1.1799466666666667, "grad_norm": 0.023448210891188346, "learning_rate": 0.0001, "loss": 0.9617, "step": 7124 }, { "epoch": 1.18, "grad_norm": 0.025523848846134664, "learning_rate": 0.0001, "loss": 1.0265, "step": 7125 }, { "epoch": 1.1800533333333334, "grad_norm": 0.02257814913109568, "learning_rate": 0.0001, "loss": 1.0145, "step": 7126 }, { "epoch": 1.1801066666666666, "grad_norm": 0.024374476857989522, "learning_rate": 0.0001, "loss": 0.9619, "step": 7127 }, { "epoch": 1.1801599999999999, "grad_norm": 0.024269729193991233, "learning_rate": 0.0001, "loss": 0.9184, "step": 7128 }, { "epoch": 1.1802133333333333, "grad_norm": 0.02235426548560408, "learning_rate": 0.0001, "loss": 0.9648, "step": 7129 }, { "epoch": 1.1802666666666666, "grad_norm": 0.023223789583720376, "learning_rate": 0.0001, "loss": 0.9257, "step": 7130 }, { "epoch": 1.18032, "grad_norm": 0.025443823403578, "learning_rate": 0.0001, "loss": 0.9561, "step": 7131 }, { "epoch": 1.1803733333333333, "grad_norm": 0.025045093235108278, "learning_rate": 0.0001, "loss": 0.9924, "step": 7132 }, { "epoch": 1.1804266666666667, "grad_norm": 0.023562556941936114, "learning_rate": 0.0001, "loss": 1.0006, "step": 7133 }, { "epoch": 1.18048, "grad_norm": 0.0235384675374789, "learning_rate": 0.0001, "loss": 0.9821, "step": 7134 }, { "epoch": 1.1805333333333334, "grad_norm": 0.025494153671183347, "learning_rate": 0.0001, "loss": 0.9757, "step": 7135 }, { "epoch": 1.1805866666666667, "grad_norm": 0.024189269245011216, "learning_rate": 0.0001, "loss": 0.9359, "step": 7136 }, { "epoch": 1.18064, "grad_norm": 0.02232239857894109, "learning_rate": 0.0001, "loss": 0.983, "step": 7137 }, { "epoch": 1.1806933333333334, "grad_norm": 0.02548961372562877, "learning_rate": 0.0001, "loss": 0.8809, "step": 7138 }, { "epoch": 1.1807466666666666, "grad_norm": 0.02315384088050249, "learning_rate": 0.0001, "loss": 0.9804, "step": 7139 }, { "epoch": 1.1808, "grad_norm": 0.024056976154347744, "learning_rate": 0.0001, "loss": 1.0025, "step": 7140 }, { "epoch": 1.1808533333333333, "grad_norm": 0.02264280967299478, "learning_rate": 0.0001, "loss": 0.9491, "step": 7141 }, { "epoch": 1.1809066666666665, "grad_norm": 0.02463976586916632, "learning_rate": 0.0001, "loss": 0.9956, "step": 7142 }, { "epoch": 1.18096, "grad_norm": 0.02182445858742789, "learning_rate": 0.0001, "loss": 1.0276, "step": 7143 }, { "epoch": 1.1810133333333332, "grad_norm": 0.024352927255960045, "learning_rate": 0.0001, "loss": 0.9849, "step": 7144 }, { "epoch": 1.1810666666666667, "grad_norm": 0.025228808267001076, "learning_rate": 0.0001, "loss": 0.9461, "step": 7145 }, { "epoch": 1.18112, "grad_norm": 0.023125582339206266, "learning_rate": 0.0001, "loss": 0.922, "step": 7146 }, { "epoch": 1.1811733333333334, "grad_norm": 0.023385489274879302, "learning_rate": 0.0001, "loss": 1.0178, "step": 7147 }, { "epoch": 1.1812266666666666, "grad_norm": 0.02497139634601958, "learning_rate": 0.0001, "loss": 0.9745, "step": 7148 }, { "epoch": 1.18128, "grad_norm": 0.024146412510879154, "learning_rate": 0.0001, "loss": 0.9937, "step": 7149 }, { "epoch": 1.1813333333333333, "grad_norm": 0.025438796559784347, "learning_rate": 0.0001, "loss": 0.9565, "step": 7150 }, { "epoch": 1.1813866666666666, "grad_norm": 0.022703589983844467, "learning_rate": 0.0001, "loss": 0.927, "step": 7151 }, { "epoch": 1.18144, "grad_norm": 0.023784404367671905, "learning_rate": 0.0001, "loss": 0.9569, "step": 7152 }, { "epoch": 1.1814933333333333, "grad_norm": 0.02552037520064926, "learning_rate": 0.0001, "loss": 1.0372, "step": 7153 }, { "epoch": 1.1815466666666667, "grad_norm": 0.023882394832724686, "learning_rate": 0.0001, "loss": 1.0225, "step": 7154 }, { "epoch": 1.1816, "grad_norm": 0.02436597341212055, "learning_rate": 0.0001, "loss": 0.9742, "step": 7155 }, { "epoch": 1.1816533333333332, "grad_norm": 0.023779024358138192, "learning_rate": 0.0001, "loss": 0.958, "step": 7156 }, { "epoch": 1.1817066666666667, "grad_norm": 0.023973163474463356, "learning_rate": 0.0001, "loss": 0.9871, "step": 7157 }, { "epoch": 1.18176, "grad_norm": 0.025121431599586113, "learning_rate": 0.0001, "loss": 0.9047, "step": 7158 }, { "epoch": 1.1818133333333334, "grad_norm": 0.024158372389672455, "learning_rate": 0.0001, "loss": 0.9801, "step": 7159 }, { "epoch": 1.1818666666666666, "grad_norm": 0.023932361606617644, "learning_rate": 0.0001, "loss": 1.0004, "step": 7160 }, { "epoch": 1.18192, "grad_norm": 0.023845386657451284, "learning_rate": 0.0001, "loss": 0.9046, "step": 7161 }, { "epoch": 1.1819733333333333, "grad_norm": 0.023153839626069185, "learning_rate": 0.0001, "loss": 0.9877, "step": 7162 }, { "epoch": 1.1820266666666668, "grad_norm": 0.02417154716062577, "learning_rate": 0.0001, "loss": 0.9801, "step": 7163 }, { "epoch": 1.18208, "grad_norm": 0.024628453068397494, "learning_rate": 0.0001, "loss": 0.9971, "step": 7164 }, { "epoch": 1.1821333333333333, "grad_norm": 0.0246900066288912, "learning_rate": 0.0001, "loss": 1.0331, "step": 7165 }, { "epoch": 1.1821866666666667, "grad_norm": 0.025998829695068087, "learning_rate": 0.0001, "loss": 1.0026, "step": 7166 }, { "epoch": 1.18224, "grad_norm": 0.026313139106830325, "learning_rate": 0.0001, "loss": 0.9448, "step": 7167 }, { "epoch": 1.1822933333333334, "grad_norm": 0.02509915482734428, "learning_rate": 0.0001, "loss": 0.9655, "step": 7168 }, { "epoch": 1.1823466666666667, "grad_norm": 0.025267311863319708, "learning_rate": 0.0001, "loss": 0.9984, "step": 7169 }, { "epoch": 1.1824, "grad_norm": 0.024267569129890372, "learning_rate": 0.0001, "loss": 0.9687, "step": 7170 }, { "epoch": 1.1824533333333334, "grad_norm": 0.024896342571798326, "learning_rate": 0.0001, "loss": 0.9791, "step": 7171 }, { "epoch": 1.1825066666666666, "grad_norm": 0.027135605296081156, "learning_rate": 0.0001, "loss": 0.9979, "step": 7172 }, { "epoch": 1.18256, "grad_norm": 0.02306156421541893, "learning_rate": 0.0001, "loss": 0.9622, "step": 7173 }, { "epoch": 1.1826133333333333, "grad_norm": 0.027464219429051098, "learning_rate": 0.0001, "loss": 0.9762, "step": 7174 }, { "epoch": 1.1826666666666668, "grad_norm": 0.02372664106663394, "learning_rate": 0.0001, "loss": 0.9798, "step": 7175 }, { "epoch": 1.18272, "grad_norm": 0.024673695617365682, "learning_rate": 0.0001, "loss": 0.8774, "step": 7176 }, { "epoch": 1.1827733333333335, "grad_norm": 0.023496721154339262, "learning_rate": 0.0001, "loss": 0.9711, "step": 7177 }, { "epoch": 1.1828266666666667, "grad_norm": 0.024187180291448507, "learning_rate": 0.0001, "loss": 0.9899, "step": 7178 }, { "epoch": 1.18288, "grad_norm": 0.02451912780717266, "learning_rate": 0.0001, "loss": 0.9827, "step": 7179 }, { "epoch": 1.1829333333333334, "grad_norm": 0.025438108870257548, "learning_rate": 0.0001, "loss": 0.9414, "step": 7180 }, { "epoch": 1.1829866666666666, "grad_norm": 0.023130904469363216, "learning_rate": 0.0001, "loss": 1.0187, "step": 7181 }, { "epoch": 1.18304, "grad_norm": 0.022538599934898516, "learning_rate": 0.0001, "loss": 0.9154, "step": 7182 }, { "epoch": 1.1830933333333333, "grad_norm": 0.024237269983873426, "learning_rate": 0.0001, "loss": 0.9581, "step": 7183 }, { "epoch": 1.1831466666666666, "grad_norm": 0.023147004455048126, "learning_rate": 0.0001, "loss": 0.9995, "step": 7184 }, { "epoch": 1.1832, "grad_norm": 0.021997541991087385, "learning_rate": 0.0001, "loss": 1.0048, "step": 7185 }, { "epoch": 1.1832533333333333, "grad_norm": 0.024547165177057285, "learning_rate": 0.0001, "loss": 1.0099, "step": 7186 }, { "epoch": 1.1833066666666667, "grad_norm": 0.02646023612022894, "learning_rate": 0.0001, "loss": 0.9249, "step": 7187 }, { "epoch": 1.18336, "grad_norm": 0.02451622875360858, "learning_rate": 0.0001, "loss": 0.9963, "step": 7188 }, { "epoch": 1.1834133333333334, "grad_norm": 0.024741032673860523, "learning_rate": 0.0001, "loss": 1.0219, "step": 7189 }, { "epoch": 1.1834666666666667, "grad_norm": 0.021821057634512305, "learning_rate": 0.0001, "loss": 0.9003, "step": 7190 }, { "epoch": 1.18352, "grad_norm": 0.023589788976381025, "learning_rate": 0.0001, "loss": 0.9633, "step": 7191 }, { "epoch": 1.1835733333333334, "grad_norm": 0.024767372149936174, "learning_rate": 0.0001, "loss": 0.96, "step": 7192 }, { "epoch": 1.1836266666666666, "grad_norm": 0.023481291874176222, "learning_rate": 0.0001, "loss": 0.9328, "step": 7193 }, { "epoch": 1.18368, "grad_norm": 0.022532654975791943, "learning_rate": 0.0001, "loss": 0.9939, "step": 7194 }, { "epoch": 1.1837333333333333, "grad_norm": 0.025316049027721953, "learning_rate": 0.0001, "loss": 0.9596, "step": 7195 }, { "epoch": 1.1837866666666668, "grad_norm": 0.0241564343789041, "learning_rate": 0.0001, "loss": 0.9448, "step": 7196 }, { "epoch": 1.18384, "grad_norm": 0.023526208170583863, "learning_rate": 0.0001, "loss": 0.9973, "step": 7197 }, { "epoch": 1.1838933333333332, "grad_norm": 0.026734495524658175, "learning_rate": 0.0001, "loss": 0.9859, "step": 7198 }, { "epoch": 1.1839466666666667, "grad_norm": 0.022016571864867565, "learning_rate": 0.0001, "loss": 0.9346, "step": 7199 }, { "epoch": 1.184, "grad_norm": 0.025431467434965604, "learning_rate": 0.0001, "loss": 0.9667, "step": 7200 }, { "epoch": 1.184, "eval_accuracy": 0.6193622886938921, "eval_loss": 1.3588013648986816, "eval_runtime": 62.4198, "eval_samples_per_second": 16.021, "eval_steps_per_second": 0.513, "step": 7200 }, { "epoch": 1.1840533333333334, "grad_norm": 0.022779441816370517, "learning_rate": 0.0001, "loss": 0.937, "step": 7201 }, { "epoch": 1.1841066666666666, "grad_norm": 0.02286634694342676, "learning_rate": 0.0001, "loss": 0.9219, "step": 7202 }, { "epoch": 1.1841599999999999, "grad_norm": 0.023171542544397895, "learning_rate": 0.0001, "loss": 0.9392, "step": 7203 }, { "epoch": 1.1842133333333333, "grad_norm": 0.022953654219945493, "learning_rate": 0.0001, "loss": 0.9796, "step": 7204 }, { "epoch": 1.1842666666666666, "grad_norm": 0.02319044409652968, "learning_rate": 0.0001, "loss": 0.8867, "step": 7205 }, { "epoch": 1.18432, "grad_norm": 0.02285415273915913, "learning_rate": 0.0001, "loss": 0.9366, "step": 7206 }, { "epoch": 1.1843733333333333, "grad_norm": 0.022998966704796626, "learning_rate": 0.0001, "loss": 0.974, "step": 7207 }, { "epoch": 1.1844266666666667, "grad_norm": 0.02431204168543591, "learning_rate": 0.0001, "loss": 1.0334, "step": 7208 }, { "epoch": 1.18448, "grad_norm": 0.023924885588803995, "learning_rate": 0.0001, "loss": 0.9952, "step": 7209 }, { "epoch": 1.1845333333333334, "grad_norm": 0.02413748839759489, "learning_rate": 0.0001, "loss": 0.9821, "step": 7210 }, { "epoch": 1.1845866666666667, "grad_norm": 0.024076611436306277, "learning_rate": 0.0001, "loss": 0.9456, "step": 7211 }, { "epoch": 1.18464, "grad_norm": 0.023060440111263524, "learning_rate": 0.0001, "loss": 0.9761, "step": 7212 }, { "epoch": 1.1846933333333334, "grad_norm": 0.024696545323385857, "learning_rate": 0.0001, "loss": 1.0078, "step": 7213 }, { "epoch": 1.1847466666666666, "grad_norm": 0.024707540141603482, "learning_rate": 0.0001, "loss": 1.0182, "step": 7214 }, { "epoch": 1.1848, "grad_norm": 0.02524721596807039, "learning_rate": 0.0001, "loss": 0.929, "step": 7215 }, { "epoch": 1.1848533333333333, "grad_norm": 0.02482819180508248, "learning_rate": 0.0001, "loss": 0.969, "step": 7216 }, { "epoch": 1.1849066666666666, "grad_norm": 0.023986840990697384, "learning_rate": 0.0001, "loss": 0.9636, "step": 7217 }, { "epoch": 1.18496, "grad_norm": 0.023653225501206528, "learning_rate": 0.0001, "loss": 0.9188, "step": 7218 }, { "epoch": 1.1850133333333333, "grad_norm": 0.02361485868346284, "learning_rate": 0.0001, "loss": 1.0014, "step": 7219 }, { "epoch": 1.1850666666666667, "grad_norm": 0.02405972772167845, "learning_rate": 0.0001, "loss": 1.0068, "step": 7220 }, { "epoch": 1.18512, "grad_norm": 0.025237533505105676, "learning_rate": 0.0001, "loss": 0.9899, "step": 7221 }, { "epoch": 1.1851733333333334, "grad_norm": 0.02331656396334161, "learning_rate": 0.0001, "loss": 0.9812, "step": 7222 }, { "epoch": 1.1852266666666667, "grad_norm": 0.02463496050524071, "learning_rate": 0.0001, "loss": 0.9201, "step": 7223 }, { "epoch": 1.1852800000000001, "grad_norm": 0.02346391816164802, "learning_rate": 0.0001, "loss": 1.0036, "step": 7224 }, { "epoch": 1.1853333333333333, "grad_norm": 0.024845987294712324, "learning_rate": 0.0001, "loss": 0.9075, "step": 7225 }, { "epoch": 1.1853866666666666, "grad_norm": 0.024368983417403393, "learning_rate": 0.0001, "loss": 1.0692, "step": 7226 }, { "epoch": 1.18544, "grad_norm": 0.023468143813645325, "learning_rate": 0.0001, "loss": 1.0062, "step": 7227 }, { "epoch": 1.1854933333333333, "grad_norm": 0.023996599103790508, "learning_rate": 0.0001, "loss": 0.957, "step": 7228 }, { "epoch": 1.1855466666666667, "grad_norm": 0.024518401313255948, "learning_rate": 0.0001, "loss": 1.0363, "step": 7229 }, { "epoch": 1.1856, "grad_norm": 0.025316807251904827, "learning_rate": 0.0001, "loss": 1.0237, "step": 7230 }, { "epoch": 1.1856533333333332, "grad_norm": 0.02527550400652234, "learning_rate": 0.0001, "loss": 0.9407, "step": 7231 }, { "epoch": 1.1857066666666667, "grad_norm": 0.023490707906456916, "learning_rate": 0.0001, "loss": 1.0294, "step": 7232 }, { "epoch": 1.18576, "grad_norm": 0.022828287697539994, "learning_rate": 0.0001, "loss": 0.9278, "step": 7233 }, { "epoch": 1.1858133333333334, "grad_norm": 0.02500555239420487, "learning_rate": 0.0001, "loss": 0.9855, "step": 7234 }, { "epoch": 1.1858666666666666, "grad_norm": 0.025038487844966872, "learning_rate": 0.0001, "loss": 0.9583, "step": 7235 }, { "epoch": 1.18592, "grad_norm": 0.024395239070496073, "learning_rate": 0.0001, "loss": 0.9565, "step": 7236 }, { "epoch": 1.1859733333333333, "grad_norm": 0.023228323797986793, "learning_rate": 0.0001, "loss": 0.9542, "step": 7237 }, { "epoch": 1.1860266666666668, "grad_norm": 0.025708563128523165, "learning_rate": 0.0001, "loss": 1.0057, "step": 7238 }, { "epoch": 1.18608, "grad_norm": 0.02384466537103548, "learning_rate": 0.0001, "loss": 0.9718, "step": 7239 }, { "epoch": 1.1861333333333333, "grad_norm": 0.02561311304041513, "learning_rate": 0.0001, "loss": 1.0059, "step": 7240 }, { "epoch": 1.1861866666666667, "grad_norm": 0.02540091639856959, "learning_rate": 0.0001, "loss": 0.9934, "step": 7241 }, { "epoch": 1.18624, "grad_norm": 0.02520104792816321, "learning_rate": 0.0001, "loss": 0.9106, "step": 7242 }, { "epoch": 1.1862933333333334, "grad_norm": 0.024427794478092985, "learning_rate": 0.0001, "loss": 0.9544, "step": 7243 }, { "epoch": 1.1863466666666667, "grad_norm": 0.025256035077992973, "learning_rate": 0.0001, "loss": 0.9916, "step": 7244 }, { "epoch": 1.1864, "grad_norm": 0.0255586352819274, "learning_rate": 0.0001, "loss": 0.9454, "step": 7245 }, { "epoch": 1.1864533333333334, "grad_norm": 0.02402851730230955, "learning_rate": 0.0001, "loss": 0.9922, "step": 7246 }, { "epoch": 1.1865066666666666, "grad_norm": 0.023265249288521223, "learning_rate": 0.0001, "loss": 0.9599, "step": 7247 }, { "epoch": 1.18656, "grad_norm": 0.023358282066726688, "learning_rate": 0.0001, "loss": 0.9746, "step": 7248 }, { "epoch": 1.1866133333333333, "grad_norm": 0.02347538440897358, "learning_rate": 0.0001, "loss": 0.943, "step": 7249 }, { "epoch": 1.1866666666666668, "grad_norm": 0.022890926176042613, "learning_rate": 0.0001, "loss": 0.9921, "step": 7250 }, { "epoch": 1.18672, "grad_norm": 0.023676769486721295, "learning_rate": 0.0001, "loss": 0.9173, "step": 7251 }, { "epoch": 1.1867733333333335, "grad_norm": 0.023764481047069838, "learning_rate": 0.0001, "loss": 0.9396, "step": 7252 }, { "epoch": 1.1868266666666667, "grad_norm": 0.023776013097480037, "learning_rate": 0.0001, "loss": 0.9432, "step": 7253 }, { "epoch": 1.18688, "grad_norm": 0.024953533909598462, "learning_rate": 0.0001, "loss": 0.9688, "step": 7254 }, { "epoch": 1.1869333333333334, "grad_norm": 0.022966099733034307, "learning_rate": 0.0001, "loss": 0.9719, "step": 7255 }, { "epoch": 1.1869866666666666, "grad_norm": 0.027917217566379212, "learning_rate": 0.0001, "loss": 0.9836, "step": 7256 }, { "epoch": 1.18704, "grad_norm": 0.023734157656395062, "learning_rate": 0.0001, "loss": 0.9642, "step": 7257 }, { "epoch": 1.1870933333333333, "grad_norm": 0.022911756483660242, "learning_rate": 0.0001, "loss": 0.96, "step": 7258 }, { "epoch": 1.1871466666666666, "grad_norm": 0.024241788504860962, "learning_rate": 0.0001, "loss": 0.9859, "step": 7259 }, { "epoch": 1.1872, "grad_norm": 0.024889732044349643, "learning_rate": 0.0001, "loss": 1.0366, "step": 7260 }, { "epoch": 1.1872533333333333, "grad_norm": 0.025451268772212567, "learning_rate": 0.0001, "loss": 1.0384, "step": 7261 }, { "epoch": 1.1873066666666667, "grad_norm": 0.025543984647431243, "learning_rate": 0.0001, "loss": 0.988, "step": 7262 }, { "epoch": 1.18736, "grad_norm": 0.0263804563523575, "learning_rate": 0.0001, "loss": 1.0012, "step": 7263 }, { "epoch": 1.1874133333333332, "grad_norm": 0.027621087085162286, "learning_rate": 0.0001, "loss": 0.9808, "step": 7264 }, { "epoch": 1.1874666666666667, "grad_norm": 0.0250611418413037, "learning_rate": 0.0001, "loss": 0.9349, "step": 7265 }, { "epoch": 1.18752, "grad_norm": 0.023626136273874703, "learning_rate": 0.0001, "loss": 0.9668, "step": 7266 }, { "epoch": 1.1875733333333334, "grad_norm": 0.024869804952768464, "learning_rate": 0.0001, "loss": 0.984, "step": 7267 }, { "epoch": 1.1876266666666666, "grad_norm": 0.023846868221968204, "learning_rate": 0.0001, "loss": 0.9829, "step": 7268 }, { "epoch": 1.18768, "grad_norm": 0.023954781706274977, "learning_rate": 0.0001, "loss": 1.0134, "step": 7269 }, { "epoch": 1.1877333333333333, "grad_norm": 0.024468458679635676, "learning_rate": 0.0001, "loss": 0.9614, "step": 7270 }, { "epoch": 1.1877866666666668, "grad_norm": 0.025027214649599575, "learning_rate": 0.0001, "loss": 1.0702, "step": 7271 }, { "epoch": 1.18784, "grad_norm": 0.024555256088353593, "learning_rate": 0.0001, "loss": 0.9658, "step": 7272 }, { "epoch": 1.1878933333333332, "grad_norm": 0.02337712007015724, "learning_rate": 0.0001, "loss": 0.9116, "step": 7273 }, { "epoch": 1.1879466666666667, "grad_norm": 0.024301293108066977, "learning_rate": 0.0001, "loss": 0.9479, "step": 7274 }, { "epoch": 1.188, "grad_norm": 0.02435944152251911, "learning_rate": 0.0001, "loss": 0.9907, "step": 7275 }, { "epoch": 1.1880533333333334, "grad_norm": 0.02556670314046084, "learning_rate": 0.0001, "loss": 0.9435, "step": 7276 }, { "epoch": 1.1881066666666666, "grad_norm": 0.02443190689432934, "learning_rate": 0.0001, "loss": 1.0474, "step": 7277 }, { "epoch": 1.1881599999999999, "grad_norm": 0.024176949607638457, "learning_rate": 0.0001, "loss": 0.9804, "step": 7278 }, { "epoch": 1.1882133333333333, "grad_norm": 0.024814424083827405, "learning_rate": 0.0001, "loss": 1.0138, "step": 7279 }, { "epoch": 1.1882666666666666, "grad_norm": 0.025660618202968586, "learning_rate": 0.0001, "loss": 0.9695, "step": 7280 }, { "epoch": 1.18832, "grad_norm": 0.023485954172040448, "learning_rate": 0.0001, "loss": 0.9497, "step": 7281 }, { "epoch": 1.1883733333333333, "grad_norm": 0.0235498734865542, "learning_rate": 0.0001, "loss": 1.0302, "step": 7282 }, { "epoch": 1.1884266666666667, "grad_norm": 0.02417684878125587, "learning_rate": 0.0001, "loss": 0.9823, "step": 7283 }, { "epoch": 1.18848, "grad_norm": 0.023712823558763887, "learning_rate": 0.0001, "loss": 0.9925, "step": 7284 }, { "epoch": 1.1885333333333334, "grad_norm": 0.026568959070020663, "learning_rate": 0.0001, "loss": 0.9929, "step": 7285 }, { "epoch": 1.1885866666666667, "grad_norm": 0.026136954189813533, "learning_rate": 0.0001, "loss": 0.9374, "step": 7286 }, { "epoch": 1.18864, "grad_norm": 0.02325104839331239, "learning_rate": 0.0001, "loss": 0.9445, "step": 7287 }, { "epoch": 1.1886933333333334, "grad_norm": 0.025773118064639215, "learning_rate": 0.0001, "loss": 0.9294, "step": 7288 }, { "epoch": 1.1887466666666666, "grad_norm": 0.02477854855594075, "learning_rate": 0.0001, "loss": 1.001, "step": 7289 }, { "epoch": 1.1888, "grad_norm": 0.023307576739534343, "learning_rate": 0.0001, "loss": 0.9687, "step": 7290 }, { "epoch": 1.1888533333333333, "grad_norm": 0.023809970064805747, "learning_rate": 0.0001, "loss": 0.9741, "step": 7291 }, { "epoch": 1.1889066666666666, "grad_norm": 0.024171925461060614, "learning_rate": 0.0001, "loss": 0.9797, "step": 7292 }, { "epoch": 1.18896, "grad_norm": 0.023300364304008715, "learning_rate": 0.0001, "loss": 0.9499, "step": 7293 }, { "epoch": 1.1890133333333333, "grad_norm": 0.026998156657543296, "learning_rate": 0.0001, "loss": 0.9721, "step": 7294 }, { "epoch": 1.1890666666666667, "grad_norm": 0.023797512720073844, "learning_rate": 0.0001, "loss": 0.9085, "step": 7295 }, { "epoch": 1.18912, "grad_norm": 0.024780136814303848, "learning_rate": 0.0001, "loss": 0.9392, "step": 7296 }, { "epoch": 1.1891733333333334, "grad_norm": 0.023243140647513604, "learning_rate": 0.0001, "loss": 0.9863, "step": 7297 }, { "epoch": 1.1892266666666667, "grad_norm": 0.02379946640188472, "learning_rate": 0.0001, "loss": 1.0158, "step": 7298 }, { "epoch": 1.1892800000000001, "grad_norm": 0.024613332345151704, "learning_rate": 0.0001, "loss": 1.0277, "step": 7299 }, { "epoch": 1.1893333333333334, "grad_norm": 0.02528042042201784, "learning_rate": 0.0001, "loss": 0.9167, "step": 7300 }, { "epoch": 1.1893866666666666, "grad_norm": 0.022519619927803543, "learning_rate": 0.0001, "loss": 0.9946, "step": 7301 }, { "epoch": 1.18944, "grad_norm": 0.023034132064479948, "learning_rate": 0.0001, "loss": 0.9754, "step": 7302 }, { "epoch": 1.1894933333333333, "grad_norm": 0.025020411583797978, "learning_rate": 0.0001, "loss": 0.9658, "step": 7303 }, { "epoch": 1.1895466666666668, "grad_norm": 0.023129329706279553, "learning_rate": 0.0001, "loss": 0.9085, "step": 7304 }, { "epoch": 1.1896, "grad_norm": 0.024191099596572944, "learning_rate": 0.0001, "loss": 0.9672, "step": 7305 }, { "epoch": 1.1896533333333332, "grad_norm": 0.02387902608830227, "learning_rate": 0.0001, "loss": 0.9095, "step": 7306 }, { "epoch": 1.1897066666666667, "grad_norm": 0.022987464858405846, "learning_rate": 0.0001, "loss": 0.953, "step": 7307 }, { "epoch": 1.18976, "grad_norm": 0.022754983675899877, "learning_rate": 0.0001, "loss": 0.8587, "step": 7308 }, { "epoch": 1.1898133333333334, "grad_norm": 0.02357706190700962, "learning_rate": 0.0001, "loss": 0.9375, "step": 7309 }, { "epoch": 1.1898666666666666, "grad_norm": 0.02438008959075366, "learning_rate": 0.0001, "loss": 1.0033, "step": 7310 }, { "epoch": 1.18992, "grad_norm": 0.025071235049286968, "learning_rate": 0.0001, "loss": 0.9913, "step": 7311 }, { "epoch": 1.1899733333333333, "grad_norm": 0.024423178236285956, "learning_rate": 0.0001, "loss": 0.9382, "step": 7312 }, { "epoch": 1.1900266666666668, "grad_norm": 0.025981373476802367, "learning_rate": 0.0001, "loss": 0.8907, "step": 7313 }, { "epoch": 1.19008, "grad_norm": 0.024232790010131743, "learning_rate": 0.0001, "loss": 1.0358, "step": 7314 }, { "epoch": 1.1901333333333333, "grad_norm": 0.025609270684906097, "learning_rate": 0.0001, "loss": 1.0064, "step": 7315 }, { "epoch": 1.1901866666666667, "grad_norm": 0.02623530578219802, "learning_rate": 0.0001, "loss": 0.947, "step": 7316 }, { "epoch": 1.19024, "grad_norm": 0.025801460531626113, "learning_rate": 0.0001, "loss": 0.9479, "step": 7317 }, { "epoch": 1.1902933333333334, "grad_norm": 0.022939578479734882, "learning_rate": 0.0001, "loss": 1.0038, "step": 7318 }, { "epoch": 1.1903466666666667, "grad_norm": 0.02545522570594253, "learning_rate": 0.0001, "loss": 0.9818, "step": 7319 }, { "epoch": 1.1904, "grad_norm": 0.026456374293731176, "learning_rate": 0.0001, "loss": 0.9405, "step": 7320 }, { "epoch": 1.1904533333333334, "grad_norm": 0.02765005641960458, "learning_rate": 0.0001, "loss": 0.9367, "step": 7321 }, { "epoch": 1.1905066666666666, "grad_norm": 0.023307099803310884, "learning_rate": 0.0001, "loss": 1.0359, "step": 7322 }, { "epoch": 1.19056, "grad_norm": 0.024172623739187927, "learning_rate": 0.0001, "loss": 0.9812, "step": 7323 }, { "epoch": 1.1906133333333333, "grad_norm": 0.023393981275318613, "learning_rate": 0.0001, "loss": 0.9723, "step": 7324 }, { "epoch": 1.1906666666666668, "grad_norm": 0.026128979376777273, "learning_rate": 0.0001, "loss": 0.9741, "step": 7325 }, { "epoch": 1.19072, "grad_norm": 0.025279072854275872, "learning_rate": 0.0001, "loss": 1.0719, "step": 7326 }, { "epoch": 1.1907733333333332, "grad_norm": 0.02487325746004121, "learning_rate": 0.0001, "loss": 0.9519, "step": 7327 }, { "epoch": 1.1908266666666667, "grad_norm": 0.023326716658095926, "learning_rate": 0.0001, "loss": 0.9386, "step": 7328 }, { "epoch": 1.19088, "grad_norm": 0.02483885132731976, "learning_rate": 0.0001, "loss": 1.051, "step": 7329 }, { "epoch": 1.1909333333333334, "grad_norm": 0.023965568336806183, "learning_rate": 0.0001, "loss": 1.0115, "step": 7330 }, { "epoch": 1.1909866666666666, "grad_norm": 0.02295365702978976, "learning_rate": 0.0001, "loss": 0.9593, "step": 7331 }, { "epoch": 1.19104, "grad_norm": 0.02440923273321154, "learning_rate": 0.0001, "loss": 0.9714, "step": 7332 }, { "epoch": 1.1910933333333333, "grad_norm": 0.023606189701284003, "learning_rate": 0.0001, "loss": 0.9859, "step": 7333 }, { "epoch": 1.1911466666666666, "grad_norm": 0.02532364593171206, "learning_rate": 0.0001, "loss": 0.9048, "step": 7334 }, { "epoch": 1.1912, "grad_norm": 0.024829928621763264, "learning_rate": 0.0001, "loss": 0.998, "step": 7335 }, { "epoch": 1.1912533333333333, "grad_norm": 0.023206890475607873, "learning_rate": 0.0001, "loss": 0.9854, "step": 7336 }, { "epoch": 1.1913066666666667, "grad_norm": 0.024364551956681312, "learning_rate": 0.0001, "loss": 1.0089, "step": 7337 }, { "epoch": 1.19136, "grad_norm": 0.023931846435625195, "learning_rate": 0.0001, "loss": 0.9213, "step": 7338 }, { "epoch": 1.1914133333333332, "grad_norm": 0.026460347165863023, "learning_rate": 0.0001, "loss": 1.0251, "step": 7339 }, { "epoch": 1.1914666666666667, "grad_norm": 0.023174057601070986, "learning_rate": 0.0001, "loss": 0.9901, "step": 7340 }, { "epoch": 1.19152, "grad_norm": 0.024472848338617507, "learning_rate": 0.0001, "loss": 0.9464, "step": 7341 }, { "epoch": 1.1915733333333334, "grad_norm": 0.02411531467343324, "learning_rate": 0.0001, "loss": 0.9193, "step": 7342 }, { "epoch": 1.1916266666666666, "grad_norm": 0.022465804941203704, "learning_rate": 0.0001, "loss": 0.9095, "step": 7343 }, { "epoch": 1.19168, "grad_norm": 0.023707874120103938, "learning_rate": 0.0001, "loss": 1.0058, "step": 7344 }, { "epoch": 1.1917333333333333, "grad_norm": 0.02310725475307972, "learning_rate": 0.0001, "loss": 0.9275, "step": 7345 }, { "epoch": 1.1917866666666668, "grad_norm": 0.024386887514083175, "learning_rate": 0.0001, "loss": 0.993, "step": 7346 }, { "epoch": 1.19184, "grad_norm": 0.022193427358321815, "learning_rate": 0.0001, "loss": 0.9901, "step": 7347 }, { "epoch": 1.1918933333333332, "grad_norm": 0.02292456566002935, "learning_rate": 0.0001, "loss": 0.9759, "step": 7348 }, { "epoch": 1.1919466666666667, "grad_norm": 0.024284459032174154, "learning_rate": 0.0001, "loss": 0.9761, "step": 7349 }, { "epoch": 1.192, "grad_norm": 0.023345296337456974, "learning_rate": 0.0001, "loss": 0.9418, "step": 7350 }, { "epoch": 1.1920533333333334, "grad_norm": 0.023463576530002632, "learning_rate": 0.0001, "loss": 0.9977, "step": 7351 }, { "epoch": 1.1921066666666666, "grad_norm": 0.024983702473934728, "learning_rate": 0.0001, "loss": 1.0027, "step": 7352 }, { "epoch": 1.1921599999999999, "grad_norm": 0.024021554170503688, "learning_rate": 0.0001, "loss": 1.0009, "step": 7353 }, { "epoch": 1.1922133333333333, "grad_norm": 0.023721624757563686, "learning_rate": 0.0001, "loss": 0.9272, "step": 7354 }, { "epoch": 1.1922666666666666, "grad_norm": 0.02259658250586971, "learning_rate": 0.0001, "loss": 0.9504, "step": 7355 }, { "epoch": 1.19232, "grad_norm": 0.02394703985615632, "learning_rate": 0.0001, "loss": 1.0049, "step": 7356 }, { "epoch": 1.1923733333333333, "grad_norm": 0.025198530650331778, "learning_rate": 0.0001, "loss": 0.9637, "step": 7357 }, { "epoch": 1.1924266666666667, "grad_norm": 0.02304924223789944, "learning_rate": 0.0001, "loss": 0.9324, "step": 7358 }, { "epoch": 1.19248, "grad_norm": 0.023766306636896876, "learning_rate": 0.0001, "loss": 0.9228, "step": 7359 }, { "epoch": 1.1925333333333334, "grad_norm": 0.024922361453554, "learning_rate": 0.0001, "loss": 0.9775, "step": 7360 }, { "epoch": 1.1925866666666667, "grad_norm": 0.023130411151795843, "learning_rate": 0.0001, "loss": 1.0109, "step": 7361 }, { "epoch": 1.19264, "grad_norm": 0.02324704036423622, "learning_rate": 0.0001, "loss": 0.9455, "step": 7362 }, { "epoch": 1.1926933333333334, "grad_norm": 0.023141999858707383, "learning_rate": 0.0001, "loss": 1.0008, "step": 7363 }, { "epoch": 1.1927466666666666, "grad_norm": 0.022549064511613474, "learning_rate": 0.0001, "loss": 0.9968, "step": 7364 }, { "epoch": 1.1928, "grad_norm": 0.023068696445146922, "learning_rate": 0.0001, "loss": 0.9421, "step": 7365 }, { "epoch": 1.1928533333333333, "grad_norm": 0.023230322419577093, "learning_rate": 0.0001, "loss": 0.9777, "step": 7366 }, { "epoch": 1.1929066666666666, "grad_norm": 0.023955375652586885, "learning_rate": 0.0001, "loss": 0.9495, "step": 7367 }, { "epoch": 1.19296, "grad_norm": 0.022687509150943048, "learning_rate": 0.0001, "loss": 0.9266, "step": 7368 }, { "epoch": 1.1930133333333333, "grad_norm": 0.023144071417011313, "learning_rate": 0.0001, "loss": 0.9887, "step": 7369 }, { "epoch": 1.1930666666666667, "grad_norm": 0.023447335174748788, "learning_rate": 0.0001, "loss": 1.0195, "step": 7370 }, { "epoch": 1.19312, "grad_norm": 0.02262756496524868, "learning_rate": 0.0001, "loss": 0.9485, "step": 7371 }, { "epoch": 1.1931733333333334, "grad_norm": 0.024516931750017117, "learning_rate": 0.0001, "loss": 1.0099, "step": 7372 }, { "epoch": 1.1932266666666667, "grad_norm": 0.02400520075804333, "learning_rate": 0.0001, "loss": 1.0042, "step": 7373 }, { "epoch": 1.1932800000000001, "grad_norm": 0.025746881230434976, "learning_rate": 0.0001, "loss": 1.013, "step": 7374 }, { "epoch": 1.1933333333333334, "grad_norm": 0.02450941935429656, "learning_rate": 0.0001, "loss": 0.9968, "step": 7375 }, { "epoch": 1.1933866666666666, "grad_norm": 0.02213884385958393, "learning_rate": 0.0001, "loss": 0.9123, "step": 7376 }, { "epoch": 1.19344, "grad_norm": 0.023065572756390634, "learning_rate": 0.0001, "loss": 0.9297, "step": 7377 }, { "epoch": 1.1934933333333333, "grad_norm": 0.026408915930016114, "learning_rate": 0.0001, "loss": 0.9265, "step": 7378 }, { "epoch": 1.1935466666666668, "grad_norm": 0.025998941425251356, "learning_rate": 0.0001, "loss": 0.9896, "step": 7379 }, { "epoch": 1.1936, "grad_norm": 0.024154567642150696, "learning_rate": 0.0001, "loss": 1.0362, "step": 7380 }, { "epoch": 1.1936533333333332, "grad_norm": 0.024992682344015076, "learning_rate": 0.0001, "loss": 1.0511, "step": 7381 }, { "epoch": 1.1937066666666667, "grad_norm": 0.026059407610579368, "learning_rate": 0.0001, "loss": 0.9644, "step": 7382 }, { "epoch": 1.19376, "grad_norm": 0.02557795321788315, "learning_rate": 0.0001, "loss": 0.9643, "step": 7383 }, { "epoch": 1.1938133333333334, "grad_norm": 0.023656603815181563, "learning_rate": 0.0001, "loss": 0.9662, "step": 7384 }, { "epoch": 1.1938666666666666, "grad_norm": 0.02289724713067941, "learning_rate": 0.0001, "loss": 0.9604, "step": 7385 }, { "epoch": 1.19392, "grad_norm": 0.024935132274748008, "learning_rate": 0.0001, "loss": 0.9426, "step": 7386 }, { "epoch": 1.1939733333333333, "grad_norm": 0.023073016187004657, "learning_rate": 0.0001, "loss": 0.9325, "step": 7387 }, { "epoch": 1.1940266666666666, "grad_norm": 0.024891392487800864, "learning_rate": 0.0001, "loss": 1.0063, "step": 7388 }, { "epoch": 1.19408, "grad_norm": 0.0229337197026798, "learning_rate": 0.0001, "loss": 0.9456, "step": 7389 }, { "epoch": 1.1941333333333333, "grad_norm": 0.02492513112798984, "learning_rate": 0.0001, "loss": 0.9574, "step": 7390 }, { "epoch": 1.1941866666666667, "grad_norm": 0.023463647706361793, "learning_rate": 0.0001, "loss": 0.9678, "step": 7391 }, { "epoch": 1.19424, "grad_norm": 0.023155950822287795, "learning_rate": 0.0001, "loss": 0.9417, "step": 7392 }, { "epoch": 1.1942933333333334, "grad_norm": 0.024088051354453643, "learning_rate": 0.0001, "loss": 0.998, "step": 7393 }, { "epoch": 1.1943466666666667, "grad_norm": 0.03395375894014035, "learning_rate": 0.0001, "loss": 0.9508, "step": 7394 }, { "epoch": 1.1944, "grad_norm": 0.023091814175704155, "learning_rate": 0.0001, "loss": 0.9933, "step": 7395 }, { "epoch": 1.1944533333333334, "grad_norm": 0.025614154051242562, "learning_rate": 0.0001, "loss": 0.963, "step": 7396 }, { "epoch": 1.1945066666666666, "grad_norm": 0.02315968517241408, "learning_rate": 0.0001, "loss": 0.917, "step": 7397 }, { "epoch": 1.19456, "grad_norm": 0.024065336298590048, "learning_rate": 0.0001, "loss": 0.8847, "step": 7398 }, { "epoch": 1.1946133333333333, "grad_norm": 0.022915831062199285, "learning_rate": 0.0001, "loss": 0.9413, "step": 7399 }, { "epoch": 1.1946666666666665, "grad_norm": 0.022730668606442666, "learning_rate": 0.0001, "loss": 0.9679, "step": 7400 }, { "epoch": 1.1946666666666665, "eval_accuracy": 0.6194253226770883, "eval_loss": 1.358161449432373, "eval_runtime": 62.7961, "eval_samples_per_second": 15.925, "eval_steps_per_second": 0.51, "step": 7400 }, { "epoch": 1.19472, "grad_norm": 0.021446175437320577, "learning_rate": 0.0001, "loss": 0.9814, "step": 7401 }, { "epoch": 1.1947733333333332, "grad_norm": 0.025216683729206008, "learning_rate": 0.0001, "loss": 0.9987, "step": 7402 }, { "epoch": 1.1948266666666667, "grad_norm": 0.024213210163526063, "learning_rate": 0.0001, "loss": 1.0094, "step": 7403 }, { "epoch": 1.19488, "grad_norm": 0.02302040781443722, "learning_rate": 0.0001, "loss": 0.9437, "step": 7404 }, { "epoch": 1.1949333333333334, "grad_norm": 0.023410594106017157, "learning_rate": 0.0001, "loss": 0.9532, "step": 7405 }, { "epoch": 1.1949866666666666, "grad_norm": 0.025233291437894823, "learning_rate": 0.0001, "loss": 0.925, "step": 7406 }, { "epoch": 1.19504, "grad_norm": 0.025376886309657794, "learning_rate": 0.0001, "loss": 1.0035, "step": 7407 }, { "epoch": 1.1950933333333333, "grad_norm": 0.02499387815026795, "learning_rate": 0.0001, "loss": 0.9462, "step": 7408 }, { "epoch": 1.1951466666666666, "grad_norm": 0.022795399428021144, "learning_rate": 0.0001, "loss": 0.986, "step": 7409 }, { "epoch": 1.1952, "grad_norm": 0.02421858752623448, "learning_rate": 0.0001, "loss": 1.0206, "step": 7410 }, { "epoch": 1.1952533333333333, "grad_norm": 0.025563930517645998, "learning_rate": 0.0001, "loss": 0.957, "step": 7411 }, { "epoch": 1.1953066666666667, "grad_norm": 0.024094290634832635, "learning_rate": 0.0001, "loss": 1.0229, "step": 7412 }, { "epoch": 1.19536, "grad_norm": 0.023637441191500724, "learning_rate": 0.0001, "loss": 0.9844, "step": 7413 }, { "epoch": 1.1954133333333332, "grad_norm": 0.0237391299895449, "learning_rate": 0.0001, "loss": 0.9569, "step": 7414 }, { "epoch": 1.1954666666666667, "grad_norm": 0.026327870558596034, "learning_rate": 0.0001, "loss": 0.9505, "step": 7415 }, { "epoch": 1.19552, "grad_norm": 0.026781662268069478, "learning_rate": 0.0001, "loss": 0.9806, "step": 7416 }, { "epoch": 1.1955733333333334, "grad_norm": 0.02387499871997671, "learning_rate": 0.0001, "loss": 0.9838, "step": 7417 }, { "epoch": 1.1956266666666666, "grad_norm": 0.02403936747140502, "learning_rate": 0.0001, "loss": 0.988, "step": 7418 }, { "epoch": 1.19568, "grad_norm": 0.02429483128480656, "learning_rate": 0.0001, "loss": 0.9944, "step": 7419 }, { "epoch": 1.1957333333333333, "grad_norm": 0.024438543293955815, "learning_rate": 0.0001, "loss": 0.9501, "step": 7420 }, { "epoch": 1.1957866666666668, "grad_norm": 0.02292116561062347, "learning_rate": 0.0001, "loss": 0.9266, "step": 7421 }, { "epoch": 1.19584, "grad_norm": 0.023383976677493274, "learning_rate": 0.0001, "loss": 1.0067, "step": 7422 }, { "epoch": 1.1958933333333333, "grad_norm": 0.024514617248973285, "learning_rate": 0.0001, "loss": 0.9701, "step": 7423 }, { "epoch": 1.1959466666666667, "grad_norm": 0.024659955806636016, "learning_rate": 0.0001, "loss": 0.9951, "step": 7424 }, { "epoch": 1.196, "grad_norm": 0.024553294364470686, "learning_rate": 0.0001, "loss": 1.0093, "step": 7425 }, { "epoch": 1.1960533333333334, "grad_norm": 0.02438883423203726, "learning_rate": 0.0001, "loss": 0.9737, "step": 7426 }, { "epoch": 1.1961066666666667, "grad_norm": 0.02503938762817216, "learning_rate": 0.0001, "loss": 0.9623, "step": 7427 }, { "epoch": 1.19616, "grad_norm": 0.023683197234370908, "learning_rate": 0.0001, "loss": 0.9417, "step": 7428 }, { "epoch": 1.1962133333333334, "grad_norm": 0.02610810471339212, "learning_rate": 0.0001, "loss": 1.0125, "step": 7429 }, { "epoch": 1.1962666666666666, "grad_norm": 0.02399686695696518, "learning_rate": 0.0001, "loss": 0.8986, "step": 7430 }, { "epoch": 1.19632, "grad_norm": 0.024666088162908585, "learning_rate": 0.0001, "loss": 0.9824, "step": 7431 }, { "epoch": 1.1963733333333333, "grad_norm": 0.02457279462446153, "learning_rate": 0.0001, "loss": 1.0256, "step": 7432 }, { "epoch": 1.1964266666666667, "grad_norm": 0.024564889990187917, "learning_rate": 0.0001, "loss": 1.0321, "step": 7433 }, { "epoch": 1.19648, "grad_norm": 0.0238776390862944, "learning_rate": 0.0001, "loss": 0.9652, "step": 7434 }, { "epoch": 1.1965333333333334, "grad_norm": 0.022567118650500314, "learning_rate": 0.0001, "loss": 0.9575, "step": 7435 }, { "epoch": 1.1965866666666667, "grad_norm": 0.02454680242824364, "learning_rate": 0.0001, "loss": 1.0575, "step": 7436 }, { "epoch": 1.19664, "grad_norm": 0.023311310086464792, "learning_rate": 0.0001, "loss": 1.0065, "step": 7437 }, { "epoch": 1.1966933333333334, "grad_norm": 0.023735900870387336, "learning_rate": 0.0001, "loss": 0.9669, "step": 7438 }, { "epoch": 1.1967466666666666, "grad_norm": 0.02231672850063984, "learning_rate": 0.0001, "loss": 1.039, "step": 7439 }, { "epoch": 1.1968, "grad_norm": 0.02477848135967527, "learning_rate": 0.0001, "loss": 0.9379, "step": 7440 }, { "epoch": 1.1968533333333333, "grad_norm": 0.02455128951184453, "learning_rate": 0.0001, "loss": 0.9351, "step": 7441 }, { "epoch": 1.1969066666666666, "grad_norm": 0.02448757318309528, "learning_rate": 0.0001, "loss": 0.9871, "step": 7442 }, { "epoch": 1.19696, "grad_norm": 0.025574639064555975, "learning_rate": 0.0001, "loss": 0.976, "step": 7443 }, { "epoch": 1.1970133333333333, "grad_norm": 0.02328439371155742, "learning_rate": 0.0001, "loss": 0.9291, "step": 7444 }, { "epoch": 1.1970666666666667, "grad_norm": 0.023047607168034775, "learning_rate": 0.0001, "loss": 0.9638, "step": 7445 }, { "epoch": 1.19712, "grad_norm": 0.023993484151347406, "learning_rate": 0.0001, "loss": 0.9901, "step": 7446 }, { "epoch": 1.1971733333333334, "grad_norm": 0.023368988771869808, "learning_rate": 0.0001, "loss": 0.9174, "step": 7447 }, { "epoch": 1.1972266666666667, "grad_norm": 0.02344179895754702, "learning_rate": 0.0001, "loss": 0.9283, "step": 7448 }, { "epoch": 1.1972800000000001, "grad_norm": 0.02235341411435688, "learning_rate": 0.0001, "loss": 0.9556, "step": 7449 }, { "epoch": 1.1973333333333334, "grad_norm": 0.023443178832691237, "learning_rate": 0.0001, "loss": 0.9794, "step": 7450 }, { "epoch": 1.1973866666666666, "grad_norm": 0.02398218809258825, "learning_rate": 0.0001, "loss": 0.958, "step": 7451 }, { "epoch": 1.19744, "grad_norm": 0.022623822416032092, "learning_rate": 0.0001, "loss": 0.9436, "step": 7452 }, { "epoch": 1.1974933333333333, "grad_norm": 0.023857698939356582, "learning_rate": 0.0001, "loss": 0.9887, "step": 7453 }, { "epoch": 1.1975466666666668, "grad_norm": 0.023467002534355342, "learning_rate": 0.0001, "loss": 0.9706, "step": 7454 }, { "epoch": 1.1976, "grad_norm": 0.023078542616859595, "learning_rate": 0.0001, "loss": 0.9119, "step": 7455 }, { "epoch": 1.1976533333333332, "grad_norm": 0.026018827915449357, "learning_rate": 0.0001, "loss": 0.9613, "step": 7456 }, { "epoch": 1.1977066666666667, "grad_norm": 0.02413192401544408, "learning_rate": 0.0001, "loss": 0.9664, "step": 7457 }, { "epoch": 1.19776, "grad_norm": 0.024894483832169103, "learning_rate": 0.0001, "loss": 1.0238, "step": 7458 }, { "epoch": 1.1978133333333334, "grad_norm": 0.021879407623732406, "learning_rate": 0.0001, "loss": 0.9424, "step": 7459 }, { "epoch": 1.1978666666666666, "grad_norm": 0.02400922445381177, "learning_rate": 0.0001, "loss": 0.9773, "step": 7460 }, { "epoch": 1.19792, "grad_norm": 0.02583686974660191, "learning_rate": 0.0001, "loss": 0.9388, "step": 7461 }, { "epoch": 1.1979733333333333, "grad_norm": 0.024591560692769944, "learning_rate": 0.0001, "loss": 0.9809, "step": 7462 }, { "epoch": 1.1980266666666666, "grad_norm": 0.02248282902013012, "learning_rate": 0.0001, "loss": 0.9301, "step": 7463 }, { "epoch": 1.19808, "grad_norm": 0.023822596922863096, "learning_rate": 0.0001, "loss": 0.9985, "step": 7464 }, { "epoch": 1.1981333333333333, "grad_norm": 0.026396723699907327, "learning_rate": 0.0001, "loss": 0.939, "step": 7465 }, { "epoch": 1.1981866666666667, "grad_norm": 0.0243636209680058, "learning_rate": 0.0001, "loss": 0.9481, "step": 7466 }, { "epoch": 1.19824, "grad_norm": 0.025136451194091098, "learning_rate": 0.0001, "loss": 1.0048, "step": 7467 }, { "epoch": 1.1982933333333334, "grad_norm": 0.023216500632941464, "learning_rate": 0.0001, "loss": 0.9883, "step": 7468 }, { "epoch": 1.1983466666666667, "grad_norm": 0.024083901471719422, "learning_rate": 0.0001, "loss": 1.0119, "step": 7469 }, { "epoch": 1.1984, "grad_norm": 0.024041955504645267, "learning_rate": 0.0001, "loss": 1.0031, "step": 7470 }, { "epoch": 1.1984533333333334, "grad_norm": 0.02534715585355698, "learning_rate": 0.0001, "loss": 0.9551, "step": 7471 }, { "epoch": 1.1985066666666666, "grad_norm": 0.025392463532643406, "learning_rate": 0.0001, "loss": 0.9969, "step": 7472 }, { "epoch": 1.19856, "grad_norm": 0.024092115953714556, "learning_rate": 0.0001, "loss": 1.0307, "step": 7473 }, { "epoch": 1.1986133333333333, "grad_norm": 0.024088276658927044, "learning_rate": 0.0001, "loss": 0.9247, "step": 7474 }, { "epoch": 1.1986666666666665, "grad_norm": 0.024117079038712748, "learning_rate": 0.0001, "loss": 0.9703, "step": 7475 }, { "epoch": 1.19872, "grad_norm": 0.024619170196906046, "learning_rate": 0.0001, "loss": 0.9701, "step": 7476 }, { "epoch": 1.1987733333333332, "grad_norm": 0.025281407187666933, "learning_rate": 0.0001, "loss": 0.9244, "step": 7477 }, { "epoch": 1.1988266666666667, "grad_norm": 0.02523045747368325, "learning_rate": 0.0001, "loss": 1.0831, "step": 7478 }, { "epoch": 1.19888, "grad_norm": 0.024968610326212802, "learning_rate": 0.0001, "loss": 0.918, "step": 7479 }, { "epoch": 1.1989333333333334, "grad_norm": 0.02520561145998319, "learning_rate": 0.0001, "loss": 0.9655, "step": 7480 }, { "epoch": 1.1989866666666666, "grad_norm": 0.02406379971651878, "learning_rate": 0.0001, "loss": 1.017, "step": 7481 }, { "epoch": 1.19904, "grad_norm": 0.023377304883347355, "learning_rate": 0.0001, "loss": 0.9817, "step": 7482 }, { "epoch": 1.1990933333333333, "grad_norm": 0.023319647910902543, "learning_rate": 0.0001, "loss": 0.9604, "step": 7483 }, { "epoch": 1.1991466666666666, "grad_norm": 0.02295306040200707, "learning_rate": 0.0001, "loss": 0.9857, "step": 7484 }, { "epoch": 1.1992, "grad_norm": 0.02273022625641468, "learning_rate": 0.0001, "loss": 0.9295, "step": 7485 }, { "epoch": 1.1992533333333333, "grad_norm": 0.025221259741013212, "learning_rate": 0.0001, "loss": 0.9491, "step": 7486 }, { "epoch": 1.1993066666666667, "grad_norm": 0.026099363739381022, "learning_rate": 0.0001, "loss": 0.9811, "step": 7487 }, { "epoch": 1.19936, "grad_norm": 0.022777961340380647, "learning_rate": 0.0001, "loss": 0.9547, "step": 7488 }, { "epoch": 1.1994133333333332, "grad_norm": 0.024971628336852306, "learning_rate": 0.0001, "loss": 0.9077, "step": 7489 }, { "epoch": 1.1994666666666667, "grad_norm": 0.025556983150219897, "learning_rate": 0.0001, "loss": 0.9352, "step": 7490 }, { "epoch": 1.19952, "grad_norm": 0.02468359521110325, "learning_rate": 0.0001, "loss": 0.9829, "step": 7491 }, { "epoch": 1.1995733333333334, "grad_norm": 0.023151292893781397, "learning_rate": 0.0001, "loss": 1.0059, "step": 7492 }, { "epoch": 1.1996266666666666, "grad_norm": 0.02617109583503248, "learning_rate": 0.0001, "loss": 0.9655, "step": 7493 }, { "epoch": 1.19968, "grad_norm": 0.02455468880733365, "learning_rate": 0.0001, "loss": 0.956, "step": 7494 }, { "epoch": 1.1997333333333333, "grad_norm": 0.024207356596957854, "learning_rate": 0.0001, "loss": 0.9481, "step": 7495 }, { "epoch": 1.1997866666666668, "grad_norm": 0.025038919331614635, "learning_rate": 0.0001, "loss": 0.9429, "step": 7496 }, { "epoch": 1.19984, "grad_norm": 0.02484934127880927, "learning_rate": 0.0001, "loss": 0.8885, "step": 7497 }, { "epoch": 1.1998933333333333, "grad_norm": 0.023941429842081318, "learning_rate": 0.0001, "loss": 0.9858, "step": 7498 }, { "epoch": 1.1999466666666667, "grad_norm": 0.02420790918545988, "learning_rate": 0.0001, "loss": 0.9915, "step": 7499 }, { "epoch": 1.2, "grad_norm": 0.0236173721048495, "learning_rate": 0.0001, "loss": 0.9672, "step": 7500 }, { "epoch": 2.0000533333333332, "grad_norm": 0.023243935971692872, "learning_rate": 0.0001, "loss": 0.9879, "step": 7501 }, { "epoch": 2.0001066666666665, "grad_norm": 0.02477591348519496, "learning_rate": 0.0001, "loss": 1.0342, "step": 7502 }, { "epoch": 2.00016, "grad_norm": 0.026510344329277274, "learning_rate": 0.0001, "loss": 1.0258, "step": 7503 }, { "epoch": 2.0002133333333334, "grad_norm": 0.023476652480063424, "learning_rate": 0.0001, "loss": 0.9507, "step": 7504 }, { "epoch": 2.0002666666666666, "grad_norm": 0.02598958651941795, "learning_rate": 0.0001, "loss": 0.9646, "step": 7505 }, { "epoch": 2.00032, "grad_norm": 0.025559624121707102, "learning_rate": 0.0001, "loss": 1.0325, "step": 7506 }, { "epoch": 2.000373333333333, "grad_norm": 0.02278491812143681, "learning_rate": 0.0001, "loss": 0.9665, "step": 7507 }, { "epoch": 2.000426666666667, "grad_norm": 0.025769267338245652, "learning_rate": 0.0001, "loss": 0.9359, "step": 7508 }, { "epoch": 2.00048, "grad_norm": 0.024448153186492006, "learning_rate": 0.0001, "loss": 0.9742, "step": 7509 }, { "epoch": 2.0005333333333333, "grad_norm": 0.024939430519777275, "learning_rate": 0.0001, "loss": 0.9986, "step": 7510 }, { "epoch": 2.0005866666666665, "grad_norm": 0.02536215567299092, "learning_rate": 0.0001, "loss": 0.9407, "step": 7511 }, { "epoch": 2.00064, "grad_norm": 0.02328793101786527, "learning_rate": 0.0001, "loss": 0.9667, "step": 7512 }, { "epoch": 2.0006933333333334, "grad_norm": 0.023750860679008782, "learning_rate": 0.0001, "loss": 0.9933, "step": 7513 }, { "epoch": 2.0007466666666667, "grad_norm": 0.024552908007161717, "learning_rate": 0.0001, "loss": 0.9468, "step": 7514 }, { "epoch": 2.0008, "grad_norm": 0.023408590592833685, "learning_rate": 0.0001, "loss": 0.9848, "step": 7515 }, { "epoch": 2.000853333333333, "grad_norm": 0.026423466153139775, "learning_rate": 0.0001, "loss": 0.944, "step": 7516 }, { "epoch": 2.000906666666667, "grad_norm": 0.02441636032304467, "learning_rate": 0.0001, "loss": 1.0389, "step": 7517 }, { "epoch": 2.00096, "grad_norm": 0.02607252784213608, "learning_rate": 0.0001, "loss": 0.963, "step": 7518 }, { "epoch": 2.0010133333333333, "grad_norm": 0.02603810483133439, "learning_rate": 0.0001, "loss": 0.9807, "step": 7519 }, { "epoch": 2.0010666666666665, "grad_norm": 0.02284649372236959, "learning_rate": 0.0001, "loss": 0.9753, "step": 7520 }, { "epoch": 2.00112, "grad_norm": 0.02741438249099059, "learning_rate": 0.0001, "loss": 0.9541, "step": 7521 }, { "epoch": 2.0011733333333335, "grad_norm": 0.02504479094797945, "learning_rate": 0.0001, "loss": 0.9566, "step": 7522 }, { "epoch": 2.0012266666666667, "grad_norm": 0.024219082216946075, "learning_rate": 0.0001, "loss": 0.9819, "step": 7523 }, { "epoch": 2.00128, "grad_norm": 0.02469056804448101, "learning_rate": 0.0001, "loss": 0.9721, "step": 7524 }, { "epoch": 2.001333333333333, "grad_norm": 0.024890841972753933, "learning_rate": 0.0001, "loss": 0.976, "step": 7525 }, { "epoch": 2.001386666666667, "grad_norm": 0.022889965067134636, "learning_rate": 0.0001, "loss": 0.9813, "step": 7526 }, { "epoch": 2.00144, "grad_norm": 0.023175631419929572, "learning_rate": 0.0001, "loss": 1.0084, "step": 7527 }, { "epoch": 2.0014933333333333, "grad_norm": 0.024553105335472527, "learning_rate": 0.0001, "loss": 0.9864, "step": 7528 }, { "epoch": 2.0015466666666666, "grad_norm": 0.023397840227881245, "learning_rate": 0.0001, "loss": 0.9408, "step": 7529 }, { "epoch": 2.0016, "grad_norm": 0.02420345267846469, "learning_rate": 0.0001, "loss": 0.9841, "step": 7530 }, { "epoch": 2.0016533333333335, "grad_norm": 0.024341802050091853, "learning_rate": 0.0001, "loss": 0.9538, "step": 7531 }, { "epoch": 2.0017066666666667, "grad_norm": 0.023655435424436603, "learning_rate": 0.0001, "loss": 1.0001, "step": 7532 }, { "epoch": 2.00176, "grad_norm": 0.024572314248827554, "learning_rate": 0.0001, "loss": 0.9848, "step": 7533 }, { "epoch": 2.0018133333333332, "grad_norm": 0.024305142236695988, "learning_rate": 0.0001, "loss": 0.9615, "step": 7534 }, { "epoch": 2.0018666666666665, "grad_norm": 0.02306715253369471, "learning_rate": 0.0001, "loss": 0.9274, "step": 7535 }, { "epoch": 2.00192, "grad_norm": 0.023967447093910535, "learning_rate": 0.0001, "loss": 0.9554, "step": 7536 }, { "epoch": 2.0019733333333334, "grad_norm": 0.02611610410209887, "learning_rate": 0.0001, "loss": 0.9613, "step": 7537 }, { "epoch": 2.0020266666666666, "grad_norm": 0.024319958058464007, "learning_rate": 0.0001, "loss": 0.9141, "step": 7538 }, { "epoch": 2.00208, "grad_norm": 0.02305330803036496, "learning_rate": 0.0001, "loss": 0.9434, "step": 7539 }, { "epoch": 2.0021333333333335, "grad_norm": 0.02574463527834752, "learning_rate": 0.0001, "loss": 0.9928, "step": 7540 }, { "epoch": 2.002186666666667, "grad_norm": 0.02377806404482787, "learning_rate": 0.0001, "loss": 0.9825, "step": 7541 }, { "epoch": 2.00224, "grad_norm": 0.0238417335508208, "learning_rate": 0.0001, "loss": 0.9841, "step": 7542 }, { "epoch": 2.0022933333333333, "grad_norm": 0.023245660769277806, "learning_rate": 0.0001, "loss": 0.9471, "step": 7543 }, { "epoch": 2.0023466666666665, "grad_norm": 0.024916581071864737, "learning_rate": 0.0001, "loss": 0.9714, "step": 7544 }, { "epoch": 2.0024, "grad_norm": 0.02391904414850068, "learning_rate": 0.0001, "loss": 0.9096, "step": 7545 }, { "epoch": 2.0024533333333334, "grad_norm": 0.023552799280155873, "learning_rate": 0.0001, "loss": 0.9889, "step": 7546 }, { "epoch": 2.0025066666666667, "grad_norm": 0.024365704083997654, "learning_rate": 0.0001, "loss": 0.9739, "step": 7547 }, { "epoch": 2.00256, "grad_norm": 0.024503162342505616, "learning_rate": 0.0001, "loss": 0.9638, "step": 7548 }, { "epoch": 2.002613333333333, "grad_norm": 0.02386375951090822, "learning_rate": 0.0001, "loss": 0.9379, "step": 7549 }, { "epoch": 2.002666666666667, "grad_norm": 0.02327713660380971, "learning_rate": 0.0001, "loss": 0.9542, "step": 7550 }, { "epoch": 2.00272, "grad_norm": 0.02334643909352209, "learning_rate": 0.0001, "loss": 0.9745, "step": 7551 }, { "epoch": 2.0027733333333333, "grad_norm": 0.025283006885632682, "learning_rate": 0.0001, "loss": 0.9667, "step": 7552 }, { "epoch": 2.0028266666666665, "grad_norm": 0.023766306952130622, "learning_rate": 0.0001, "loss": 0.9788, "step": 7553 }, { "epoch": 2.00288, "grad_norm": 0.02334709265783985, "learning_rate": 0.0001, "loss": 0.9672, "step": 7554 }, { "epoch": 2.0029333333333335, "grad_norm": 0.02522826132780556, "learning_rate": 0.0001, "loss": 0.9547, "step": 7555 }, { "epoch": 2.0029866666666667, "grad_norm": 0.023880089936020744, "learning_rate": 0.0001, "loss": 0.9863, "step": 7556 }, { "epoch": 2.00304, "grad_norm": 0.023271764232691745, "learning_rate": 0.0001, "loss": 0.9449, "step": 7557 }, { "epoch": 2.003093333333333, "grad_norm": 0.023598426096339532, "learning_rate": 0.0001, "loss": 0.9417, "step": 7558 }, { "epoch": 2.003146666666667, "grad_norm": 0.023732199600063918, "learning_rate": 0.0001, "loss": 0.9955, "step": 7559 }, { "epoch": 2.0032, "grad_norm": 0.02503549200613846, "learning_rate": 0.0001, "loss": 0.9514, "step": 7560 }, { "epoch": 2.0032533333333333, "grad_norm": 0.023793856975966976, "learning_rate": 0.0001, "loss": 0.9648, "step": 7561 }, { "epoch": 2.0033066666666666, "grad_norm": 0.02413742270122237, "learning_rate": 0.0001, "loss": 0.9836, "step": 7562 }, { "epoch": 2.00336, "grad_norm": 0.025757861375204597, "learning_rate": 0.0001, "loss": 1.0218, "step": 7563 }, { "epoch": 2.0034133333333335, "grad_norm": 0.023679562966617666, "learning_rate": 0.0001, "loss": 0.9708, "step": 7564 }, { "epoch": 2.0034666666666667, "grad_norm": 0.025421806087267743, "learning_rate": 0.0001, "loss": 0.9698, "step": 7565 }, { "epoch": 2.00352, "grad_norm": 0.026044500825273657, "learning_rate": 0.0001, "loss": 0.9886, "step": 7566 }, { "epoch": 2.003573333333333, "grad_norm": 0.024100474790550094, "learning_rate": 0.0001, "loss": 0.9311, "step": 7567 }, { "epoch": 2.0036266666666664, "grad_norm": 0.02436830696050813, "learning_rate": 0.0001, "loss": 0.9497, "step": 7568 }, { "epoch": 2.00368, "grad_norm": 0.02962010343447645, "learning_rate": 0.0001, "loss": 0.9572, "step": 7569 }, { "epoch": 2.0037333333333334, "grad_norm": 0.024124646003296155, "learning_rate": 0.0001, "loss": 0.9214, "step": 7570 }, { "epoch": 2.0037866666666666, "grad_norm": 0.02477405916714057, "learning_rate": 0.0001, "loss": 0.9247, "step": 7571 }, { "epoch": 2.00384, "grad_norm": 0.02549889383715077, "learning_rate": 0.0001, "loss": 0.9067, "step": 7572 }, { "epoch": 2.0038933333333335, "grad_norm": 0.023717763574817394, "learning_rate": 0.0001, "loss": 0.9814, "step": 7573 }, { "epoch": 2.0039466666666668, "grad_norm": 0.024052708712840994, "learning_rate": 0.0001, "loss": 1.0064, "step": 7574 }, { "epoch": 2.004, "grad_norm": 0.026875558842505757, "learning_rate": 0.0001, "loss": 0.9824, "step": 7575 }, { "epoch": 2.0040533333333332, "grad_norm": 0.02289423254977951, "learning_rate": 0.0001, "loss": 0.9759, "step": 7576 }, { "epoch": 2.0041066666666665, "grad_norm": 0.024163814558609914, "learning_rate": 0.0001, "loss": 0.9629, "step": 7577 }, { "epoch": 2.00416, "grad_norm": 0.024690328888107117, "learning_rate": 0.0001, "loss": 0.9133, "step": 7578 }, { "epoch": 2.0042133333333334, "grad_norm": 0.024429167045631774, "learning_rate": 0.0001, "loss": 1.0155, "step": 7579 }, { "epoch": 2.0042666666666666, "grad_norm": 0.025916476799199555, "learning_rate": 0.0001, "loss": 1.0028, "step": 7580 }, { "epoch": 2.00432, "grad_norm": 0.024595698003048415, "learning_rate": 0.0001, "loss": 0.9589, "step": 7581 }, { "epoch": 2.004373333333333, "grad_norm": 0.025359173585568728, "learning_rate": 0.0001, "loss": 0.917, "step": 7582 }, { "epoch": 2.004426666666667, "grad_norm": 0.024708371060631253, "learning_rate": 0.0001, "loss": 0.9224, "step": 7583 }, { "epoch": 2.00448, "grad_norm": 0.024991008882874317, "learning_rate": 0.0001, "loss": 0.9263, "step": 7584 }, { "epoch": 2.0045333333333333, "grad_norm": 0.025063049019528025, "learning_rate": 0.0001, "loss": 0.9332, "step": 7585 }, { "epoch": 2.0045866666666665, "grad_norm": 0.02672289648377867, "learning_rate": 0.0001, "loss": 1.0144, "step": 7586 }, { "epoch": 2.00464, "grad_norm": 0.02591546813284381, "learning_rate": 0.0001, "loss": 1.0459, "step": 7587 }, { "epoch": 2.0046933333333334, "grad_norm": 0.024640994302168834, "learning_rate": 0.0001, "loss": 0.9954, "step": 7588 }, { "epoch": 2.0047466666666667, "grad_norm": 0.027297018739194042, "learning_rate": 0.0001, "loss": 0.9699, "step": 7589 }, { "epoch": 2.0048, "grad_norm": 0.024254498245988496, "learning_rate": 0.0001, "loss": 0.9183, "step": 7590 }, { "epoch": 2.004853333333333, "grad_norm": 0.023739202984448194, "learning_rate": 0.0001, "loss": 1.0328, "step": 7591 }, { "epoch": 2.004906666666667, "grad_norm": 0.024545109756867686, "learning_rate": 0.0001, "loss": 0.9727, "step": 7592 }, { "epoch": 2.00496, "grad_norm": 0.02422265324686076, "learning_rate": 0.0001, "loss": 0.9369, "step": 7593 }, { "epoch": 2.0050133333333333, "grad_norm": 0.02495687299535881, "learning_rate": 0.0001, "loss": 0.9929, "step": 7594 }, { "epoch": 2.0050666666666666, "grad_norm": 0.023130730916007366, "learning_rate": 0.0001, "loss": 0.9294, "step": 7595 }, { "epoch": 2.00512, "grad_norm": 0.04116549069612522, "learning_rate": 0.0001, "loss": 0.9431, "step": 7596 }, { "epoch": 2.0051733333333335, "grad_norm": 0.023214463016474812, "learning_rate": 0.0001, "loss": 0.9791, "step": 7597 }, { "epoch": 2.0052266666666667, "grad_norm": 0.022797433107694505, "learning_rate": 0.0001, "loss": 0.955, "step": 7598 }, { "epoch": 2.00528, "grad_norm": 0.02395537236099507, "learning_rate": 0.0001, "loss": 0.9492, "step": 7599 }, { "epoch": 2.005333333333333, "grad_norm": 0.022315201739299465, "learning_rate": 0.0001, "loss": 0.989, "step": 7600 }, { "epoch": 2.005333333333333, "eval_accuracy": 0.6195536129954523, "eval_loss": 1.3575023412704468, "eval_runtime": 62.6204, "eval_samples_per_second": 15.969, "eval_steps_per_second": 0.511, "step": 7600 }, { "epoch": 2.005386666666667, "grad_norm": 0.02307949969957958, "learning_rate": 0.0001, "loss": 0.9518, "step": 7601 }, { "epoch": 2.00544, "grad_norm": 0.02277814788091466, "learning_rate": 0.0001, "loss": 0.9576, "step": 7602 }, { "epoch": 2.0054933333333334, "grad_norm": 0.023854016023842812, "learning_rate": 0.0001, "loss": 0.9715, "step": 7603 }, { "epoch": 2.0055466666666666, "grad_norm": 0.02475861771186239, "learning_rate": 0.0001, "loss": 0.9578, "step": 7604 }, { "epoch": 2.0056, "grad_norm": 0.023642486028264135, "learning_rate": 0.0001, "loss": 0.9701, "step": 7605 }, { "epoch": 2.0056533333333335, "grad_norm": 0.02368635218080449, "learning_rate": 0.0001, "loss": 0.9396, "step": 7606 }, { "epoch": 2.0057066666666667, "grad_norm": 0.023058821982674903, "learning_rate": 0.0001, "loss": 0.9334, "step": 7607 }, { "epoch": 2.00576, "grad_norm": 0.024138973335546824, "learning_rate": 0.0001, "loss": 0.9612, "step": 7608 }, { "epoch": 2.0058133333333332, "grad_norm": 0.023903002621305045, "learning_rate": 0.0001, "loss": 0.9963, "step": 7609 }, { "epoch": 2.0058666666666665, "grad_norm": 0.02572692042927908, "learning_rate": 0.0001, "loss": 0.9983, "step": 7610 }, { "epoch": 2.00592, "grad_norm": 0.025039787541959773, "learning_rate": 0.0001, "loss": 0.9086, "step": 7611 }, { "epoch": 2.0059733333333334, "grad_norm": 0.026632610247347924, "learning_rate": 0.0001, "loss": 1.0178, "step": 7612 }, { "epoch": 2.0060266666666666, "grad_norm": 0.023684650904374795, "learning_rate": 0.0001, "loss": 0.9393, "step": 7613 }, { "epoch": 2.00608, "grad_norm": 0.02311094607380775, "learning_rate": 0.0001, "loss": 0.9224, "step": 7614 }, { "epoch": 2.0061333333333335, "grad_norm": 0.025870483994577538, "learning_rate": 0.0001, "loss": 0.9408, "step": 7615 }, { "epoch": 2.006186666666667, "grad_norm": 0.024926682689169866, "learning_rate": 0.0001, "loss": 1.0062, "step": 7616 }, { "epoch": 2.00624, "grad_norm": 0.023870270383488174, "learning_rate": 0.0001, "loss": 1.023, "step": 7617 }, { "epoch": 2.0062933333333333, "grad_norm": 0.023968074339453027, "learning_rate": 0.0001, "loss": 0.9406, "step": 7618 }, { "epoch": 2.0063466666666665, "grad_norm": 0.02483280598536694, "learning_rate": 0.0001, "loss": 0.9975, "step": 7619 }, { "epoch": 2.0064, "grad_norm": 0.023416802121110993, "learning_rate": 0.0001, "loss": 0.931, "step": 7620 }, { "epoch": 2.0064533333333334, "grad_norm": 0.024270125677551116, "learning_rate": 0.0001, "loss": 0.9661, "step": 7621 }, { "epoch": 2.0065066666666667, "grad_norm": 0.02484560108822551, "learning_rate": 0.0001, "loss": 1.0333, "step": 7622 }, { "epoch": 2.00656, "grad_norm": 0.02465149957814491, "learning_rate": 0.0001, "loss": 0.9663, "step": 7623 }, { "epoch": 2.006613333333333, "grad_norm": 0.023342887280930383, "learning_rate": 0.0001, "loss": 0.9898, "step": 7624 }, { "epoch": 2.006666666666667, "grad_norm": 0.026272098355205435, "learning_rate": 0.0001, "loss": 0.9923, "step": 7625 }, { "epoch": 2.00672, "grad_norm": 0.02529198515197748, "learning_rate": 0.0001, "loss": 0.8932, "step": 7626 }, { "epoch": 2.0067733333333333, "grad_norm": 0.02494047760783118, "learning_rate": 0.0001, "loss": 0.9942, "step": 7627 }, { "epoch": 2.0068266666666665, "grad_norm": 0.02344336905251474, "learning_rate": 0.0001, "loss": 0.9723, "step": 7628 }, { "epoch": 2.00688, "grad_norm": 0.02419076468379764, "learning_rate": 0.0001, "loss": 1.0108, "step": 7629 }, { "epoch": 2.0069333333333335, "grad_norm": 0.02487641781203143, "learning_rate": 0.0001, "loss": 0.9767, "step": 7630 }, { "epoch": 2.0069866666666667, "grad_norm": 0.025105761951137916, "learning_rate": 0.0001, "loss": 0.997, "step": 7631 }, { "epoch": 2.00704, "grad_norm": 0.025516897875196082, "learning_rate": 0.0001, "loss": 0.9818, "step": 7632 }, { "epoch": 2.007093333333333, "grad_norm": 0.02581361005253421, "learning_rate": 0.0001, "loss": 0.9675, "step": 7633 }, { "epoch": 2.007146666666667, "grad_norm": 0.02484956356440348, "learning_rate": 0.0001, "loss": 1.0234, "step": 7634 }, { "epoch": 2.0072, "grad_norm": 0.023015396973029026, "learning_rate": 0.0001, "loss": 0.9516, "step": 7635 }, { "epoch": 2.0072533333333333, "grad_norm": 0.02554855418311322, "learning_rate": 0.0001, "loss": 0.9685, "step": 7636 }, { "epoch": 2.0073066666666666, "grad_norm": 0.026861226544915254, "learning_rate": 0.0001, "loss": 1.026, "step": 7637 }, { "epoch": 2.00736, "grad_norm": 0.023375408643742927, "learning_rate": 0.0001, "loss": 0.9229, "step": 7638 }, { "epoch": 2.0074133333333335, "grad_norm": 0.024540456627470494, "learning_rate": 0.0001, "loss": 0.9869, "step": 7639 }, { "epoch": 2.0074666666666667, "grad_norm": 0.024778125834917394, "learning_rate": 0.0001, "loss": 0.966, "step": 7640 }, { "epoch": 2.00752, "grad_norm": 0.02524817674431544, "learning_rate": 0.0001, "loss": 0.9756, "step": 7641 }, { "epoch": 2.007573333333333, "grad_norm": 0.02393432134273214, "learning_rate": 0.0001, "loss": 1.0082, "step": 7642 }, { "epoch": 2.0076266666666664, "grad_norm": 0.026105453094048412, "learning_rate": 0.0001, "loss": 0.9356, "step": 7643 }, { "epoch": 2.00768, "grad_norm": 0.02691820595495598, "learning_rate": 0.0001, "loss": 1.0256, "step": 7644 }, { "epoch": 2.0077333333333334, "grad_norm": 0.024262423306312182, "learning_rate": 0.0001, "loss": 0.9541, "step": 7645 }, { "epoch": 2.0077866666666666, "grad_norm": 0.02529511954690568, "learning_rate": 0.0001, "loss": 0.9892, "step": 7646 }, { "epoch": 2.00784, "grad_norm": 0.023781391535742272, "learning_rate": 0.0001, "loss": 1.0227, "step": 7647 }, { "epoch": 2.0078933333333335, "grad_norm": 0.023074890908967343, "learning_rate": 0.0001, "loss": 0.949, "step": 7648 }, { "epoch": 2.0079466666666668, "grad_norm": 0.024802048544241055, "learning_rate": 0.0001, "loss": 0.976, "step": 7649 }, { "epoch": 2.008, "grad_norm": 0.026593996974879464, "learning_rate": 0.0001, "loss": 0.9703, "step": 7650 }, { "epoch": 2.0080533333333332, "grad_norm": 0.02394171999613348, "learning_rate": 0.0001, "loss": 0.9405, "step": 7651 }, { "epoch": 2.0081066666666665, "grad_norm": 0.02306557824129183, "learning_rate": 0.0001, "loss": 0.991, "step": 7652 }, { "epoch": 2.00816, "grad_norm": 0.02399144535427004, "learning_rate": 0.0001, "loss": 0.9312, "step": 7653 }, { "epoch": 2.0082133333333334, "grad_norm": 0.02406754609261698, "learning_rate": 0.0001, "loss": 1.0244, "step": 7654 }, { "epoch": 2.0082666666666666, "grad_norm": 0.024909104722297154, "learning_rate": 0.0001, "loss": 1.0224, "step": 7655 }, { "epoch": 2.00832, "grad_norm": 0.02392838697544229, "learning_rate": 0.0001, "loss": 0.9515, "step": 7656 }, { "epoch": 2.008373333333333, "grad_norm": 0.0222470444709598, "learning_rate": 0.0001, "loss": 0.9887, "step": 7657 }, { "epoch": 2.008426666666667, "grad_norm": 0.025508820807281334, "learning_rate": 0.0001, "loss": 0.9541, "step": 7658 }, { "epoch": 2.00848, "grad_norm": 0.026976571685109453, "learning_rate": 0.0001, "loss": 0.9864, "step": 7659 }, { "epoch": 2.0085333333333333, "grad_norm": 0.02455933676833705, "learning_rate": 0.0001, "loss": 0.9733, "step": 7660 }, { "epoch": 2.0085866666666665, "grad_norm": 0.024184262419541372, "learning_rate": 0.0001, "loss": 0.9679, "step": 7661 }, { "epoch": 2.00864, "grad_norm": 0.025108616519681173, "learning_rate": 0.0001, "loss": 0.9356, "step": 7662 }, { "epoch": 2.0086933333333334, "grad_norm": 0.024912295503961675, "learning_rate": 0.0001, "loss": 0.9412, "step": 7663 }, { "epoch": 2.0087466666666667, "grad_norm": 0.025207280338180472, "learning_rate": 0.0001, "loss": 1.0569, "step": 7664 }, { "epoch": 2.0088, "grad_norm": 0.02344540622212264, "learning_rate": 0.0001, "loss": 0.974, "step": 7665 }, { "epoch": 2.008853333333333, "grad_norm": 0.02331793644989003, "learning_rate": 0.0001, "loss": 1.0098, "step": 7666 }, { "epoch": 2.008906666666667, "grad_norm": 0.02379378974794134, "learning_rate": 0.0001, "loss": 0.9992, "step": 7667 }, { "epoch": 2.00896, "grad_norm": 0.02322290964494852, "learning_rate": 0.0001, "loss": 1.0023, "step": 7668 }, { "epoch": 2.0090133333333333, "grad_norm": 0.023784809608236337, "learning_rate": 0.0001, "loss": 1.0108, "step": 7669 }, { "epoch": 2.0090666666666666, "grad_norm": 0.02533919472148904, "learning_rate": 0.0001, "loss": 0.9133, "step": 7670 }, { "epoch": 2.00912, "grad_norm": 0.02449957429803978, "learning_rate": 0.0001, "loss": 0.9869, "step": 7671 }, { "epoch": 2.0091733333333335, "grad_norm": 0.023072205650319953, "learning_rate": 0.0001, "loss": 0.9486, "step": 7672 }, { "epoch": 2.0092266666666667, "grad_norm": 0.02484689232388344, "learning_rate": 0.0001, "loss": 0.9818, "step": 7673 }, { "epoch": 2.00928, "grad_norm": 0.025689750593999257, "learning_rate": 0.0001, "loss": 0.9466, "step": 7674 }, { "epoch": 2.009333333333333, "grad_norm": 0.0222795355932351, "learning_rate": 0.0001, "loss": 0.9439, "step": 7675 }, { "epoch": 2.009386666666667, "grad_norm": 0.023839205593538245, "learning_rate": 0.0001, "loss": 0.9576, "step": 7676 }, { "epoch": 2.00944, "grad_norm": 0.024065220465895477, "learning_rate": 0.0001, "loss": 1.0077, "step": 7677 }, { "epoch": 2.0094933333333334, "grad_norm": 0.02349093937514229, "learning_rate": 0.0001, "loss": 1.0046, "step": 7678 }, { "epoch": 2.0095466666666666, "grad_norm": 0.022799187031250733, "learning_rate": 0.0001, "loss": 1.0465, "step": 7679 }, { "epoch": 2.0096, "grad_norm": 0.023419531251209498, "learning_rate": 0.0001, "loss": 0.9617, "step": 7680 }, { "epoch": 2.0096533333333335, "grad_norm": 0.02291410056475035, "learning_rate": 0.0001, "loss": 1.013, "step": 7681 }, { "epoch": 2.0097066666666668, "grad_norm": 0.02280610888247269, "learning_rate": 0.0001, "loss": 1.0098, "step": 7682 }, { "epoch": 2.00976, "grad_norm": 0.025426881467714955, "learning_rate": 0.0001, "loss": 0.9635, "step": 7683 }, { "epoch": 2.0098133333333332, "grad_norm": 0.024242372383599473, "learning_rate": 0.0001, "loss": 0.938, "step": 7684 }, { "epoch": 2.0098666666666665, "grad_norm": 0.02536880498563146, "learning_rate": 0.0001, "loss": 1.0035, "step": 7685 }, { "epoch": 2.00992, "grad_norm": 0.02249246632155662, "learning_rate": 0.0001, "loss": 0.9537, "step": 7686 }, { "epoch": 2.0099733333333334, "grad_norm": 0.02395217949059243, "learning_rate": 0.0001, "loss": 0.9881, "step": 7687 }, { "epoch": 2.0100266666666666, "grad_norm": 0.023415328628346558, "learning_rate": 0.0001, "loss": 0.9257, "step": 7688 }, { "epoch": 2.01008, "grad_norm": 0.024143167126835296, "learning_rate": 0.0001, "loss": 0.9508, "step": 7689 }, { "epoch": 2.0101333333333335, "grad_norm": 0.024768506491865242, "learning_rate": 0.0001, "loss": 0.9345, "step": 7690 }, { "epoch": 2.010186666666667, "grad_norm": 0.025093509845971237, "learning_rate": 0.0001, "loss": 0.9737, "step": 7691 }, { "epoch": 2.01024, "grad_norm": 0.02547754224822825, "learning_rate": 0.0001, "loss": 0.8963, "step": 7692 }, { "epoch": 2.0102933333333333, "grad_norm": 0.025521979740440372, "learning_rate": 0.0001, "loss": 0.9462, "step": 7693 }, { "epoch": 2.0103466666666665, "grad_norm": 0.02502113137405311, "learning_rate": 0.0001, "loss": 0.9122, "step": 7694 }, { "epoch": 2.0104, "grad_norm": 0.023662142018570573, "learning_rate": 0.0001, "loss": 0.9597, "step": 7695 }, { "epoch": 2.0104533333333334, "grad_norm": 0.024933323611840457, "learning_rate": 0.0001, "loss": 0.993, "step": 7696 }, { "epoch": 2.0105066666666667, "grad_norm": 0.025746751454222918, "learning_rate": 0.0001, "loss": 0.955, "step": 7697 }, { "epoch": 2.01056, "grad_norm": 0.02403587910856246, "learning_rate": 0.0001, "loss": 0.9743, "step": 7698 }, { "epoch": 2.010613333333333, "grad_norm": 0.02601263129066741, "learning_rate": 0.0001, "loss": 0.9839, "step": 7699 }, { "epoch": 2.010666666666667, "grad_norm": 0.023154568813382553, "learning_rate": 0.0001, "loss": 1.0109, "step": 7700 }, { "epoch": 2.01072, "grad_norm": 0.02332928344543772, "learning_rate": 0.0001, "loss": 0.9393, "step": 7701 }, { "epoch": 2.0107733333333333, "grad_norm": 0.02297782932767715, "learning_rate": 0.0001, "loss": 0.9912, "step": 7702 }, { "epoch": 2.0108266666666665, "grad_norm": 0.025604182451498744, "learning_rate": 0.0001, "loss": 1.0341, "step": 7703 }, { "epoch": 2.0108800000000002, "grad_norm": 0.02597074745542422, "learning_rate": 0.0001, "loss": 0.9708, "step": 7704 }, { "epoch": 2.0109333333333335, "grad_norm": 0.023992290669722895, "learning_rate": 0.0001, "loss": 0.9708, "step": 7705 }, { "epoch": 2.0109866666666667, "grad_norm": 0.023196562744581144, "learning_rate": 0.0001, "loss": 0.9615, "step": 7706 }, { "epoch": 2.01104, "grad_norm": 0.023687991851560834, "learning_rate": 0.0001, "loss": 0.9752, "step": 7707 }, { "epoch": 2.011093333333333, "grad_norm": 0.024439043446461035, "learning_rate": 0.0001, "loss": 0.9926, "step": 7708 }, { "epoch": 2.011146666666667, "grad_norm": 0.02400958790722353, "learning_rate": 0.0001, "loss": 0.9559, "step": 7709 }, { "epoch": 2.0112, "grad_norm": 0.023653230115457446, "learning_rate": 0.0001, "loss": 0.9296, "step": 7710 }, { "epoch": 2.0112533333333333, "grad_norm": 0.02461933481951277, "learning_rate": 0.0001, "loss": 0.9726, "step": 7711 }, { "epoch": 2.0113066666666666, "grad_norm": 0.02410925464205071, "learning_rate": 0.0001, "loss": 0.9779, "step": 7712 }, { "epoch": 2.01136, "grad_norm": 0.027411200204938906, "learning_rate": 0.0001, "loss": 0.985, "step": 7713 }, { "epoch": 2.0114133333333335, "grad_norm": 0.024131923229562074, "learning_rate": 0.0001, "loss": 0.9487, "step": 7714 }, { "epoch": 2.0114666666666667, "grad_norm": 0.024323145666719923, "learning_rate": 0.0001, "loss": 0.9469, "step": 7715 }, { "epoch": 2.01152, "grad_norm": 0.025268586260051625, "learning_rate": 0.0001, "loss": 0.9773, "step": 7716 }, { "epoch": 2.011573333333333, "grad_norm": 0.024504141957054394, "learning_rate": 0.0001, "loss": 0.9572, "step": 7717 }, { "epoch": 2.0116266666666665, "grad_norm": 0.023952946735813996, "learning_rate": 0.0001, "loss": 1.0183, "step": 7718 }, { "epoch": 2.01168, "grad_norm": 0.024437629223126138, "learning_rate": 0.0001, "loss": 0.9996, "step": 7719 }, { "epoch": 2.0117333333333334, "grad_norm": 0.022474758111681682, "learning_rate": 0.0001, "loss": 0.9369, "step": 7720 }, { "epoch": 2.0117866666666666, "grad_norm": 0.022845794758188282, "learning_rate": 0.0001, "loss": 0.9622, "step": 7721 }, { "epoch": 2.01184, "grad_norm": 0.022938248212090815, "learning_rate": 0.0001, "loss": 0.9739, "step": 7722 }, { "epoch": 2.0118933333333335, "grad_norm": 0.027200206252928315, "learning_rate": 0.0001, "loss": 1.0203, "step": 7723 }, { "epoch": 2.0119466666666668, "grad_norm": 0.02377571722080312, "learning_rate": 0.0001, "loss": 0.9511, "step": 7724 }, { "epoch": 2.012, "grad_norm": 0.022406648562741126, "learning_rate": 0.0001, "loss": 0.9618, "step": 7725 }, { "epoch": 2.0120533333333332, "grad_norm": 0.022857805940912967, "learning_rate": 0.0001, "loss": 0.9631, "step": 7726 }, { "epoch": 2.0121066666666665, "grad_norm": 0.02393415718097094, "learning_rate": 0.0001, "loss": 0.9753, "step": 7727 }, { "epoch": 2.01216, "grad_norm": 0.02381913579207146, "learning_rate": 0.0001, "loss": 0.9915, "step": 7728 }, { "epoch": 2.0122133333333334, "grad_norm": 0.02261617708353109, "learning_rate": 0.0001, "loss": 1.0013, "step": 7729 }, { "epoch": 2.0122666666666666, "grad_norm": 0.023383222184056456, "learning_rate": 0.0001, "loss": 0.9068, "step": 7730 }, { "epoch": 2.01232, "grad_norm": 0.02291184690626212, "learning_rate": 0.0001, "loss": 0.9382, "step": 7731 }, { "epoch": 2.012373333333333, "grad_norm": 0.024105266163065527, "learning_rate": 0.0001, "loss": 0.9611, "step": 7732 }, { "epoch": 2.012426666666667, "grad_norm": 0.02512551913512346, "learning_rate": 0.0001, "loss": 0.9896, "step": 7733 }, { "epoch": 2.01248, "grad_norm": 0.025021574124901403, "learning_rate": 0.0001, "loss": 0.972, "step": 7734 }, { "epoch": 2.0125333333333333, "grad_norm": 0.024946258268924517, "learning_rate": 0.0001, "loss": 1.0083, "step": 7735 }, { "epoch": 2.0125866666666665, "grad_norm": 0.024343435277980868, "learning_rate": 0.0001, "loss": 0.9754, "step": 7736 }, { "epoch": 2.01264, "grad_norm": 0.023409735278351586, "learning_rate": 0.0001, "loss": 1.0163, "step": 7737 }, { "epoch": 2.0126933333333334, "grad_norm": 0.022699580608548722, "learning_rate": 0.0001, "loss": 0.9633, "step": 7738 }, { "epoch": 2.0127466666666667, "grad_norm": 0.024388355183177557, "learning_rate": 0.0001, "loss": 0.9538, "step": 7739 }, { "epoch": 2.0128, "grad_norm": 0.025610570623167895, "learning_rate": 0.0001, "loss": 0.9232, "step": 7740 }, { "epoch": 2.012853333333333, "grad_norm": 0.02422168640745936, "learning_rate": 0.0001, "loss": 1.0012, "step": 7741 }, { "epoch": 2.012906666666667, "grad_norm": 0.02408843434977436, "learning_rate": 0.0001, "loss": 0.9915, "step": 7742 }, { "epoch": 2.01296, "grad_norm": 0.024974007332544554, "learning_rate": 0.0001, "loss": 0.9512, "step": 7743 }, { "epoch": 2.0130133333333333, "grad_norm": 0.02286700151145432, "learning_rate": 0.0001, "loss": 0.9762, "step": 7744 }, { "epoch": 2.0130666666666666, "grad_norm": 0.023624250925349, "learning_rate": 0.0001, "loss": 0.989, "step": 7745 }, { "epoch": 2.01312, "grad_norm": 0.026729702684308323, "learning_rate": 0.0001, "loss": 0.9518, "step": 7746 }, { "epoch": 2.0131733333333335, "grad_norm": 0.023871097474886065, "learning_rate": 0.0001, "loss": 0.9821, "step": 7747 }, { "epoch": 2.0132266666666667, "grad_norm": 0.023966328962109134, "learning_rate": 0.0001, "loss": 0.9092, "step": 7748 }, { "epoch": 2.01328, "grad_norm": 0.02445607017357704, "learning_rate": 0.0001, "loss": 0.9482, "step": 7749 }, { "epoch": 2.013333333333333, "grad_norm": 0.024192257697376467, "learning_rate": 0.0001, "loss": 0.944, "step": 7750 }, { "epoch": 2.013386666666667, "grad_norm": 0.029526387515621727, "learning_rate": 0.0001, "loss": 0.9341, "step": 7751 }, { "epoch": 2.01344, "grad_norm": 0.023276830029610847, "learning_rate": 0.0001, "loss": 0.9776, "step": 7752 }, { "epoch": 2.0134933333333334, "grad_norm": 0.024530934127618746, "learning_rate": 0.0001, "loss": 0.9714, "step": 7753 }, { "epoch": 2.0135466666666666, "grad_norm": 0.0246614790315511, "learning_rate": 0.0001, "loss": 0.8857, "step": 7754 }, { "epoch": 2.0136, "grad_norm": 0.02409948883117422, "learning_rate": 0.0001, "loss": 0.9523, "step": 7755 }, { "epoch": 2.0136533333333335, "grad_norm": 0.02410692857334303, "learning_rate": 0.0001, "loss": 0.9788, "step": 7756 }, { "epoch": 2.0137066666666668, "grad_norm": 0.02303018612881936, "learning_rate": 0.0001, "loss": 0.9755, "step": 7757 }, { "epoch": 2.01376, "grad_norm": 0.023172958021743253, "learning_rate": 0.0001, "loss": 1.0011, "step": 7758 }, { "epoch": 2.0138133333333332, "grad_norm": 0.02348231139177008, "learning_rate": 0.0001, "loss": 0.8854, "step": 7759 }, { "epoch": 2.0138666666666665, "grad_norm": 0.02353759679324426, "learning_rate": 0.0001, "loss": 0.9696, "step": 7760 }, { "epoch": 2.01392, "grad_norm": 0.02609343265467788, "learning_rate": 0.0001, "loss": 0.9558, "step": 7761 }, { "epoch": 2.0139733333333334, "grad_norm": 0.024590485487756907, "learning_rate": 0.0001, "loss": 0.9646, "step": 7762 }, { "epoch": 2.0140266666666666, "grad_norm": 0.023325238104572352, "learning_rate": 0.0001, "loss": 0.9464, "step": 7763 }, { "epoch": 2.01408, "grad_norm": 0.025145932684410698, "learning_rate": 0.0001, "loss": 1.0057, "step": 7764 }, { "epoch": 2.0141333333333336, "grad_norm": 0.024971575633417873, "learning_rate": 0.0001, "loss": 0.9555, "step": 7765 }, { "epoch": 2.014186666666667, "grad_norm": 0.023057717092117232, "learning_rate": 0.0001, "loss": 0.9668, "step": 7766 }, { "epoch": 2.01424, "grad_norm": 0.023095295989185784, "learning_rate": 0.0001, "loss": 0.891, "step": 7767 }, { "epoch": 2.0142933333333333, "grad_norm": 0.023380839972042516, "learning_rate": 0.0001, "loss": 0.9738, "step": 7768 }, { "epoch": 2.0143466666666665, "grad_norm": 0.036711619006226014, "learning_rate": 0.0001, "loss": 1.0156, "step": 7769 }, { "epoch": 2.0144, "grad_norm": 0.023136707945630955, "learning_rate": 0.0001, "loss": 0.9145, "step": 7770 }, { "epoch": 2.0144533333333334, "grad_norm": 0.02341195888282366, "learning_rate": 0.0001, "loss": 0.9345, "step": 7771 }, { "epoch": 2.0145066666666667, "grad_norm": 0.024586182361307028, "learning_rate": 0.0001, "loss": 0.971, "step": 7772 }, { "epoch": 2.01456, "grad_norm": 0.025800111852296737, "learning_rate": 0.0001, "loss": 0.9684, "step": 7773 }, { "epoch": 2.014613333333333, "grad_norm": 0.02378787533564623, "learning_rate": 0.0001, "loss": 0.995, "step": 7774 }, { "epoch": 2.014666666666667, "grad_norm": 0.024985015721363166, "learning_rate": 0.0001, "loss": 0.9471, "step": 7775 }, { "epoch": 2.01472, "grad_norm": 0.024889970584632066, "learning_rate": 0.0001, "loss": 0.9691, "step": 7776 }, { "epoch": 2.0147733333333333, "grad_norm": 0.025728252288082412, "learning_rate": 0.0001, "loss": 0.935, "step": 7777 }, { "epoch": 2.0148266666666665, "grad_norm": 0.02458730472885289, "learning_rate": 0.0001, "loss": 0.9531, "step": 7778 }, { "epoch": 2.01488, "grad_norm": 0.024405070124699935, "learning_rate": 0.0001, "loss": 0.9437, "step": 7779 }, { "epoch": 2.0149333333333335, "grad_norm": 0.025534752143502155, "learning_rate": 0.0001, "loss": 0.9216, "step": 7780 }, { "epoch": 2.0149866666666667, "grad_norm": 0.023533868345323103, "learning_rate": 0.0001, "loss": 1.0236, "step": 7781 }, { "epoch": 2.01504, "grad_norm": 0.023949778894880567, "learning_rate": 0.0001, "loss": 0.9691, "step": 7782 }, { "epoch": 2.015093333333333, "grad_norm": 0.024199274469071184, "learning_rate": 0.0001, "loss": 0.9549, "step": 7783 }, { "epoch": 2.015146666666667, "grad_norm": 0.025257174212968355, "learning_rate": 0.0001, "loss": 0.9686, "step": 7784 }, { "epoch": 2.0152, "grad_norm": 0.023988690056957543, "learning_rate": 0.0001, "loss": 0.9629, "step": 7785 }, { "epoch": 2.0152533333333333, "grad_norm": 0.02526193992728536, "learning_rate": 0.0001, "loss": 0.9327, "step": 7786 }, { "epoch": 2.0153066666666666, "grad_norm": 0.024873051568586855, "learning_rate": 0.0001, "loss": 1.0152, "step": 7787 }, { "epoch": 2.01536, "grad_norm": 0.022817681963579455, "learning_rate": 0.0001, "loss": 1.0068, "step": 7788 }, { "epoch": 2.0154133333333335, "grad_norm": 0.022919409501214207, "learning_rate": 0.0001, "loss": 0.9321, "step": 7789 }, { "epoch": 2.0154666666666667, "grad_norm": 0.023763119428362917, "learning_rate": 0.0001, "loss": 0.9794, "step": 7790 }, { "epoch": 2.01552, "grad_norm": 0.0252317904025397, "learning_rate": 0.0001, "loss": 0.9692, "step": 7791 }, { "epoch": 2.015573333333333, "grad_norm": 0.026098715535086702, "learning_rate": 0.0001, "loss": 0.9576, "step": 7792 }, { "epoch": 2.0156266666666665, "grad_norm": 0.02579829364852468, "learning_rate": 0.0001, "loss": 0.9702, "step": 7793 }, { "epoch": 2.01568, "grad_norm": 0.024458187753327143, "learning_rate": 0.0001, "loss": 0.9755, "step": 7794 }, { "epoch": 2.0157333333333334, "grad_norm": 0.025053516690854337, "learning_rate": 0.0001, "loss": 0.9773, "step": 7795 }, { "epoch": 2.0157866666666666, "grad_norm": 0.025119026609636583, "learning_rate": 0.0001, "loss": 0.9779, "step": 7796 }, { "epoch": 2.01584, "grad_norm": 0.028426881146423787, "learning_rate": 0.0001, "loss": 0.9318, "step": 7797 }, { "epoch": 2.0158933333333335, "grad_norm": 0.022855613872283305, "learning_rate": 0.0001, "loss": 0.9671, "step": 7798 }, { "epoch": 2.0159466666666668, "grad_norm": 0.024693884841345604, "learning_rate": 0.0001, "loss": 0.9692, "step": 7799 }, { "epoch": 2.016, "grad_norm": 0.023468010498468042, "learning_rate": 0.0001, "loss": 0.9471, "step": 7800 }, { "epoch": 2.016, "eval_accuracy": 0.6197596856328245, "eval_loss": 1.3565471172332764, "eval_runtime": 62.1284, "eval_samples_per_second": 16.096, "eval_steps_per_second": 0.515, "step": 7800 }, { "epoch": 2.0160533333333333, "grad_norm": 0.0251571348868813, "learning_rate": 0.0001, "loss": 0.9876, "step": 7801 }, { "epoch": 2.0161066666666665, "grad_norm": 0.025356457139282623, "learning_rate": 0.0001, "loss": 0.9457, "step": 7802 }, { "epoch": 2.01616, "grad_norm": 0.02680850200001137, "learning_rate": 0.0001, "loss": 0.9621, "step": 7803 }, { "epoch": 2.0162133333333334, "grad_norm": 0.022696119544082127, "learning_rate": 0.0001, "loss": 0.9337, "step": 7804 }, { "epoch": 2.0162666666666667, "grad_norm": 0.023994829034769183, "learning_rate": 0.0001, "loss": 0.934, "step": 7805 }, { "epoch": 2.01632, "grad_norm": 0.024444329472249778, "learning_rate": 0.0001, "loss": 0.967, "step": 7806 }, { "epoch": 2.016373333333333, "grad_norm": 0.02549708057337077, "learning_rate": 0.0001, "loss": 0.978, "step": 7807 }, { "epoch": 2.016426666666667, "grad_norm": 0.022694424898128295, "learning_rate": 0.0001, "loss": 0.9132, "step": 7808 }, { "epoch": 2.01648, "grad_norm": 0.02492969187429229, "learning_rate": 0.0001, "loss": 0.9755, "step": 7809 }, { "epoch": 2.0165333333333333, "grad_norm": 0.02472749254927329, "learning_rate": 0.0001, "loss": 0.9869, "step": 7810 }, { "epoch": 2.0165866666666665, "grad_norm": 0.02398934924442949, "learning_rate": 0.0001, "loss": 0.9618, "step": 7811 }, { "epoch": 2.01664, "grad_norm": 0.024581979444762717, "learning_rate": 0.0001, "loss": 0.9394, "step": 7812 }, { "epoch": 2.0166933333333334, "grad_norm": 0.024258738399187255, "learning_rate": 0.0001, "loss": 0.9517, "step": 7813 }, { "epoch": 2.0167466666666667, "grad_norm": 0.02936427772702437, "learning_rate": 0.0001, "loss": 0.9791, "step": 7814 }, { "epoch": 2.0168, "grad_norm": 0.02454404547652295, "learning_rate": 0.0001, "loss": 0.9447, "step": 7815 }, { "epoch": 2.016853333333333, "grad_norm": 0.02347327172498866, "learning_rate": 0.0001, "loss": 0.9151, "step": 7816 }, { "epoch": 2.016906666666667, "grad_norm": 0.023656378203225515, "learning_rate": 0.0001, "loss": 0.9795, "step": 7817 }, { "epoch": 2.01696, "grad_norm": 0.02335165336774691, "learning_rate": 0.0001, "loss": 0.9815, "step": 7818 }, { "epoch": 2.0170133333333333, "grad_norm": 0.02524103446242449, "learning_rate": 0.0001, "loss": 0.9472, "step": 7819 }, { "epoch": 2.0170666666666666, "grad_norm": 0.022847861701549888, "learning_rate": 0.0001, "loss": 0.9507, "step": 7820 }, { "epoch": 2.01712, "grad_norm": 0.026666743991816372, "learning_rate": 0.0001, "loss": 0.9947, "step": 7821 }, { "epoch": 2.0171733333333335, "grad_norm": 0.0241888578869528, "learning_rate": 0.0001, "loss": 0.9474, "step": 7822 }, { "epoch": 2.0172266666666667, "grad_norm": 0.024154092570197464, "learning_rate": 0.0001, "loss": 0.9631, "step": 7823 }, { "epoch": 2.01728, "grad_norm": 0.02321874928290078, "learning_rate": 0.0001, "loss": 0.9222, "step": 7824 }, { "epoch": 2.017333333333333, "grad_norm": 0.026456372010058467, "learning_rate": 0.0001, "loss": 1.0406, "step": 7825 }, { "epoch": 2.017386666666667, "grad_norm": 0.025334726293158163, "learning_rate": 0.0001, "loss": 0.9324, "step": 7826 }, { "epoch": 2.01744, "grad_norm": 0.024924900127434466, "learning_rate": 0.0001, "loss": 0.9052, "step": 7827 }, { "epoch": 2.0174933333333334, "grad_norm": 0.025564884863018462, "learning_rate": 0.0001, "loss": 0.9713, "step": 7828 }, { "epoch": 2.0175466666666666, "grad_norm": 0.02445092219448608, "learning_rate": 0.0001, "loss": 1.0281, "step": 7829 }, { "epoch": 2.0176, "grad_norm": 0.025633971329000374, "learning_rate": 0.0001, "loss": 1.0013, "step": 7830 }, { "epoch": 2.0176533333333335, "grad_norm": 0.02382189813564951, "learning_rate": 0.0001, "loss": 1.0077, "step": 7831 }, { "epoch": 2.0177066666666668, "grad_norm": 0.024299888898567882, "learning_rate": 0.0001, "loss": 0.9599, "step": 7832 }, { "epoch": 2.01776, "grad_norm": 0.02415488016699578, "learning_rate": 0.0001, "loss": 0.9911, "step": 7833 }, { "epoch": 2.0178133333333332, "grad_norm": 0.02473157351202445, "learning_rate": 0.0001, "loss": 1.0385, "step": 7834 }, { "epoch": 2.0178666666666665, "grad_norm": 0.023528007500381, "learning_rate": 0.0001, "loss": 1.0373, "step": 7835 }, { "epoch": 2.01792, "grad_norm": 0.0262717441795999, "learning_rate": 0.0001, "loss": 0.9381, "step": 7836 }, { "epoch": 2.0179733333333334, "grad_norm": 0.03373829018916179, "learning_rate": 0.0001, "loss": 0.9433, "step": 7837 }, { "epoch": 2.0180266666666666, "grad_norm": 0.024315155354553607, "learning_rate": 0.0001, "loss": 0.9537, "step": 7838 }, { "epoch": 2.01808, "grad_norm": 0.02477947508822472, "learning_rate": 0.0001, "loss": 0.943, "step": 7839 }, { "epoch": 2.018133333333333, "grad_norm": 0.02333261255266493, "learning_rate": 0.0001, "loss": 0.971, "step": 7840 }, { "epoch": 2.018186666666667, "grad_norm": 0.02390740461695378, "learning_rate": 0.0001, "loss": 0.9563, "step": 7841 }, { "epoch": 2.01824, "grad_norm": 0.02353630226830008, "learning_rate": 0.0001, "loss": 0.9989, "step": 7842 }, { "epoch": 2.0182933333333333, "grad_norm": 0.02362563845062899, "learning_rate": 0.0001, "loss": 0.9751, "step": 7843 }, { "epoch": 2.0183466666666665, "grad_norm": 0.02736964403598654, "learning_rate": 0.0001, "loss": 0.9662, "step": 7844 }, { "epoch": 2.0184, "grad_norm": 0.024633442331318214, "learning_rate": 0.0001, "loss": 0.971, "step": 7845 }, { "epoch": 2.0184533333333334, "grad_norm": 0.024664031501412203, "learning_rate": 0.0001, "loss": 0.9718, "step": 7846 }, { "epoch": 2.0185066666666667, "grad_norm": 0.025250084309105136, "learning_rate": 0.0001, "loss": 0.9869, "step": 7847 }, { "epoch": 2.01856, "grad_norm": 0.0242526929089027, "learning_rate": 0.0001, "loss": 0.9325, "step": 7848 }, { "epoch": 2.018613333333333, "grad_norm": 0.02662570821642361, "learning_rate": 0.0001, "loss": 0.985, "step": 7849 }, { "epoch": 2.018666666666667, "grad_norm": 0.025034009379861583, "learning_rate": 0.0001, "loss": 0.9981, "step": 7850 }, { "epoch": 2.01872, "grad_norm": 0.025042317749126883, "learning_rate": 0.0001, "loss": 1.0451, "step": 7851 }, { "epoch": 2.0187733333333333, "grad_norm": 0.02368146656717006, "learning_rate": 0.0001, "loss": 0.9841, "step": 7852 }, { "epoch": 2.0188266666666665, "grad_norm": 0.022599864860236324, "learning_rate": 0.0001, "loss": 0.9621, "step": 7853 }, { "epoch": 2.01888, "grad_norm": 0.02349847226427718, "learning_rate": 0.0001, "loss": 0.9752, "step": 7854 }, { "epoch": 2.0189333333333335, "grad_norm": 0.024165326659149874, "learning_rate": 0.0001, "loss": 1.0069, "step": 7855 }, { "epoch": 2.0189866666666667, "grad_norm": 0.024748840589796605, "learning_rate": 0.0001, "loss": 0.9656, "step": 7856 }, { "epoch": 2.01904, "grad_norm": 0.022409677709016654, "learning_rate": 0.0001, "loss": 0.9949, "step": 7857 }, { "epoch": 2.019093333333333, "grad_norm": 0.023911241361680265, "learning_rate": 0.0001, "loss": 1.0381, "step": 7858 }, { "epoch": 2.019146666666667, "grad_norm": 0.02450374861310636, "learning_rate": 0.0001, "loss": 0.987, "step": 7859 }, { "epoch": 2.0192, "grad_norm": 0.023833504247207562, "learning_rate": 0.0001, "loss": 0.9857, "step": 7860 }, { "epoch": 2.0192533333333333, "grad_norm": 0.02229276291814994, "learning_rate": 0.0001, "loss": 0.9022, "step": 7861 }, { "epoch": 2.0193066666666666, "grad_norm": 0.023561007061137236, "learning_rate": 0.0001, "loss": 1.0311, "step": 7862 }, { "epoch": 2.01936, "grad_norm": 0.02557766416404529, "learning_rate": 0.0001, "loss": 0.9513, "step": 7863 }, { "epoch": 2.0194133333333335, "grad_norm": 0.023525718476924452, "learning_rate": 0.0001, "loss": 1.029, "step": 7864 }, { "epoch": 2.0194666666666667, "grad_norm": 0.024895593573269467, "learning_rate": 0.0001, "loss": 1.0117, "step": 7865 }, { "epoch": 2.01952, "grad_norm": 0.02381601343872044, "learning_rate": 0.0001, "loss": 0.9624, "step": 7866 }, { "epoch": 2.019573333333333, "grad_norm": 0.02895612258277436, "learning_rate": 0.0001, "loss": 0.9741, "step": 7867 }, { "epoch": 2.0196266666666665, "grad_norm": 0.023441040735339206, "learning_rate": 0.0001, "loss": 0.9428, "step": 7868 }, { "epoch": 2.01968, "grad_norm": 0.023079013887247205, "learning_rate": 0.0001, "loss": 0.9759, "step": 7869 }, { "epoch": 2.0197333333333334, "grad_norm": 0.02435004098499625, "learning_rate": 0.0001, "loss": 0.9825, "step": 7870 }, { "epoch": 2.0197866666666666, "grad_norm": 0.025309262594777504, "learning_rate": 0.0001, "loss": 0.9651, "step": 7871 }, { "epoch": 2.01984, "grad_norm": 0.025741830446286425, "learning_rate": 0.0001, "loss": 0.9892, "step": 7872 }, { "epoch": 2.0198933333333335, "grad_norm": 0.02392325099632332, "learning_rate": 0.0001, "loss": 0.9685, "step": 7873 }, { "epoch": 2.019946666666667, "grad_norm": 0.023162600049667866, "learning_rate": 0.0001, "loss": 0.9533, "step": 7874 }, { "epoch": 2.02, "grad_norm": 0.02247508252994981, "learning_rate": 0.0001, "loss": 0.9708, "step": 7875 }, { "epoch": 2.0200533333333333, "grad_norm": 0.025518619782763808, "learning_rate": 0.0001, "loss": 1.0167, "step": 7876 }, { "epoch": 2.0201066666666665, "grad_norm": 0.023539437272762212, "learning_rate": 0.0001, "loss": 0.9589, "step": 7877 }, { "epoch": 2.02016, "grad_norm": 0.023274541171473682, "learning_rate": 0.0001, "loss": 0.9787, "step": 7878 }, { "epoch": 2.0202133333333334, "grad_norm": 0.025230089925979977, "learning_rate": 0.0001, "loss": 0.9977, "step": 7879 }, { "epoch": 2.0202666666666667, "grad_norm": 0.023932991497440964, "learning_rate": 0.0001, "loss": 0.9636, "step": 7880 }, { "epoch": 2.02032, "grad_norm": 0.022501898107824884, "learning_rate": 0.0001, "loss": 0.9783, "step": 7881 }, { "epoch": 2.020373333333333, "grad_norm": 0.024614730029694866, "learning_rate": 0.0001, "loss": 0.9626, "step": 7882 }, { "epoch": 2.020426666666667, "grad_norm": 0.025163325659990785, "learning_rate": 0.0001, "loss": 0.9454, "step": 7883 }, { "epoch": 2.02048, "grad_norm": 0.023175841690063013, "learning_rate": 0.0001, "loss": 1.0288, "step": 7884 }, { "epoch": 2.0205333333333333, "grad_norm": 0.023421065461819966, "learning_rate": 0.0001, "loss": 0.9792, "step": 7885 }, { "epoch": 2.0205866666666665, "grad_norm": 0.026864154998011452, "learning_rate": 0.0001, "loss": 0.9881, "step": 7886 }, { "epoch": 2.02064, "grad_norm": 0.02234309314942542, "learning_rate": 0.0001, "loss": 0.9566, "step": 7887 }, { "epoch": 2.0206933333333335, "grad_norm": 0.024472391501410454, "learning_rate": 0.0001, "loss": 0.9482, "step": 7888 }, { "epoch": 2.0207466666666667, "grad_norm": 0.02483502925703475, "learning_rate": 0.0001, "loss": 0.9753, "step": 7889 }, { "epoch": 2.0208, "grad_norm": 0.025552463254968537, "learning_rate": 0.0001, "loss": 0.9291, "step": 7890 }, { "epoch": 2.020853333333333, "grad_norm": 0.025152664168468734, "learning_rate": 0.0001, "loss": 0.9231, "step": 7891 }, { "epoch": 2.020906666666667, "grad_norm": 0.025643714620154367, "learning_rate": 0.0001, "loss": 0.9421, "step": 7892 }, { "epoch": 2.02096, "grad_norm": 0.025294006242216505, "learning_rate": 0.0001, "loss": 0.9448, "step": 7893 }, { "epoch": 2.0210133333333333, "grad_norm": 0.023289293482551415, "learning_rate": 0.0001, "loss": 0.9749, "step": 7894 }, { "epoch": 2.0210666666666666, "grad_norm": 0.02451650716591503, "learning_rate": 0.0001, "loss": 0.9929, "step": 7895 }, { "epoch": 2.02112, "grad_norm": 0.023927794653776913, "learning_rate": 0.0001, "loss": 0.9781, "step": 7896 }, { "epoch": 2.0211733333333335, "grad_norm": 0.02326580224542906, "learning_rate": 0.0001, "loss": 0.9299, "step": 7897 }, { "epoch": 2.0212266666666667, "grad_norm": 0.0236074309192709, "learning_rate": 0.0001, "loss": 0.938, "step": 7898 }, { "epoch": 2.02128, "grad_norm": 0.02375442352394513, "learning_rate": 0.0001, "loss": 0.9472, "step": 7899 }, { "epoch": 2.021333333333333, "grad_norm": 0.025122452451045493, "learning_rate": 0.0001, "loss": 0.9111, "step": 7900 }, { "epoch": 2.0213866666666664, "grad_norm": 0.024391677328214893, "learning_rate": 0.0001, "loss": 0.9786, "step": 7901 }, { "epoch": 2.02144, "grad_norm": 0.024216391049495262, "learning_rate": 0.0001, "loss": 0.9449, "step": 7902 }, { "epoch": 2.0214933333333334, "grad_norm": 0.0235536506705202, "learning_rate": 0.0001, "loss": 0.9513, "step": 7903 }, { "epoch": 2.0215466666666666, "grad_norm": 0.024666184911352165, "learning_rate": 0.0001, "loss": 0.9812, "step": 7904 }, { "epoch": 2.0216, "grad_norm": 0.022915562514636483, "learning_rate": 0.0001, "loss": 0.9429, "step": 7905 }, { "epoch": 2.0216533333333335, "grad_norm": 0.023893722386499863, "learning_rate": 0.0001, "loss": 1.0001, "step": 7906 }, { "epoch": 2.0217066666666668, "grad_norm": 0.02534345733799749, "learning_rate": 0.0001, "loss": 1.0494, "step": 7907 }, { "epoch": 2.02176, "grad_norm": 0.024045332609320708, "learning_rate": 0.0001, "loss": 0.9978, "step": 7908 }, { "epoch": 2.0218133333333332, "grad_norm": 0.02505386864988418, "learning_rate": 0.0001, "loss": 0.981, "step": 7909 }, { "epoch": 2.0218666666666665, "grad_norm": 0.023005049448211797, "learning_rate": 0.0001, "loss": 0.9199, "step": 7910 }, { "epoch": 2.02192, "grad_norm": 0.024351896540911296, "learning_rate": 0.0001, "loss": 0.9516, "step": 7911 }, { "epoch": 2.0219733333333334, "grad_norm": 0.024451406609457056, "learning_rate": 0.0001, "loss": 0.9669, "step": 7912 }, { "epoch": 2.0220266666666666, "grad_norm": 0.023692260890789997, "learning_rate": 0.0001, "loss": 0.9643, "step": 7913 }, { "epoch": 2.02208, "grad_norm": 0.02490760425710272, "learning_rate": 0.0001, "loss": 0.9316, "step": 7914 }, { "epoch": 2.022133333333333, "grad_norm": 0.02304088714702246, "learning_rate": 0.0001, "loss": 0.9752, "step": 7915 }, { "epoch": 2.022186666666667, "grad_norm": 0.02353972950445157, "learning_rate": 0.0001, "loss": 0.9785, "step": 7916 }, { "epoch": 2.02224, "grad_norm": 0.02366092840927252, "learning_rate": 0.0001, "loss": 0.9842, "step": 7917 }, { "epoch": 2.0222933333333333, "grad_norm": 0.025372238142308046, "learning_rate": 0.0001, "loss": 0.9852, "step": 7918 }, { "epoch": 2.0223466666666665, "grad_norm": 0.024668668844054747, "learning_rate": 0.0001, "loss": 0.963, "step": 7919 }, { "epoch": 2.0224, "grad_norm": 0.023347164930813527, "learning_rate": 0.0001, "loss": 0.9429, "step": 7920 }, { "epoch": 2.0224533333333334, "grad_norm": 0.025098348251342727, "learning_rate": 0.0001, "loss": 0.9996, "step": 7921 }, { "epoch": 2.0225066666666667, "grad_norm": 0.02377714196683911, "learning_rate": 0.0001, "loss": 0.8824, "step": 7922 }, { "epoch": 2.02256, "grad_norm": 0.02444035324305177, "learning_rate": 0.0001, "loss": 0.9606, "step": 7923 }, { "epoch": 2.022613333333333, "grad_norm": 0.023919092478027308, "learning_rate": 0.0001, "loss": 0.9254, "step": 7924 }, { "epoch": 2.022666666666667, "grad_norm": 0.022816241178498196, "learning_rate": 0.0001, "loss": 0.9018, "step": 7925 }, { "epoch": 2.02272, "grad_norm": 0.024359132420992836, "learning_rate": 0.0001, "loss": 1.0194, "step": 7926 }, { "epoch": 2.0227733333333333, "grad_norm": 0.02596859440180148, "learning_rate": 0.0001, "loss": 0.9227, "step": 7927 }, { "epoch": 2.0228266666666666, "grad_norm": 0.026523297088522576, "learning_rate": 0.0001, "loss": 0.9575, "step": 7928 }, { "epoch": 2.02288, "grad_norm": 0.02424108421113289, "learning_rate": 0.0001, "loss": 0.9478, "step": 7929 }, { "epoch": 2.0229333333333335, "grad_norm": 0.025044066805689713, "learning_rate": 0.0001, "loss": 0.9821, "step": 7930 }, { "epoch": 2.0229866666666667, "grad_norm": 0.0230951761691659, "learning_rate": 0.0001, "loss": 0.911, "step": 7931 }, { "epoch": 2.02304, "grad_norm": 0.023972523778282177, "learning_rate": 0.0001, "loss": 1.0008, "step": 7932 }, { "epoch": 2.023093333333333, "grad_norm": 0.024237723674052702, "learning_rate": 0.0001, "loss": 1.0379, "step": 7933 }, { "epoch": 2.023146666666667, "grad_norm": 0.024377569033784588, "learning_rate": 0.0001, "loss": 0.9705, "step": 7934 }, { "epoch": 2.0232, "grad_norm": 0.023025195726625383, "learning_rate": 0.0001, "loss": 0.9402, "step": 7935 }, { "epoch": 2.0232533333333333, "grad_norm": 0.023489611941045752, "learning_rate": 0.0001, "loss": 1.0402, "step": 7936 }, { "epoch": 2.0233066666666666, "grad_norm": 0.02328075047581385, "learning_rate": 0.0001, "loss": 0.9312, "step": 7937 }, { "epoch": 2.02336, "grad_norm": 0.024119706161540324, "learning_rate": 0.0001, "loss": 0.9021, "step": 7938 }, { "epoch": 2.0234133333333335, "grad_norm": 0.023748236851763277, "learning_rate": 0.0001, "loss": 0.9948, "step": 7939 }, { "epoch": 2.0234666666666667, "grad_norm": 0.022402458690207776, "learning_rate": 0.0001, "loss": 0.9739, "step": 7940 }, { "epoch": 2.02352, "grad_norm": 0.02525509075006049, "learning_rate": 0.0001, "loss": 0.9616, "step": 7941 }, { "epoch": 2.0235733333333332, "grad_norm": 0.026450702252704534, "learning_rate": 0.0001, "loss": 0.9509, "step": 7942 }, { "epoch": 2.0236266666666665, "grad_norm": 0.023140332214132527, "learning_rate": 0.0001, "loss": 0.9569, "step": 7943 }, { "epoch": 2.02368, "grad_norm": 0.02245414260856878, "learning_rate": 0.0001, "loss": 0.96, "step": 7944 }, { "epoch": 2.0237333333333334, "grad_norm": 0.027149191513827237, "learning_rate": 0.0001, "loss": 0.9861, "step": 7945 }, { "epoch": 2.0237866666666666, "grad_norm": 0.024807274936601672, "learning_rate": 0.0001, "loss": 0.9103, "step": 7946 }, { "epoch": 2.02384, "grad_norm": 0.02276839161799091, "learning_rate": 0.0001, "loss": 0.9669, "step": 7947 }, { "epoch": 2.0238933333333335, "grad_norm": 0.025194055066349214, "learning_rate": 0.0001, "loss": 0.9558, "step": 7948 }, { "epoch": 2.023946666666667, "grad_norm": 0.02335674247177156, "learning_rate": 0.0001, "loss": 0.9719, "step": 7949 }, { "epoch": 2.024, "grad_norm": 0.024430833518157228, "learning_rate": 0.0001, "loss": 0.9846, "step": 7950 }, { "epoch": 2.0240533333333333, "grad_norm": 0.024137834466232803, "learning_rate": 0.0001, "loss": 0.9816, "step": 7951 }, { "epoch": 2.0241066666666665, "grad_norm": 0.02346997678331699, "learning_rate": 0.0001, "loss": 0.9659, "step": 7952 }, { "epoch": 2.02416, "grad_norm": 0.02539682550219208, "learning_rate": 0.0001, "loss": 0.9246, "step": 7953 }, { "epoch": 2.0242133333333334, "grad_norm": 0.02403812847417352, "learning_rate": 0.0001, "loss": 0.9367, "step": 7954 }, { "epoch": 2.0242666666666667, "grad_norm": 0.025609920817181994, "learning_rate": 0.0001, "loss": 0.9555, "step": 7955 }, { "epoch": 2.02432, "grad_norm": 0.025123943116804714, "learning_rate": 0.0001, "loss": 0.9562, "step": 7956 }, { "epoch": 2.024373333333333, "grad_norm": 0.02420631603485884, "learning_rate": 0.0001, "loss": 0.9517, "step": 7957 }, { "epoch": 2.024426666666667, "grad_norm": 0.026666491642148397, "learning_rate": 0.0001, "loss": 0.919, "step": 7958 }, { "epoch": 2.02448, "grad_norm": 0.022798833453647367, "learning_rate": 0.0001, "loss": 0.9897, "step": 7959 }, { "epoch": 2.0245333333333333, "grad_norm": 0.023840619097232583, "learning_rate": 0.0001, "loss": 1.0012, "step": 7960 }, { "epoch": 2.0245866666666665, "grad_norm": 0.024644832531985877, "learning_rate": 0.0001, "loss": 0.937, "step": 7961 }, { "epoch": 2.02464, "grad_norm": 0.025910860648263853, "learning_rate": 0.0001, "loss": 0.9608, "step": 7962 }, { "epoch": 2.0246933333333335, "grad_norm": 0.023774819493791146, "learning_rate": 0.0001, "loss": 0.9931, "step": 7963 }, { "epoch": 2.0247466666666667, "grad_norm": 0.02543804181082035, "learning_rate": 0.0001, "loss": 0.9753, "step": 7964 }, { "epoch": 2.0248, "grad_norm": 0.02313634379922884, "learning_rate": 0.0001, "loss": 0.994, "step": 7965 }, { "epoch": 2.024853333333333, "grad_norm": 0.025124155249087107, "learning_rate": 0.0001, "loss": 0.9642, "step": 7966 }, { "epoch": 2.024906666666667, "grad_norm": 0.024058106233427943, "learning_rate": 0.0001, "loss": 0.9567, "step": 7967 }, { "epoch": 2.02496, "grad_norm": 0.025310070471966414, "learning_rate": 0.0001, "loss": 0.9596, "step": 7968 }, { "epoch": 2.0250133333333333, "grad_norm": 0.024104865282307337, "learning_rate": 0.0001, "loss": 0.9504, "step": 7969 }, { "epoch": 2.0250666666666666, "grad_norm": 0.0240035325099551, "learning_rate": 0.0001, "loss": 0.9656, "step": 7970 }, { "epoch": 2.02512, "grad_norm": 0.023718419933437703, "learning_rate": 0.0001, "loss": 0.9353, "step": 7971 }, { "epoch": 2.0251733333333335, "grad_norm": 0.02282172148024709, "learning_rate": 0.0001, "loss": 1.0173, "step": 7972 }, { "epoch": 2.0252266666666667, "grad_norm": 0.02589289559098086, "learning_rate": 0.0001, "loss": 1.0153, "step": 7973 }, { "epoch": 2.02528, "grad_norm": 0.026240484499391713, "learning_rate": 0.0001, "loss": 1.0298, "step": 7974 }, { "epoch": 2.025333333333333, "grad_norm": 0.024952934990240358, "learning_rate": 0.0001, "loss": 1.0117, "step": 7975 }, { "epoch": 2.0253866666666664, "grad_norm": 0.022745867462903455, "learning_rate": 0.0001, "loss": 0.9466, "step": 7976 }, { "epoch": 2.02544, "grad_norm": 0.024186578508699454, "learning_rate": 0.0001, "loss": 0.9516, "step": 7977 }, { "epoch": 2.0254933333333334, "grad_norm": 0.023841898500159324, "learning_rate": 0.0001, "loss": 0.9049, "step": 7978 }, { "epoch": 2.0255466666666666, "grad_norm": 0.023131467587635592, "learning_rate": 0.0001, "loss": 0.9661, "step": 7979 }, { "epoch": 2.0256, "grad_norm": 0.02369101615370497, "learning_rate": 0.0001, "loss": 0.9581, "step": 7980 }, { "epoch": 2.0256533333333335, "grad_norm": 0.023103183915673786, "learning_rate": 0.0001, "loss": 0.9321, "step": 7981 }, { "epoch": 2.0257066666666668, "grad_norm": 0.022128645365729657, "learning_rate": 0.0001, "loss": 1.0045, "step": 7982 }, { "epoch": 2.02576, "grad_norm": 0.02234847879493341, "learning_rate": 0.0001, "loss": 0.9867, "step": 7983 }, { "epoch": 2.0258133333333332, "grad_norm": 0.024409083011020183, "learning_rate": 0.0001, "loss": 0.9804, "step": 7984 }, { "epoch": 2.0258666666666665, "grad_norm": 0.022466632338158574, "learning_rate": 0.0001, "loss": 0.8947, "step": 7985 }, { "epoch": 2.02592, "grad_norm": 0.023634677972850824, "learning_rate": 0.0001, "loss": 0.8885, "step": 7986 }, { "epoch": 2.0259733333333334, "grad_norm": 0.02381282384074669, "learning_rate": 0.0001, "loss": 0.9648, "step": 7987 }, { "epoch": 2.0260266666666666, "grad_norm": 0.027071517213182024, "learning_rate": 0.0001, "loss": 1.0229, "step": 7988 }, { "epoch": 2.02608, "grad_norm": 0.022803246510421805, "learning_rate": 0.0001, "loss": 0.9249, "step": 7989 }, { "epoch": 2.026133333333333, "grad_norm": 0.023849438995904703, "learning_rate": 0.0001, "loss": 0.9704, "step": 7990 }, { "epoch": 2.026186666666667, "grad_norm": 0.025717535274601567, "learning_rate": 0.0001, "loss": 0.9558, "step": 7991 }, { "epoch": 2.02624, "grad_norm": 0.024810643050891274, "learning_rate": 0.0001, "loss": 0.9521, "step": 7992 }, { "epoch": 2.0262933333333333, "grad_norm": 0.023543437877877313, "learning_rate": 0.0001, "loss": 0.9945, "step": 7993 }, { "epoch": 2.0263466666666665, "grad_norm": 0.023265005714845254, "learning_rate": 0.0001, "loss": 0.945, "step": 7994 }, { "epoch": 2.0264, "grad_norm": 0.02479458389787547, "learning_rate": 0.0001, "loss": 0.9737, "step": 7995 }, { "epoch": 2.0264533333333334, "grad_norm": 0.02660644099386114, "learning_rate": 0.0001, "loss": 0.9705, "step": 7996 }, { "epoch": 2.0265066666666667, "grad_norm": 0.02452528491071179, "learning_rate": 0.0001, "loss": 0.9452, "step": 7997 }, { "epoch": 2.02656, "grad_norm": 0.02602947063297615, "learning_rate": 0.0001, "loss": 0.9271, "step": 7998 }, { "epoch": 2.026613333333333, "grad_norm": 0.02368139956853229, "learning_rate": 0.0001, "loss": 0.8784, "step": 7999 }, { "epoch": 2.026666666666667, "grad_norm": 0.024722637103953952, "learning_rate": 0.0001, "loss": 0.9685, "step": 8000 }, { "epoch": 2.026666666666667, "eval_accuracy": 0.6199182807508021, "eval_loss": 1.3556348085403442, "eval_runtime": 62.8646, "eval_samples_per_second": 15.907, "eval_steps_per_second": 0.509, "step": 8000 }, { "epoch": 2.02672, "grad_norm": 0.024659392223663226, "learning_rate": 0.0001, "loss": 0.9586, "step": 8001 }, { "epoch": 2.0267733333333333, "grad_norm": 0.022861293973594304, "learning_rate": 0.0001, "loss": 0.9335, "step": 8002 }, { "epoch": 2.0268266666666666, "grad_norm": 0.022899732944053404, "learning_rate": 0.0001, "loss": 0.9677, "step": 8003 }, { "epoch": 2.02688, "grad_norm": 0.026135359207934375, "learning_rate": 0.0001, "loss": 0.9459, "step": 8004 }, { "epoch": 2.0269333333333335, "grad_norm": 0.024062478125130064, "learning_rate": 0.0001, "loss": 0.9503, "step": 8005 }, { "epoch": 2.0269866666666667, "grad_norm": 0.025265073721426654, "learning_rate": 0.0001, "loss": 0.9795, "step": 8006 }, { "epoch": 2.02704, "grad_norm": 0.022248114223363345, "learning_rate": 0.0001, "loss": 0.9777, "step": 8007 }, { "epoch": 2.027093333333333, "grad_norm": 0.02325802268032157, "learning_rate": 0.0001, "loss": 1.0178, "step": 8008 }, { "epoch": 2.027146666666667, "grad_norm": 0.023792764287049996, "learning_rate": 0.0001, "loss": 0.9137, "step": 8009 }, { "epoch": 2.0272, "grad_norm": 0.024032572969902945, "learning_rate": 0.0001, "loss": 0.9096, "step": 8010 }, { "epoch": 2.0272533333333334, "grad_norm": 0.024029498697089317, "learning_rate": 0.0001, "loss": 0.9913, "step": 8011 }, { "epoch": 2.0273066666666666, "grad_norm": 0.02596963138864555, "learning_rate": 0.0001, "loss": 0.976, "step": 8012 }, { "epoch": 2.02736, "grad_norm": 0.02408576579274703, "learning_rate": 0.0001, "loss": 0.9956, "step": 8013 }, { "epoch": 2.0274133333333335, "grad_norm": 0.02329079036588869, "learning_rate": 0.0001, "loss": 0.9255, "step": 8014 }, { "epoch": 2.0274666666666668, "grad_norm": 0.02289416157192789, "learning_rate": 0.0001, "loss": 0.957, "step": 8015 }, { "epoch": 2.02752, "grad_norm": 0.02553966067384454, "learning_rate": 0.0001, "loss": 0.9842, "step": 8016 }, { "epoch": 2.0275733333333332, "grad_norm": 0.023902360039718826, "learning_rate": 0.0001, "loss": 0.9558, "step": 8017 }, { "epoch": 2.0276266666666665, "grad_norm": 0.023302865596499512, "learning_rate": 0.0001, "loss": 0.9777, "step": 8018 }, { "epoch": 2.02768, "grad_norm": 0.022871204042510796, "learning_rate": 0.0001, "loss": 0.972, "step": 8019 }, { "epoch": 2.0277333333333334, "grad_norm": 0.02604723940194063, "learning_rate": 0.0001, "loss": 1.0244, "step": 8020 }, { "epoch": 2.0277866666666666, "grad_norm": 0.025144582483134337, "learning_rate": 0.0001, "loss": 0.9736, "step": 8021 }, { "epoch": 2.02784, "grad_norm": 0.025629439232188553, "learning_rate": 0.0001, "loss": 0.9609, "step": 8022 }, { "epoch": 2.0278933333333335, "grad_norm": 0.02490074471501576, "learning_rate": 0.0001, "loss": 0.9705, "step": 8023 }, { "epoch": 2.027946666666667, "grad_norm": 0.023285128985770575, "learning_rate": 0.0001, "loss": 0.9584, "step": 8024 }, { "epoch": 2.028, "grad_norm": 0.026584543876631582, "learning_rate": 0.0001, "loss": 0.9938, "step": 8025 }, { "epoch": 2.0280533333333333, "grad_norm": 0.023340542295834047, "learning_rate": 0.0001, "loss": 0.9645, "step": 8026 }, { "epoch": 2.0281066666666665, "grad_norm": 0.02340766579994511, "learning_rate": 0.0001, "loss": 0.9614, "step": 8027 }, { "epoch": 2.02816, "grad_norm": 0.023349490758995693, "learning_rate": 0.0001, "loss": 0.8857, "step": 8028 }, { "epoch": 2.0282133333333334, "grad_norm": 0.02486401163259767, "learning_rate": 0.0001, "loss": 0.933, "step": 8029 }, { "epoch": 2.0282666666666667, "grad_norm": 0.025500397138290973, "learning_rate": 0.0001, "loss": 0.9714, "step": 8030 }, { "epoch": 2.02832, "grad_norm": 0.025375907570445777, "learning_rate": 0.0001, "loss": 0.9662, "step": 8031 }, { "epoch": 2.028373333333333, "grad_norm": 0.024525310145260097, "learning_rate": 0.0001, "loss": 0.9739, "step": 8032 }, { "epoch": 2.028426666666667, "grad_norm": 0.025239127680744176, "learning_rate": 0.0001, "loss": 0.9609, "step": 8033 }, { "epoch": 2.02848, "grad_norm": 0.02314463193500334, "learning_rate": 0.0001, "loss": 0.9679, "step": 8034 }, { "epoch": 2.0285333333333333, "grad_norm": 0.023350531677779035, "learning_rate": 0.0001, "loss": 0.9528, "step": 8035 }, { "epoch": 2.0285866666666665, "grad_norm": 0.022530991471733135, "learning_rate": 0.0001, "loss": 0.9914, "step": 8036 }, { "epoch": 2.02864, "grad_norm": 0.023460788590354564, "learning_rate": 0.0001, "loss": 0.9043, "step": 8037 }, { "epoch": 2.0286933333333335, "grad_norm": 0.02322747619681044, "learning_rate": 0.0001, "loss": 0.9654, "step": 8038 }, { "epoch": 2.0287466666666667, "grad_norm": 0.024748647214755164, "learning_rate": 0.0001, "loss": 0.9249, "step": 8039 }, { "epoch": 2.0288, "grad_norm": 0.023031516373900558, "learning_rate": 0.0001, "loss": 1.0425, "step": 8040 }, { "epoch": 2.028853333333333, "grad_norm": 0.02353207895048163, "learning_rate": 0.0001, "loss": 0.9675, "step": 8041 }, { "epoch": 2.028906666666667, "grad_norm": 0.024412201990495902, "learning_rate": 0.0001, "loss": 0.9605, "step": 8042 }, { "epoch": 2.02896, "grad_norm": 0.025099637484185953, "learning_rate": 0.0001, "loss": 1.0307, "step": 8043 }, { "epoch": 2.0290133333333333, "grad_norm": 0.022499745029055558, "learning_rate": 0.0001, "loss": 0.9631, "step": 8044 }, { "epoch": 2.0290666666666666, "grad_norm": 0.023551991409298475, "learning_rate": 0.0001, "loss": 1.0195, "step": 8045 }, { "epoch": 2.02912, "grad_norm": 0.023231129436747988, "learning_rate": 0.0001, "loss": 0.9879, "step": 8046 }, { "epoch": 2.0291733333333335, "grad_norm": 0.02265105449390041, "learning_rate": 0.0001, "loss": 0.9179, "step": 8047 }, { "epoch": 2.0292266666666667, "grad_norm": 0.024463024163364717, "learning_rate": 0.0001, "loss": 0.9427, "step": 8048 }, { "epoch": 2.02928, "grad_norm": 0.025735373112397382, "learning_rate": 0.0001, "loss": 1.0132, "step": 8049 }, { "epoch": 2.029333333333333, "grad_norm": 0.0234980159179394, "learning_rate": 0.0001, "loss": 0.9406, "step": 8050 }, { "epoch": 2.0293866666666664, "grad_norm": 0.024185961114439682, "learning_rate": 0.0001, "loss": 0.9828, "step": 8051 }, { "epoch": 2.02944, "grad_norm": 0.0250673756187648, "learning_rate": 0.0001, "loss": 1.003, "step": 8052 }, { "epoch": 2.0294933333333334, "grad_norm": 0.023086740213390078, "learning_rate": 0.0001, "loss": 0.9452, "step": 8053 }, { "epoch": 2.0295466666666666, "grad_norm": 0.02704412834541974, "learning_rate": 0.0001, "loss": 0.9203, "step": 8054 }, { "epoch": 2.0296, "grad_norm": 0.024880471260936392, "learning_rate": 0.0001, "loss": 0.9423, "step": 8055 }, { "epoch": 2.0296533333333335, "grad_norm": 0.02501488958705885, "learning_rate": 0.0001, "loss": 0.9621, "step": 8056 }, { "epoch": 2.0297066666666668, "grad_norm": 0.0238433776027817, "learning_rate": 0.0001, "loss": 0.9751, "step": 8057 }, { "epoch": 2.02976, "grad_norm": 0.024709651430535166, "learning_rate": 0.0001, "loss": 0.9459, "step": 8058 }, { "epoch": 2.0298133333333332, "grad_norm": 0.02354701014722062, "learning_rate": 0.0001, "loss": 0.9609, "step": 8059 }, { "epoch": 2.0298666666666665, "grad_norm": 0.02453480409816384, "learning_rate": 0.0001, "loss": 0.947, "step": 8060 }, { "epoch": 2.02992, "grad_norm": 0.023221152504762588, "learning_rate": 0.0001, "loss": 0.9594, "step": 8061 }, { "epoch": 2.0299733333333334, "grad_norm": 0.022838857459045073, "learning_rate": 0.0001, "loss": 0.9886, "step": 8062 }, { "epoch": 2.0300266666666666, "grad_norm": 0.02280548277186841, "learning_rate": 0.0001, "loss": 0.9674, "step": 8063 }, { "epoch": 2.03008, "grad_norm": 0.022933941160837083, "learning_rate": 0.0001, "loss": 0.9522, "step": 8064 }, { "epoch": 2.030133333333333, "grad_norm": 0.023180271095383828, "learning_rate": 0.0001, "loss": 0.9911, "step": 8065 }, { "epoch": 2.030186666666667, "grad_norm": 0.02442734401848343, "learning_rate": 0.0001, "loss": 0.9658, "step": 8066 }, { "epoch": 2.03024, "grad_norm": 0.022578541982410064, "learning_rate": 0.0001, "loss": 0.9434, "step": 8067 }, { "epoch": 2.0302933333333333, "grad_norm": 0.023759964366544168, "learning_rate": 0.0001, "loss": 0.9358, "step": 8068 }, { "epoch": 2.0303466666666665, "grad_norm": 0.023191535752895943, "learning_rate": 0.0001, "loss": 0.9308, "step": 8069 }, { "epoch": 2.0304, "grad_norm": 0.021958685433951054, "learning_rate": 0.0001, "loss": 1.0169, "step": 8070 }, { "epoch": 2.0304533333333334, "grad_norm": 0.02310591916472175, "learning_rate": 0.0001, "loss": 1.0214, "step": 8071 }, { "epoch": 2.0305066666666667, "grad_norm": 0.025175823397591657, "learning_rate": 0.0001, "loss": 0.9451, "step": 8072 }, { "epoch": 2.03056, "grad_norm": 0.024291234983466005, "learning_rate": 0.0001, "loss": 1.0218, "step": 8073 }, { "epoch": 2.030613333333333, "grad_norm": 0.024520233605144378, "learning_rate": 0.0001, "loss": 0.9533, "step": 8074 }, { "epoch": 2.030666666666667, "grad_norm": 0.02235844478110179, "learning_rate": 0.0001, "loss": 0.9756, "step": 8075 }, { "epoch": 2.03072, "grad_norm": 0.023891368231163137, "learning_rate": 0.0001, "loss": 0.9596, "step": 8076 }, { "epoch": 2.0307733333333333, "grad_norm": 0.02475895583752306, "learning_rate": 0.0001, "loss": 0.9291, "step": 8077 }, { "epoch": 2.0308266666666666, "grad_norm": 0.024367730006083225, "learning_rate": 0.0001, "loss": 0.9391, "step": 8078 }, { "epoch": 2.03088, "grad_norm": 0.02273326265253286, "learning_rate": 0.0001, "loss": 0.9698, "step": 8079 }, { "epoch": 2.0309333333333335, "grad_norm": 0.02531345773029865, "learning_rate": 0.0001, "loss": 1.0013, "step": 8080 }, { "epoch": 2.0309866666666667, "grad_norm": 0.023458639091767177, "learning_rate": 0.0001, "loss": 0.9553, "step": 8081 }, { "epoch": 2.03104, "grad_norm": 0.0231876429984486, "learning_rate": 0.0001, "loss": 1.0312, "step": 8082 }, { "epoch": 2.031093333333333, "grad_norm": 0.022767930524652723, "learning_rate": 0.0001, "loss": 0.9401, "step": 8083 }, { "epoch": 2.031146666666667, "grad_norm": 0.024082942550010866, "learning_rate": 0.0001, "loss": 0.9305, "step": 8084 }, { "epoch": 2.0312, "grad_norm": 0.02219438977578442, "learning_rate": 0.0001, "loss": 0.9268, "step": 8085 }, { "epoch": 2.0312533333333334, "grad_norm": 0.022416138541796506, "learning_rate": 0.0001, "loss": 0.9369, "step": 8086 }, { "epoch": 2.0313066666666666, "grad_norm": 0.02322722580617558, "learning_rate": 0.0001, "loss": 0.9729, "step": 8087 }, { "epoch": 2.03136, "grad_norm": 0.027153134198205184, "learning_rate": 0.0001, "loss": 0.9977, "step": 8088 }, { "epoch": 2.0314133333333335, "grad_norm": 0.02497806735141356, "learning_rate": 0.0001, "loss": 1.0119, "step": 8089 }, { "epoch": 2.0314666666666668, "grad_norm": 0.023907968585727815, "learning_rate": 0.0001, "loss": 0.9051, "step": 8090 }, { "epoch": 2.03152, "grad_norm": 0.022104186260600026, "learning_rate": 0.0001, "loss": 0.9805, "step": 8091 }, { "epoch": 2.0315733333333332, "grad_norm": 0.02380525603579919, "learning_rate": 0.0001, "loss": 1.0127, "step": 8092 }, { "epoch": 2.0316266666666665, "grad_norm": 0.025410693333429105, "learning_rate": 0.0001, "loss": 0.9844, "step": 8093 }, { "epoch": 2.03168, "grad_norm": 0.02400837857523772, "learning_rate": 0.0001, "loss": 0.9138, "step": 8094 }, { "epoch": 2.0317333333333334, "grad_norm": 0.02343609897057897, "learning_rate": 0.0001, "loss": 0.9786, "step": 8095 }, { "epoch": 2.0317866666666666, "grad_norm": 0.025912982887393774, "learning_rate": 0.0001, "loss": 0.9635, "step": 8096 }, { "epoch": 2.03184, "grad_norm": 0.02627770629336953, "learning_rate": 0.0001, "loss": 0.9252, "step": 8097 }, { "epoch": 2.0318933333333336, "grad_norm": 0.024477884819314684, "learning_rate": 0.0001, "loss": 1.0073, "step": 8098 }, { "epoch": 2.031946666666667, "grad_norm": 0.025642781937712588, "learning_rate": 0.0001, "loss": 0.9865, "step": 8099 }, { "epoch": 2.032, "grad_norm": 0.02482590859679831, "learning_rate": 0.0001, "loss": 0.9273, "step": 8100 }, { "epoch": 2.0320533333333333, "grad_norm": 0.025236991795337862, "learning_rate": 0.0001, "loss": 0.9915, "step": 8101 }, { "epoch": 2.0321066666666665, "grad_norm": 0.023843214847274738, "learning_rate": 0.0001, "loss": 1.0054, "step": 8102 }, { "epoch": 2.03216, "grad_norm": 0.02397423078023519, "learning_rate": 0.0001, "loss": 0.954, "step": 8103 }, { "epoch": 2.0322133333333334, "grad_norm": 0.025286139969183323, "learning_rate": 0.0001, "loss": 0.9922, "step": 8104 }, { "epoch": 2.0322666666666667, "grad_norm": 0.023781090668934083, "learning_rate": 0.0001, "loss": 1.0426, "step": 8105 }, { "epoch": 2.03232, "grad_norm": 0.025241937576972958, "learning_rate": 0.0001, "loss": 0.9397, "step": 8106 }, { "epoch": 2.032373333333333, "grad_norm": 0.02409305254900028, "learning_rate": 0.0001, "loss": 0.9375, "step": 8107 }, { "epoch": 2.032426666666667, "grad_norm": 0.024478268889393938, "learning_rate": 0.0001, "loss": 0.9737, "step": 8108 }, { "epoch": 2.03248, "grad_norm": 0.025186450536486625, "learning_rate": 0.0001, "loss": 0.9751, "step": 8109 }, { "epoch": 2.0325333333333333, "grad_norm": 0.023999259281080668, "learning_rate": 0.0001, "loss": 0.9568, "step": 8110 }, { "epoch": 2.0325866666666665, "grad_norm": 0.023295760913093332, "learning_rate": 0.0001, "loss": 1.0295, "step": 8111 }, { "epoch": 2.03264, "grad_norm": 0.024090232796824762, "learning_rate": 0.0001, "loss": 0.9542, "step": 8112 }, { "epoch": 2.0326933333333335, "grad_norm": 0.023139508655673113, "learning_rate": 0.0001, "loss": 0.9631, "step": 8113 }, { "epoch": 2.0327466666666667, "grad_norm": 0.02529411031922049, "learning_rate": 0.0001, "loss": 0.9393, "step": 8114 }, { "epoch": 2.0328, "grad_norm": 0.02567702905069219, "learning_rate": 0.0001, "loss": 0.9419, "step": 8115 }, { "epoch": 2.032853333333333, "grad_norm": 0.02531263903833639, "learning_rate": 0.0001, "loss": 0.9203, "step": 8116 }, { "epoch": 2.032906666666667, "grad_norm": 0.024464119803372757, "learning_rate": 0.0001, "loss": 0.9419, "step": 8117 }, { "epoch": 2.03296, "grad_norm": 0.02457007462163014, "learning_rate": 0.0001, "loss": 1.0415, "step": 8118 }, { "epoch": 2.0330133333333333, "grad_norm": 0.02354942053437242, "learning_rate": 0.0001, "loss": 0.9686, "step": 8119 }, { "epoch": 2.0330666666666666, "grad_norm": 0.022630877503577965, "learning_rate": 0.0001, "loss": 0.9224, "step": 8120 }, { "epoch": 2.03312, "grad_norm": 0.023870369747483033, "learning_rate": 0.0001, "loss": 0.9831, "step": 8121 }, { "epoch": 2.0331733333333335, "grad_norm": 0.024869256911464684, "learning_rate": 0.0001, "loss": 0.9633, "step": 8122 }, { "epoch": 2.0332266666666667, "grad_norm": 0.024088388200445676, "learning_rate": 0.0001, "loss": 0.9977, "step": 8123 }, { "epoch": 2.03328, "grad_norm": 0.024466251809650345, "learning_rate": 0.0001, "loss": 0.9259, "step": 8124 }, { "epoch": 2.033333333333333, "grad_norm": 0.024442441575898883, "learning_rate": 0.0001, "loss": 0.9295, "step": 8125 }, { "epoch": 2.0333866666666665, "grad_norm": 0.023749790504796284, "learning_rate": 0.0001, "loss": 0.9431, "step": 8126 }, { "epoch": 2.03344, "grad_norm": 0.025994213336442775, "learning_rate": 0.0001, "loss": 0.9588, "step": 8127 }, { "epoch": 2.0334933333333334, "grad_norm": 0.023129333493271224, "learning_rate": 0.0001, "loss": 0.9334, "step": 8128 }, { "epoch": 2.0335466666666666, "grad_norm": 0.02958073283709273, "learning_rate": 0.0001, "loss": 0.9266, "step": 8129 }, { "epoch": 2.0336, "grad_norm": 0.023781205046635952, "learning_rate": 0.0001, "loss": 0.9853, "step": 8130 }, { "epoch": 2.0336533333333335, "grad_norm": 0.02452181638084983, "learning_rate": 0.0001, "loss": 0.9875, "step": 8131 }, { "epoch": 2.0337066666666668, "grad_norm": 0.02415722995397385, "learning_rate": 0.0001, "loss": 1.0048, "step": 8132 }, { "epoch": 2.03376, "grad_norm": 0.023662521361589715, "learning_rate": 0.0001, "loss": 0.9579, "step": 8133 }, { "epoch": 2.0338133333333333, "grad_norm": 0.023875763607243874, "learning_rate": 0.0001, "loss": 0.9841, "step": 8134 }, { "epoch": 2.0338666666666665, "grad_norm": 0.024903184081924122, "learning_rate": 0.0001, "loss": 0.9502, "step": 8135 }, { "epoch": 2.03392, "grad_norm": 0.024110119729811155, "learning_rate": 0.0001, "loss": 0.9959, "step": 8136 }, { "epoch": 2.0339733333333334, "grad_norm": 0.02493526699347292, "learning_rate": 0.0001, "loss": 0.9847, "step": 8137 }, { "epoch": 2.0340266666666666, "grad_norm": 0.023308752458018795, "learning_rate": 0.0001, "loss": 0.9949, "step": 8138 }, { "epoch": 2.03408, "grad_norm": 0.024039083520765163, "learning_rate": 0.0001, "loss": 0.965, "step": 8139 }, { "epoch": 2.034133333333333, "grad_norm": 0.0224580492055837, "learning_rate": 0.0001, "loss": 0.998, "step": 8140 }, { "epoch": 2.034186666666667, "grad_norm": 0.02314995730006006, "learning_rate": 0.0001, "loss": 0.882, "step": 8141 }, { "epoch": 2.03424, "grad_norm": 0.022895238582581783, "learning_rate": 0.0001, "loss": 0.928, "step": 8142 }, { "epoch": 2.0342933333333333, "grad_norm": 0.023770474287613287, "learning_rate": 0.0001, "loss": 0.9692, "step": 8143 }, { "epoch": 2.0343466666666665, "grad_norm": 0.024706953524512104, "learning_rate": 0.0001, "loss": 0.9868, "step": 8144 }, { "epoch": 2.0344, "grad_norm": 0.02425754433752068, "learning_rate": 0.0001, "loss": 0.9658, "step": 8145 }, { "epoch": 2.0344533333333334, "grad_norm": 0.02347009627762369, "learning_rate": 0.0001, "loss": 0.9707, "step": 8146 }, { "epoch": 2.0345066666666667, "grad_norm": 0.02576786916327562, "learning_rate": 0.0001, "loss": 1.0044, "step": 8147 }, { "epoch": 2.03456, "grad_norm": 0.023591134444017177, "learning_rate": 0.0001, "loss": 0.9225, "step": 8148 }, { "epoch": 2.034613333333333, "grad_norm": 0.02318062331670095, "learning_rate": 0.0001, "loss": 0.944, "step": 8149 }, { "epoch": 2.034666666666667, "grad_norm": 0.023932991018958398, "learning_rate": 0.0001, "loss": 0.9447, "step": 8150 }, { "epoch": 2.03472, "grad_norm": 0.02220219833776582, "learning_rate": 0.0001, "loss": 0.972, "step": 8151 }, { "epoch": 2.0347733333333333, "grad_norm": 0.024542729744217697, "learning_rate": 0.0001, "loss": 0.9466, "step": 8152 }, { "epoch": 2.0348266666666666, "grad_norm": 0.024563565530713257, "learning_rate": 0.0001, "loss": 1.0176, "step": 8153 }, { "epoch": 2.03488, "grad_norm": 0.024535920500480167, "learning_rate": 0.0001, "loss": 0.9591, "step": 8154 }, { "epoch": 2.0349333333333335, "grad_norm": 0.029919484800480428, "learning_rate": 0.0001, "loss": 0.9561, "step": 8155 }, { "epoch": 2.0349866666666667, "grad_norm": 0.02409263356190623, "learning_rate": 0.0001, "loss": 1.044, "step": 8156 }, { "epoch": 2.03504, "grad_norm": 0.02340122589128723, "learning_rate": 0.0001, "loss": 0.9902, "step": 8157 }, { "epoch": 2.035093333333333, "grad_norm": 0.02485984192920413, "learning_rate": 0.0001, "loss": 1.008, "step": 8158 }, { "epoch": 2.035146666666667, "grad_norm": 0.024020544847916735, "learning_rate": 0.0001, "loss": 0.9777, "step": 8159 }, { "epoch": 2.0352, "grad_norm": 0.02210193533089827, "learning_rate": 0.0001, "loss": 0.9553, "step": 8160 }, { "epoch": 2.0352533333333334, "grad_norm": 0.02403454144884848, "learning_rate": 0.0001, "loss": 0.9306, "step": 8161 }, { "epoch": 2.0353066666666666, "grad_norm": 0.02378807448416156, "learning_rate": 0.0001, "loss": 0.9638, "step": 8162 }, { "epoch": 2.03536, "grad_norm": 0.023077049697633478, "learning_rate": 0.0001, "loss": 0.9697, "step": 8163 }, { "epoch": 2.0354133333333335, "grad_norm": 0.026548911878352233, "learning_rate": 0.0001, "loss": 0.9921, "step": 8164 }, { "epoch": 2.0354666666666668, "grad_norm": 0.024441473268205765, "learning_rate": 0.0001, "loss": 0.9518, "step": 8165 }, { "epoch": 2.03552, "grad_norm": 0.02338833054886536, "learning_rate": 0.0001, "loss": 0.9644, "step": 8166 }, { "epoch": 2.0355733333333332, "grad_norm": 0.024931882186156832, "learning_rate": 0.0001, "loss": 0.9047, "step": 8167 }, { "epoch": 2.0356266666666665, "grad_norm": 0.023668969823517103, "learning_rate": 0.0001, "loss": 0.9332, "step": 8168 }, { "epoch": 2.03568, "grad_norm": 0.022645653140773873, "learning_rate": 0.0001, "loss": 0.9681, "step": 8169 }, { "epoch": 2.0357333333333334, "grad_norm": 0.025302485551223473, "learning_rate": 0.0001, "loss": 0.9025, "step": 8170 }, { "epoch": 2.0357866666666666, "grad_norm": 0.024493511835427247, "learning_rate": 0.0001, "loss": 0.9976, "step": 8171 }, { "epoch": 2.03584, "grad_norm": 0.026884061905636785, "learning_rate": 0.0001, "loss": 0.976, "step": 8172 }, { "epoch": 2.035893333333333, "grad_norm": 0.025479618424794733, "learning_rate": 0.0001, "loss": 1.0536, "step": 8173 }, { "epoch": 2.035946666666667, "grad_norm": 0.02384097707264775, "learning_rate": 0.0001, "loss": 0.9646, "step": 8174 }, { "epoch": 2.036, "grad_norm": 0.026010417170684544, "learning_rate": 0.0001, "loss": 0.9866, "step": 8175 }, { "epoch": 2.0360533333333333, "grad_norm": 0.023632927291197335, "learning_rate": 0.0001, "loss": 0.9281, "step": 8176 }, { "epoch": 2.0361066666666665, "grad_norm": 0.024822139859183683, "learning_rate": 0.0001, "loss": 0.948, "step": 8177 }, { "epoch": 2.03616, "grad_norm": 0.025443044673410346, "learning_rate": 0.0001, "loss": 0.9223, "step": 8178 }, { "epoch": 2.0362133333333334, "grad_norm": 0.024591678636044504, "learning_rate": 0.0001, "loss": 0.9547, "step": 8179 }, { "epoch": 2.0362666666666667, "grad_norm": 0.02392360745558734, "learning_rate": 0.0001, "loss": 1.0386, "step": 8180 }, { "epoch": 2.03632, "grad_norm": 0.02319434879428145, "learning_rate": 0.0001, "loss": 1.0057, "step": 8181 }, { "epoch": 2.036373333333333, "grad_norm": 0.022579973563786812, "learning_rate": 0.0001, "loss": 0.8969, "step": 8182 }, { "epoch": 2.036426666666667, "grad_norm": 0.02662543712976329, "learning_rate": 0.0001, "loss": 0.934, "step": 8183 }, { "epoch": 2.03648, "grad_norm": 0.02506446290122741, "learning_rate": 0.0001, "loss": 0.9849, "step": 8184 }, { "epoch": 2.0365333333333333, "grad_norm": 0.021973898260113416, "learning_rate": 0.0001, "loss": 0.9075, "step": 8185 }, { "epoch": 2.0365866666666665, "grad_norm": 0.025270961303640895, "learning_rate": 0.0001, "loss": 0.9154, "step": 8186 }, { "epoch": 2.03664, "grad_norm": 0.026203590072658257, "learning_rate": 0.0001, "loss": 0.9424, "step": 8187 }, { "epoch": 2.0366933333333335, "grad_norm": 0.025003383578902055, "learning_rate": 0.0001, "loss": 0.9241, "step": 8188 }, { "epoch": 2.0367466666666667, "grad_norm": 0.022976967931329466, "learning_rate": 0.0001, "loss": 1.0172, "step": 8189 }, { "epoch": 2.0368, "grad_norm": 0.024329412658652252, "learning_rate": 0.0001, "loss": 0.9707, "step": 8190 }, { "epoch": 2.036853333333333, "grad_norm": 0.02430830289655051, "learning_rate": 0.0001, "loss": 0.9886, "step": 8191 }, { "epoch": 2.036906666666667, "grad_norm": 0.025184944651419756, "learning_rate": 0.0001, "loss": 0.9854, "step": 8192 }, { "epoch": 2.03696, "grad_norm": 0.024087057398477083, "learning_rate": 0.0001, "loss": 0.9537, "step": 8193 }, { "epoch": 2.0370133333333333, "grad_norm": 0.02212987293825814, "learning_rate": 0.0001, "loss": 0.9316, "step": 8194 }, { "epoch": 2.0370666666666666, "grad_norm": 0.02456874675988992, "learning_rate": 0.0001, "loss": 0.9368, "step": 8195 }, { "epoch": 2.03712, "grad_norm": 0.024140414105535447, "learning_rate": 0.0001, "loss": 0.9629, "step": 8196 }, { "epoch": 2.0371733333333335, "grad_norm": 0.02420599528160242, "learning_rate": 0.0001, "loss": 0.9833, "step": 8197 }, { "epoch": 2.0372266666666667, "grad_norm": 0.024482609585986203, "learning_rate": 0.0001, "loss": 0.9486, "step": 8198 }, { "epoch": 2.03728, "grad_norm": 0.026005428137747595, "learning_rate": 0.0001, "loss": 0.9547, "step": 8199 }, { "epoch": 2.037333333333333, "grad_norm": 0.026270972496529325, "learning_rate": 0.0001, "loss": 0.9955, "step": 8200 }, { "epoch": 2.037333333333333, "eval_accuracy": 0.6199105361909009, "eval_loss": 1.355011224746704, "eval_runtime": 62.1389, "eval_samples_per_second": 16.093, "eval_steps_per_second": 0.515, "step": 8200 }, { "epoch": 2.0373866666666665, "grad_norm": 0.024847093641220282, "learning_rate": 0.0001, "loss": 1.0127, "step": 8201 }, { "epoch": 2.03744, "grad_norm": 0.025094637460726134, "learning_rate": 0.0001, "loss": 0.9338, "step": 8202 }, { "epoch": 2.0374933333333334, "grad_norm": 0.02401710400578332, "learning_rate": 0.0001, "loss": 0.9934, "step": 8203 }, { "epoch": 2.0375466666666666, "grad_norm": 0.023547243714695302, "learning_rate": 0.0001, "loss": 1.0311, "step": 8204 }, { "epoch": 2.0376, "grad_norm": 0.02378299117019038, "learning_rate": 0.0001, "loss": 0.9697, "step": 8205 }, { "epoch": 2.0376533333333335, "grad_norm": 0.027876125762542416, "learning_rate": 0.0001, "loss": 0.9787, "step": 8206 }, { "epoch": 2.0377066666666668, "grad_norm": 0.0233768682134617, "learning_rate": 0.0001, "loss": 1.0104, "step": 8207 }, { "epoch": 2.03776, "grad_norm": 0.024174262693989635, "learning_rate": 0.0001, "loss": 0.9862, "step": 8208 }, { "epoch": 2.0378133333333333, "grad_norm": 0.02503178517338438, "learning_rate": 0.0001, "loss": 0.959, "step": 8209 }, { "epoch": 2.0378666666666665, "grad_norm": 0.023546919203003572, "learning_rate": 0.0001, "loss": 0.9721, "step": 8210 }, { "epoch": 2.03792, "grad_norm": 0.025168802344189046, "learning_rate": 0.0001, "loss": 0.9202, "step": 8211 }, { "epoch": 2.0379733333333334, "grad_norm": 0.026609517304576787, "learning_rate": 0.0001, "loss": 1.0037, "step": 8212 }, { "epoch": 2.0380266666666667, "grad_norm": 0.024174694284547656, "learning_rate": 0.0001, "loss": 0.9788, "step": 8213 }, { "epoch": 2.03808, "grad_norm": 0.022445054791362887, "learning_rate": 0.0001, "loss": 0.94, "step": 8214 }, { "epoch": 2.038133333333333, "grad_norm": 0.025528605780591577, "learning_rate": 0.0001, "loss": 0.9397, "step": 8215 }, { "epoch": 2.038186666666667, "grad_norm": 0.026022382556049516, "learning_rate": 0.0001, "loss": 0.9417, "step": 8216 }, { "epoch": 2.03824, "grad_norm": 0.02405373208633229, "learning_rate": 0.0001, "loss": 0.9047, "step": 8217 }, { "epoch": 2.0382933333333333, "grad_norm": 0.023995003969964183, "learning_rate": 0.0001, "loss": 0.9596, "step": 8218 }, { "epoch": 2.0383466666666665, "grad_norm": 0.02286600346138888, "learning_rate": 0.0001, "loss": 0.9818, "step": 8219 }, { "epoch": 2.0384, "grad_norm": 0.024473995825618742, "learning_rate": 0.0001, "loss": 0.9972, "step": 8220 }, { "epoch": 2.0384533333333335, "grad_norm": 0.023708033733230965, "learning_rate": 0.0001, "loss": 0.8881, "step": 8221 }, { "epoch": 2.0385066666666667, "grad_norm": 0.02512642060017216, "learning_rate": 0.0001, "loss": 0.9986, "step": 8222 }, { "epoch": 2.03856, "grad_norm": 0.022914036549359723, "learning_rate": 0.0001, "loss": 0.9381, "step": 8223 }, { "epoch": 2.038613333333333, "grad_norm": 0.024915440757237534, "learning_rate": 0.0001, "loss": 0.9947, "step": 8224 }, { "epoch": 2.038666666666667, "grad_norm": 0.023854068001089454, "learning_rate": 0.0001, "loss": 0.9689, "step": 8225 }, { "epoch": 2.03872, "grad_norm": 0.02424643504974266, "learning_rate": 0.0001, "loss": 1.0159, "step": 8226 }, { "epoch": 2.0387733333333333, "grad_norm": 0.024578920418784084, "learning_rate": 0.0001, "loss": 1.0122, "step": 8227 }, { "epoch": 2.0388266666666666, "grad_norm": 0.024057859754681086, "learning_rate": 0.0001, "loss": 0.9404, "step": 8228 }, { "epoch": 2.03888, "grad_norm": 0.032514861390601175, "learning_rate": 0.0001, "loss": 0.9409, "step": 8229 }, { "epoch": 2.0389333333333335, "grad_norm": 0.025608167947144732, "learning_rate": 0.0001, "loss": 1.0153, "step": 8230 }, { "epoch": 2.0389866666666667, "grad_norm": 0.024480903352214905, "learning_rate": 0.0001, "loss": 0.9431, "step": 8231 }, { "epoch": 2.03904, "grad_norm": 0.023230764007621425, "learning_rate": 0.0001, "loss": 0.9326, "step": 8232 }, { "epoch": 2.039093333333333, "grad_norm": 0.02490073437669036, "learning_rate": 0.0001, "loss": 0.9861, "step": 8233 }, { "epoch": 2.039146666666667, "grad_norm": 0.023785911050361392, "learning_rate": 0.0001, "loss": 0.9878, "step": 8234 }, { "epoch": 2.0392, "grad_norm": 0.02569502591672558, "learning_rate": 0.0001, "loss": 0.9754, "step": 8235 }, { "epoch": 2.0392533333333334, "grad_norm": 0.023598712539524495, "learning_rate": 0.0001, "loss": 0.9597, "step": 8236 }, { "epoch": 2.0393066666666666, "grad_norm": 0.02433511010110625, "learning_rate": 0.0001, "loss": 0.9588, "step": 8237 }, { "epoch": 2.03936, "grad_norm": 0.02357596686707142, "learning_rate": 0.0001, "loss": 0.9588, "step": 8238 }, { "epoch": 2.0394133333333335, "grad_norm": 0.023544929019749705, "learning_rate": 0.0001, "loss": 0.9053, "step": 8239 }, { "epoch": 2.0394666666666668, "grad_norm": 0.024660417041703044, "learning_rate": 0.0001, "loss": 0.9598, "step": 8240 }, { "epoch": 2.03952, "grad_norm": 0.0253036074909081, "learning_rate": 0.0001, "loss": 0.9623, "step": 8241 }, { "epoch": 2.0395733333333332, "grad_norm": 0.02429693467623137, "learning_rate": 0.0001, "loss": 0.9568, "step": 8242 }, { "epoch": 2.0396266666666665, "grad_norm": 0.023146478999579202, "learning_rate": 0.0001, "loss": 0.9593, "step": 8243 }, { "epoch": 2.03968, "grad_norm": 0.023722755671239545, "learning_rate": 0.0001, "loss": 0.977, "step": 8244 }, { "epoch": 2.0397333333333334, "grad_norm": 0.023330026181413912, "learning_rate": 0.0001, "loss": 0.9566, "step": 8245 }, { "epoch": 2.0397866666666666, "grad_norm": 0.02669691888213156, "learning_rate": 0.0001, "loss": 0.9694, "step": 8246 }, { "epoch": 2.03984, "grad_norm": 0.02428118912576661, "learning_rate": 0.0001, "loss": 0.9956, "step": 8247 }, { "epoch": 2.0398933333333336, "grad_norm": 0.024150396891521438, "learning_rate": 0.0001, "loss": 0.9086, "step": 8248 }, { "epoch": 2.039946666666667, "grad_norm": 0.024412920922706177, "learning_rate": 0.0001, "loss": 0.9858, "step": 8249 }, { "epoch": 2.04, "grad_norm": 0.024514226394923795, "learning_rate": 0.0001, "loss": 1.0141, "step": 8250 }, { "epoch": 2.0400533333333333, "grad_norm": 0.024973146209598753, "learning_rate": 0.0001, "loss": 0.944, "step": 8251 }, { "epoch": 2.0401066666666665, "grad_norm": 0.02801368105142024, "learning_rate": 0.0001, "loss": 0.9211, "step": 8252 }, { "epoch": 2.04016, "grad_norm": 0.022730982723696933, "learning_rate": 0.0001, "loss": 0.9338, "step": 8253 }, { "epoch": 2.0402133333333334, "grad_norm": 0.023312299158414016, "learning_rate": 0.0001, "loss": 0.981, "step": 8254 }, { "epoch": 2.0402666666666667, "grad_norm": 0.028525738406681257, "learning_rate": 0.0001, "loss": 0.9489, "step": 8255 }, { "epoch": 2.04032, "grad_norm": 0.024110223682678178, "learning_rate": 0.0001, "loss": 0.9998, "step": 8256 }, { "epoch": 2.040373333333333, "grad_norm": 0.023418377520790595, "learning_rate": 0.0001, "loss": 0.8961, "step": 8257 }, { "epoch": 2.040426666666667, "grad_norm": 0.024281303477200287, "learning_rate": 0.0001, "loss": 1.0173, "step": 8258 }, { "epoch": 2.04048, "grad_norm": 0.023833348205802428, "learning_rate": 0.0001, "loss": 1.0037, "step": 8259 }, { "epoch": 2.0405333333333333, "grad_norm": 0.02328690707160039, "learning_rate": 0.0001, "loss": 0.9695, "step": 8260 }, { "epoch": 2.0405866666666665, "grad_norm": 0.023396280969612437, "learning_rate": 0.0001, "loss": 0.9339, "step": 8261 }, { "epoch": 2.04064, "grad_norm": 0.024045241385832337, "learning_rate": 0.0001, "loss": 0.9416, "step": 8262 }, { "epoch": 2.0406933333333335, "grad_norm": 0.02525289894965787, "learning_rate": 0.0001, "loss": 0.9703, "step": 8263 }, { "epoch": 2.0407466666666667, "grad_norm": 0.023997897756076275, "learning_rate": 0.0001, "loss": 1.0528, "step": 8264 }, { "epoch": 2.0408, "grad_norm": 0.022748701603452926, "learning_rate": 0.0001, "loss": 0.9247, "step": 8265 }, { "epoch": 2.040853333333333, "grad_norm": 0.02304140727084967, "learning_rate": 0.0001, "loss": 1.0235, "step": 8266 }, { "epoch": 2.040906666666667, "grad_norm": 0.027228835948796687, "learning_rate": 0.0001, "loss": 0.9517, "step": 8267 }, { "epoch": 2.04096, "grad_norm": 0.02514244231026783, "learning_rate": 0.0001, "loss": 0.9512, "step": 8268 }, { "epoch": 2.0410133333333333, "grad_norm": 0.022945920018729672, "learning_rate": 0.0001, "loss": 1.0169, "step": 8269 }, { "epoch": 2.0410666666666666, "grad_norm": 0.024887921255313188, "learning_rate": 0.0001, "loss": 0.9321, "step": 8270 }, { "epoch": 2.04112, "grad_norm": 0.024124794991579115, "learning_rate": 0.0001, "loss": 0.9978, "step": 8271 }, { "epoch": 2.0411733333333335, "grad_norm": 0.024964247097842965, "learning_rate": 0.0001, "loss": 0.9643, "step": 8272 }, { "epoch": 2.0412266666666667, "grad_norm": 0.02472280138949202, "learning_rate": 0.0001, "loss": 0.9695, "step": 8273 }, { "epoch": 2.04128, "grad_norm": 0.025127641644683542, "learning_rate": 0.0001, "loss": 1.0359, "step": 8274 }, { "epoch": 2.041333333333333, "grad_norm": 0.022392771121359182, "learning_rate": 0.0001, "loss": 0.9288, "step": 8275 }, { "epoch": 2.0413866666666665, "grad_norm": 0.023801555081204684, "learning_rate": 0.0001, "loss": 0.9967, "step": 8276 }, { "epoch": 2.04144, "grad_norm": 0.02360551849846162, "learning_rate": 0.0001, "loss": 0.9762, "step": 8277 }, { "epoch": 2.0414933333333334, "grad_norm": 0.024951406579891585, "learning_rate": 0.0001, "loss": 0.9597, "step": 8278 }, { "epoch": 2.0415466666666666, "grad_norm": 0.023320623694131144, "learning_rate": 0.0001, "loss": 0.945, "step": 8279 }, { "epoch": 2.0416, "grad_norm": 0.023801724357679462, "learning_rate": 0.0001, "loss": 0.9548, "step": 8280 }, { "epoch": 2.0416533333333335, "grad_norm": 0.025302972995450045, "learning_rate": 0.0001, "loss": 0.8931, "step": 8281 }, { "epoch": 2.041706666666667, "grad_norm": 0.023367037053308195, "learning_rate": 0.0001, "loss": 0.9203, "step": 8282 }, { "epoch": 2.04176, "grad_norm": 0.02476769890182348, "learning_rate": 0.0001, "loss": 0.9803, "step": 8283 }, { "epoch": 2.0418133333333333, "grad_norm": 0.025775879673301024, "learning_rate": 0.0001, "loss": 0.9273, "step": 8284 }, { "epoch": 2.0418666666666665, "grad_norm": 0.024665501197894128, "learning_rate": 0.0001, "loss": 0.9991, "step": 8285 }, { "epoch": 2.04192, "grad_norm": 0.023751531746033783, "learning_rate": 0.0001, "loss": 0.9564, "step": 8286 }, { "epoch": 2.0419733333333334, "grad_norm": 0.027823219438635166, "learning_rate": 0.0001, "loss": 0.9517, "step": 8287 }, { "epoch": 2.0420266666666667, "grad_norm": 0.02557964617978921, "learning_rate": 0.0001, "loss": 0.9788, "step": 8288 }, { "epoch": 2.04208, "grad_norm": 0.024856498551004715, "learning_rate": 0.0001, "loss": 0.9647, "step": 8289 }, { "epoch": 2.042133333333333, "grad_norm": 0.02708160201774127, "learning_rate": 0.0001, "loss": 1.0022, "step": 8290 }, { "epoch": 2.042186666666667, "grad_norm": 0.024880181232783335, "learning_rate": 0.0001, "loss": 1.011, "step": 8291 }, { "epoch": 2.04224, "grad_norm": 0.027256323784938676, "learning_rate": 0.0001, "loss": 0.9567, "step": 8292 }, { "epoch": 2.0422933333333333, "grad_norm": 0.02405569375359802, "learning_rate": 0.0001, "loss": 0.9407, "step": 8293 }, { "epoch": 2.0423466666666665, "grad_norm": 0.023217884465226445, "learning_rate": 0.0001, "loss": 0.8783, "step": 8294 }, { "epoch": 2.0424, "grad_norm": 0.02522043487869211, "learning_rate": 0.0001, "loss": 0.942, "step": 8295 }, { "epoch": 2.0424533333333335, "grad_norm": 0.02478168321273395, "learning_rate": 0.0001, "loss": 0.9742, "step": 8296 }, { "epoch": 2.0425066666666667, "grad_norm": 0.02505343791843233, "learning_rate": 0.0001, "loss": 0.9335, "step": 8297 }, { "epoch": 2.04256, "grad_norm": 0.0237100213344843, "learning_rate": 0.0001, "loss": 0.9694, "step": 8298 }, { "epoch": 2.042613333333333, "grad_norm": 0.025206974623708897, "learning_rate": 0.0001, "loss": 1.0155, "step": 8299 }, { "epoch": 2.042666666666667, "grad_norm": 0.024494617993614503, "learning_rate": 0.0001, "loss": 0.9952, "step": 8300 }, { "epoch": 2.04272, "grad_norm": 0.02410123237221811, "learning_rate": 0.0001, "loss": 0.9984, "step": 8301 }, { "epoch": 2.0427733333333333, "grad_norm": 0.024721732682537297, "learning_rate": 0.0001, "loss": 0.952, "step": 8302 }, { "epoch": 2.0428266666666666, "grad_norm": 0.02506157087818249, "learning_rate": 0.0001, "loss": 0.922, "step": 8303 }, { "epoch": 2.04288, "grad_norm": 0.023617958329411756, "learning_rate": 0.0001, "loss": 0.9633, "step": 8304 }, { "epoch": 2.0429333333333335, "grad_norm": 0.024022591685759806, "learning_rate": 0.0001, "loss": 0.9652, "step": 8305 }, { "epoch": 2.0429866666666667, "grad_norm": 0.02452818138574137, "learning_rate": 0.0001, "loss": 0.9741, "step": 8306 }, { "epoch": 2.04304, "grad_norm": 0.02406194073404527, "learning_rate": 0.0001, "loss": 1.0168, "step": 8307 }, { "epoch": 2.043093333333333, "grad_norm": 0.024858410958372993, "learning_rate": 0.0001, "loss": 0.9593, "step": 8308 }, { "epoch": 2.043146666666667, "grad_norm": 0.023192855073449526, "learning_rate": 0.0001, "loss": 0.9992, "step": 8309 }, { "epoch": 2.0432, "grad_norm": 0.02596549638779207, "learning_rate": 0.0001, "loss": 0.9981, "step": 8310 }, { "epoch": 2.0432533333333334, "grad_norm": 0.02432887437117552, "learning_rate": 0.0001, "loss": 1.0319, "step": 8311 }, { "epoch": 2.0433066666666666, "grad_norm": 0.024542985858935232, "learning_rate": 0.0001, "loss": 0.9275, "step": 8312 }, { "epoch": 2.04336, "grad_norm": 0.023583741984216262, "learning_rate": 0.0001, "loss": 1.0215, "step": 8313 }, { "epoch": 2.0434133333333335, "grad_norm": 0.024650261734525575, "learning_rate": 0.0001, "loss": 0.9258, "step": 8314 }, { "epoch": 2.0434666666666668, "grad_norm": 0.02351322190059665, "learning_rate": 0.0001, "loss": 0.915, "step": 8315 }, { "epoch": 2.04352, "grad_norm": 0.026315028568976745, "learning_rate": 0.0001, "loss": 0.9764, "step": 8316 }, { "epoch": 2.0435733333333332, "grad_norm": 0.02437344094423076, "learning_rate": 0.0001, "loss": 1.0435, "step": 8317 }, { "epoch": 2.0436266666666665, "grad_norm": 0.023502397052965574, "learning_rate": 0.0001, "loss": 1.0577, "step": 8318 }, { "epoch": 2.04368, "grad_norm": 0.027069390388107323, "learning_rate": 0.0001, "loss": 0.8981, "step": 8319 }, { "epoch": 2.0437333333333334, "grad_norm": 0.02296380559767404, "learning_rate": 0.0001, "loss": 0.9415, "step": 8320 }, { "epoch": 2.0437866666666666, "grad_norm": 0.023928261106516805, "learning_rate": 0.0001, "loss": 0.9703, "step": 8321 }, { "epoch": 2.04384, "grad_norm": 0.025052007632761223, "learning_rate": 0.0001, "loss": 0.9982, "step": 8322 }, { "epoch": 2.043893333333333, "grad_norm": 0.023538648431042978, "learning_rate": 0.0001, "loss": 0.9528, "step": 8323 }, { "epoch": 2.043946666666667, "grad_norm": 0.023893863956638884, "learning_rate": 0.0001, "loss": 0.9218, "step": 8324 }, { "epoch": 2.044, "grad_norm": 0.023723245994561583, "learning_rate": 0.0001, "loss": 0.9611, "step": 8325 }, { "epoch": 2.0440533333333333, "grad_norm": 0.0244380616412186, "learning_rate": 0.0001, "loss": 0.9685, "step": 8326 }, { "epoch": 2.0441066666666665, "grad_norm": 0.02449484598903664, "learning_rate": 0.0001, "loss": 1.0392, "step": 8327 }, { "epoch": 2.04416, "grad_norm": 0.026046267496370512, "learning_rate": 0.0001, "loss": 0.9673, "step": 8328 }, { "epoch": 2.0442133333333334, "grad_norm": 0.024890047987987645, "learning_rate": 0.0001, "loss": 1.0309, "step": 8329 }, { "epoch": 2.0442666666666667, "grad_norm": 0.02357182376366761, "learning_rate": 0.0001, "loss": 0.9982, "step": 8330 }, { "epoch": 2.04432, "grad_norm": 0.026204631316132442, "learning_rate": 0.0001, "loss": 0.9336, "step": 8331 }, { "epoch": 2.044373333333333, "grad_norm": 0.023350370641122963, "learning_rate": 0.0001, "loss": 0.9217, "step": 8332 }, { "epoch": 2.044426666666667, "grad_norm": 0.025486924580944207, "learning_rate": 0.0001, "loss": 0.9332, "step": 8333 }, { "epoch": 2.04448, "grad_norm": 0.024843613400933807, "learning_rate": 0.0001, "loss": 0.9655, "step": 8334 }, { "epoch": 2.0445333333333333, "grad_norm": 0.023870216599912647, "learning_rate": 0.0001, "loss": 0.9696, "step": 8335 }, { "epoch": 2.0445866666666666, "grad_norm": 0.023394223978694464, "learning_rate": 0.0001, "loss": 0.9638, "step": 8336 }, { "epoch": 2.04464, "grad_norm": 0.023290036184255253, "learning_rate": 0.0001, "loss": 0.9753, "step": 8337 }, { "epoch": 2.0446933333333335, "grad_norm": 0.024460144878222352, "learning_rate": 0.0001, "loss": 0.951, "step": 8338 }, { "epoch": 2.0447466666666667, "grad_norm": 0.023550484758926144, "learning_rate": 0.0001, "loss": 0.9329, "step": 8339 }, { "epoch": 2.0448, "grad_norm": 0.02308219167678731, "learning_rate": 0.0001, "loss": 0.9431, "step": 8340 }, { "epoch": 2.044853333333333, "grad_norm": 0.023001011846248257, "learning_rate": 0.0001, "loss": 0.8991, "step": 8341 }, { "epoch": 2.044906666666667, "grad_norm": 0.0239919896594445, "learning_rate": 0.0001, "loss": 0.9922, "step": 8342 }, { "epoch": 2.04496, "grad_norm": 0.023216393516131337, "learning_rate": 0.0001, "loss": 0.9455, "step": 8343 }, { "epoch": 2.0450133333333333, "grad_norm": 0.02307381283187026, "learning_rate": 0.0001, "loss": 0.9427, "step": 8344 }, { "epoch": 2.0450666666666666, "grad_norm": 0.02413619874874679, "learning_rate": 0.0001, "loss": 1.0337, "step": 8345 }, { "epoch": 2.04512, "grad_norm": 0.024790609214379537, "learning_rate": 0.0001, "loss": 0.9762, "step": 8346 }, { "epoch": 2.0451733333333335, "grad_norm": 0.02273146154031188, "learning_rate": 0.0001, "loss": 0.971, "step": 8347 }, { "epoch": 2.0452266666666667, "grad_norm": 0.023308630860083307, "learning_rate": 0.0001, "loss": 0.9599, "step": 8348 }, { "epoch": 2.04528, "grad_norm": 0.02399397987561762, "learning_rate": 0.0001, "loss": 0.9896, "step": 8349 }, { "epoch": 2.0453333333333332, "grad_norm": 0.023513878737514662, "learning_rate": 0.0001, "loss": 0.9403, "step": 8350 }, { "epoch": 2.0453866666666665, "grad_norm": 0.024939116146124075, "learning_rate": 0.0001, "loss": 0.9569, "step": 8351 }, { "epoch": 2.04544, "grad_norm": 0.024490301724183736, "learning_rate": 0.0001, "loss": 0.9546, "step": 8352 }, { "epoch": 2.0454933333333334, "grad_norm": 0.02504168475183338, "learning_rate": 0.0001, "loss": 0.9507, "step": 8353 }, { "epoch": 2.0455466666666666, "grad_norm": 0.024731934319790174, "learning_rate": 0.0001, "loss": 0.9753, "step": 8354 }, { "epoch": 2.0456, "grad_norm": 0.024276507546159877, "learning_rate": 0.0001, "loss": 0.9706, "step": 8355 }, { "epoch": 2.0456533333333335, "grad_norm": 0.02632376025413046, "learning_rate": 0.0001, "loss": 0.958, "step": 8356 }, { "epoch": 2.045706666666667, "grad_norm": 0.02427683714036793, "learning_rate": 0.0001, "loss": 0.9679, "step": 8357 }, { "epoch": 2.04576, "grad_norm": 0.023979920829114074, "learning_rate": 0.0001, "loss": 1.0017, "step": 8358 }, { "epoch": 2.0458133333333333, "grad_norm": 0.023956581785531186, "learning_rate": 0.0001, "loss": 0.9614, "step": 8359 }, { "epoch": 2.0458666666666665, "grad_norm": 0.024200801501734006, "learning_rate": 0.0001, "loss": 0.9561, "step": 8360 }, { "epoch": 2.04592, "grad_norm": 0.02268885624774619, "learning_rate": 0.0001, "loss": 0.9686, "step": 8361 }, { "epoch": 2.0459733333333334, "grad_norm": 0.02532111299875472, "learning_rate": 0.0001, "loss": 0.9998, "step": 8362 }, { "epoch": 2.0460266666666667, "grad_norm": 0.025190645888799105, "learning_rate": 0.0001, "loss": 1.0093, "step": 8363 }, { "epoch": 2.04608, "grad_norm": 0.025195738637644318, "learning_rate": 0.0001, "loss": 0.9133, "step": 8364 }, { "epoch": 2.046133333333333, "grad_norm": 0.023814841348804315, "learning_rate": 0.0001, "loss": 0.9508, "step": 8365 }, { "epoch": 2.046186666666667, "grad_norm": 0.026581409025627036, "learning_rate": 0.0001, "loss": 0.9681, "step": 8366 }, { "epoch": 2.04624, "grad_norm": 0.027090726523197956, "learning_rate": 0.0001, "loss": 0.9721, "step": 8367 }, { "epoch": 2.0462933333333333, "grad_norm": 0.025724759835653144, "learning_rate": 0.0001, "loss": 0.9652, "step": 8368 }, { "epoch": 2.0463466666666665, "grad_norm": 0.026285915535535043, "learning_rate": 0.0001, "loss": 0.9851, "step": 8369 }, { "epoch": 2.0464, "grad_norm": 0.024157821459116716, "learning_rate": 0.0001, "loss": 0.9216, "step": 8370 }, { "epoch": 2.0464533333333335, "grad_norm": 0.026823437929175614, "learning_rate": 0.0001, "loss": 0.9601, "step": 8371 }, { "epoch": 2.0465066666666667, "grad_norm": 0.02608454898342371, "learning_rate": 0.0001, "loss": 0.9838, "step": 8372 }, { "epoch": 2.04656, "grad_norm": 0.02299662191399399, "learning_rate": 0.0001, "loss": 0.874, "step": 8373 }, { "epoch": 2.046613333333333, "grad_norm": 0.02424385520869442, "learning_rate": 0.0001, "loss": 0.9402, "step": 8374 }, { "epoch": 2.046666666666667, "grad_norm": 0.02361153331769294, "learning_rate": 0.0001, "loss": 0.9359, "step": 8375 }, { "epoch": 2.04672, "grad_norm": 0.025122577501318365, "learning_rate": 0.0001, "loss": 0.9173, "step": 8376 }, { "epoch": 2.0467733333333333, "grad_norm": 0.023754017523726814, "learning_rate": 0.0001, "loss": 0.9781, "step": 8377 }, { "epoch": 2.0468266666666666, "grad_norm": 0.02368530458214477, "learning_rate": 0.0001, "loss": 0.9952, "step": 8378 }, { "epoch": 2.04688, "grad_norm": 0.02423573406740842, "learning_rate": 0.0001, "loss": 0.9544, "step": 8379 }, { "epoch": 2.0469333333333335, "grad_norm": 0.02543073457777633, "learning_rate": 0.0001, "loss": 1.0195, "step": 8380 }, { "epoch": 2.0469866666666667, "grad_norm": 0.025053711832638416, "learning_rate": 0.0001, "loss": 0.9434, "step": 8381 }, { "epoch": 2.04704, "grad_norm": 0.023044286577448125, "learning_rate": 0.0001, "loss": 0.931, "step": 8382 }, { "epoch": 2.047093333333333, "grad_norm": 0.022339384918724736, "learning_rate": 0.0001, "loss": 0.9172, "step": 8383 }, { "epoch": 2.0471466666666664, "grad_norm": 0.023377748393898036, "learning_rate": 0.0001, "loss": 0.9466, "step": 8384 }, { "epoch": 2.0472, "grad_norm": 0.024373012217248913, "learning_rate": 0.0001, "loss": 0.9232, "step": 8385 }, { "epoch": 2.0472533333333334, "grad_norm": 0.024812428776450658, "learning_rate": 0.0001, "loss": 0.9902, "step": 8386 }, { "epoch": 2.0473066666666666, "grad_norm": 0.02992364500684635, "learning_rate": 0.0001, "loss": 0.9304, "step": 8387 }, { "epoch": 2.04736, "grad_norm": 0.02349469967749091, "learning_rate": 0.0001, "loss": 1.0365, "step": 8388 }, { "epoch": 2.0474133333333335, "grad_norm": 0.023671670749879966, "learning_rate": 0.0001, "loss": 1.0131, "step": 8389 }, { "epoch": 2.0474666666666668, "grad_norm": 0.021430637404034263, "learning_rate": 0.0001, "loss": 0.9785, "step": 8390 }, { "epoch": 2.04752, "grad_norm": 0.02283646356217962, "learning_rate": 0.0001, "loss": 0.9971, "step": 8391 }, { "epoch": 2.0475733333333332, "grad_norm": 0.02428426387391749, "learning_rate": 0.0001, "loss": 1.0356, "step": 8392 }, { "epoch": 2.0476266666666665, "grad_norm": 0.024054143835475963, "learning_rate": 0.0001, "loss": 1.0057, "step": 8393 }, { "epoch": 2.04768, "grad_norm": 0.02221668774257396, "learning_rate": 0.0001, "loss": 0.9337, "step": 8394 }, { "epoch": 2.0477333333333334, "grad_norm": 0.0234792271942179, "learning_rate": 0.0001, "loss": 0.9115, "step": 8395 }, { "epoch": 2.0477866666666666, "grad_norm": 0.02465450719069134, "learning_rate": 0.0001, "loss": 0.9218, "step": 8396 }, { "epoch": 2.04784, "grad_norm": 0.022861051263987808, "learning_rate": 0.0001, "loss": 0.9116, "step": 8397 }, { "epoch": 2.047893333333333, "grad_norm": 0.02442861805480912, "learning_rate": 0.0001, "loss": 0.9762, "step": 8398 }, { "epoch": 2.047946666666667, "grad_norm": 0.023250693255655454, "learning_rate": 0.0001, "loss": 0.9415, "step": 8399 }, { "epoch": 2.048, "grad_norm": 0.024167950855825487, "learning_rate": 0.0001, "loss": 1.0087, "step": 8400 }, { "epoch": 2.048, "eval_accuracy": 0.6200948567165504, "eval_loss": 1.3544318675994873, "eval_runtime": 63.1685, "eval_samples_per_second": 15.831, "eval_steps_per_second": 0.507, "step": 8400 }, { "epoch": 2.0480533333333333, "grad_norm": 0.025495009082221645, "learning_rate": 0.0001, "loss": 0.9721, "step": 8401 }, { "epoch": 2.0481066666666665, "grad_norm": 0.023362168206390158, "learning_rate": 0.0001, "loss": 0.9401, "step": 8402 }, { "epoch": 2.04816, "grad_norm": 0.02404254573629022, "learning_rate": 0.0001, "loss": 0.9514, "step": 8403 }, { "epoch": 2.0482133333333334, "grad_norm": 0.02462031866491078, "learning_rate": 0.0001, "loss": 0.966, "step": 8404 }, { "epoch": 2.0482666666666667, "grad_norm": 0.02408816327280215, "learning_rate": 0.0001, "loss": 0.9552, "step": 8405 }, { "epoch": 2.04832, "grad_norm": 0.024238201541644345, "learning_rate": 0.0001, "loss": 0.9154, "step": 8406 }, { "epoch": 2.048373333333333, "grad_norm": 0.02414117375915966, "learning_rate": 0.0001, "loss": 0.9118, "step": 8407 }, { "epoch": 2.048426666666667, "grad_norm": 0.025214741728821592, "learning_rate": 0.0001, "loss": 0.8956, "step": 8408 }, { "epoch": 2.04848, "grad_norm": 0.022871065314200772, "learning_rate": 0.0001, "loss": 0.9757, "step": 8409 }, { "epoch": 2.0485333333333333, "grad_norm": 0.022443888671352313, "learning_rate": 0.0001, "loss": 1.0009, "step": 8410 }, { "epoch": 2.0485866666666666, "grad_norm": 0.023134909113309718, "learning_rate": 0.0001, "loss": 0.9792, "step": 8411 }, { "epoch": 2.04864, "grad_norm": 0.025941130968632223, "learning_rate": 0.0001, "loss": 0.9482, "step": 8412 }, { "epoch": 2.0486933333333335, "grad_norm": 0.02377506900207078, "learning_rate": 0.0001, "loss": 0.9197, "step": 8413 }, { "epoch": 2.0487466666666667, "grad_norm": 0.023815469098749317, "learning_rate": 0.0001, "loss": 0.9363, "step": 8414 }, { "epoch": 2.0488, "grad_norm": 0.025535785030679162, "learning_rate": 0.0001, "loss": 1.0558, "step": 8415 }, { "epoch": 2.048853333333333, "grad_norm": 0.023688016347798865, "learning_rate": 0.0001, "loss": 1.0318, "step": 8416 }, { "epoch": 2.048906666666667, "grad_norm": 0.02470567613157876, "learning_rate": 0.0001, "loss": 0.9292, "step": 8417 }, { "epoch": 2.04896, "grad_norm": 0.023021795157169733, "learning_rate": 0.0001, "loss": 0.9766, "step": 8418 }, { "epoch": 2.0490133333333334, "grad_norm": 0.02318502482278817, "learning_rate": 0.0001, "loss": 0.9469, "step": 8419 }, { "epoch": 2.0490666666666666, "grad_norm": 0.02608972828662113, "learning_rate": 0.0001, "loss": 0.9176, "step": 8420 }, { "epoch": 2.04912, "grad_norm": 0.023987510445770504, "learning_rate": 0.0001, "loss": 0.9683, "step": 8421 }, { "epoch": 2.0491733333333335, "grad_norm": 0.02379588537477164, "learning_rate": 0.0001, "loss": 0.9242, "step": 8422 }, { "epoch": 2.0492266666666668, "grad_norm": 0.0229927479507711, "learning_rate": 0.0001, "loss": 0.9747, "step": 8423 }, { "epoch": 2.04928, "grad_norm": 0.02562484325600069, "learning_rate": 0.0001, "loss": 0.9813, "step": 8424 }, { "epoch": 2.0493333333333332, "grad_norm": 0.023915043111898897, "learning_rate": 0.0001, "loss": 0.9797, "step": 8425 }, { "epoch": 2.0493866666666665, "grad_norm": 0.023979463611492342, "learning_rate": 0.0001, "loss": 0.9519, "step": 8426 }, { "epoch": 2.04944, "grad_norm": 0.024152082100918938, "learning_rate": 0.0001, "loss": 0.9381, "step": 8427 }, { "epoch": 2.0494933333333334, "grad_norm": 0.023038810499567904, "learning_rate": 0.0001, "loss": 0.9791, "step": 8428 }, { "epoch": 2.0495466666666666, "grad_norm": 0.024119315599077068, "learning_rate": 0.0001, "loss": 0.9537, "step": 8429 }, { "epoch": 2.0496, "grad_norm": 0.025534199484723706, "learning_rate": 0.0001, "loss": 0.9839, "step": 8430 }, { "epoch": 2.0496533333333335, "grad_norm": 0.02449542744493621, "learning_rate": 0.0001, "loss": 1.008, "step": 8431 }, { "epoch": 2.049706666666667, "grad_norm": 0.0241734536922655, "learning_rate": 0.0001, "loss": 0.9345, "step": 8432 }, { "epoch": 2.04976, "grad_norm": 0.02246526238067437, "learning_rate": 0.0001, "loss": 0.947, "step": 8433 }, { "epoch": 2.0498133333333333, "grad_norm": 0.026919979618320395, "learning_rate": 0.0001, "loss": 0.9927, "step": 8434 }, { "epoch": 2.0498666666666665, "grad_norm": 0.023747028771723702, "learning_rate": 0.0001, "loss": 0.9439, "step": 8435 }, { "epoch": 2.04992, "grad_norm": 0.023472888451776183, "learning_rate": 0.0001, "loss": 0.9651, "step": 8436 }, { "epoch": 2.0499733333333334, "grad_norm": 0.023871834004648505, "learning_rate": 0.0001, "loss": 0.8945, "step": 8437 }, { "epoch": 2.0500266666666667, "grad_norm": 0.02529684438904812, "learning_rate": 0.0001, "loss": 0.9866, "step": 8438 }, { "epoch": 2.05008, "grad_norm": 0.027347968128024508, "learning_rate": 0.0001, "loss": 1.0058, "step": 8439 }, { "epoch": 2.050133333333333, "grad_norm": 0.025656259171989777, "learning_rate": 0.0001, "loss": 0.9478, "step": 8440 }, { "epoch": 2.050186666666667, "grad_norm": 0.02650207112019332, "learning_rate": 0.0001, "loss": 1.0087, "step": 8441 }, { "epoch": 2.05024, "grad_norm": 0.023244334234396882, "learning_rate": 0.0001, "loss": 0.9929, "step": 8442 }, { "epoch": 2.0502933333333333, "grad_norm": 0.025052103066887817, "learning_rate": 0.0001, "loss": 0.9713, "step": 8443 }, { "epoch": 2.0503466666666665, "grad_norm": 0.025175692684982893, "learning_rate": 0.0001, "loss": 0.9367, "step": 8444 }, { "epoch": 2.0504, "grad_norm": 0.024828706737848014, "learning_rate": 0.0001, "loss": 1.0031, "step": 8445 }, { "epoch": 2.0504533333333335, "grad_norm": 0.025771915752377087, "learning_rate": 0.0001, "loss": 0.9789, "step": 8446 }, { "epoch": 2.0505066666666667, "grad_norm": 0.023643194250613727, "learning_rate": 0.0001, "loss": 0.9298, "step": 8447 }, { "epoch": 2.05056, "grad_norm": 0.025276752830712346, "learning_rate": 0.0001, "loss": 0.9912, "step": 8448 }, { "epoch": 2.050613333333333, "grad_norm": 0.02535174657466438, "learning_rate": 0.0001, "loss": 0.9979, "step": 8449 }, { "epoch": 2.050666666666667, "grad_norm": 0.023835571624602505, "learning_rate": 0.0001, "loss": 0.9621, "step": 8450 }, { "epoch": 2.05072, "grad_norm": 0.023800808171546277, "learning_rate": 0.0001, "loss": 1.0066, "step": 8451 }, { "epoch": 2.0507733333333333, "grad_norm": 0.02473069807776994, "learning_rate": 0.0001, "loss": 0.9554, "step": 8452 }, { "epoch": 2.0508266666666666, "grad_norm": 0.02579875878455254, "learning_rate": 0.0001, "loss": 0.9227, "step": 8453 }, { "epoch": 2.05088, "grad_norm": 0.02351742364143467, "learning_rate": 0.0001, "loss": 0.9768, "step": 8454 }, { "epoch": 2.0509333333333335, "grad_norm": 0.02484436773729363, "learning_rate": 0.0001, "loss": 0.968, "step": 8455 }, { "epoch": 2.0509866666666667, "grad_norm": 0.02749834412498313, "learning_rate": 0.0001, "loss": 0.9184, "step": 8456 }, { "epoch": 2.05104, "grad_norm": 0.022687192424785646, "learning_rate": 0.0001, "loss": 0.9443, "step": 8457 }, { "epoch": 2.051093333333333, "grad_norm": 0.025024482665046543, "learning_rate": 0.0001, "loss": 0.8819, "step": 8458 }, { "epoch": 2.0511466666666665, "grad_norm": 0.02394254122507677, "learning_rate": 0.0001, "loss": 0.9909, "step": 8459 }, { "epoch": 2.0512, "grad_norm": 0.02712250204268525, "learning_rate": 0.0001, "loss": 1.0287, "step": 8460 }, { "epoch": 2.0512533333333334, "grad_norm": 0.024575707962022783, "learning_rate": 0.0001, "loss": 0.9676, "step": 8461 }, { "epoch": 2.0513066666666666, "grad_norm": 0.023875347588390872, "learning_rate": 0.0001, "loss": 0.9174, "step": 8462 }, { "epoch": 2.05136, "grad_norm": 0.025188838928527423, "learning_rate": 0.0001, "loss": 0.9391, "step": 8463 }, { "epoch": 2.0514133333333335, "grad_norm": 0.0239247578238391, "learning_rate": 0.0001, "loss": 0.9705, "step": 8464 }, { "epoch": 2.0514666666666668, "grad_norm": 0.02347867504208327, "learning_rate": 0.0001, "loss": 0.9641, "step": 8465 }, { "epoch": 2.05152, "grad_norm": 0.023761854826481233, "learning_rate": 0.0001, "loss": 0.9575, "step": 8466 }, { "epoch": 2.0515733333333332, "grad_norm": 0.022730701285689468, "learning_rate": 0.0001, "loss": 0.9288, "step": 8467 }, { "epoch": 2.0516266666666665, "grad_norm": 0.024956560746023024, "learning_rate": 0.0001, "loss": 0.9393, "step": 8468 }, { "epoch": 2.05168, "grad_norm": 0.022713404249666988, "learning_rate": 0.0001, "loss": 0.9586, "step": 8469 }, { "epoch": 2.0517333333333334, "grad_norm": 0.0278798604866939, "learning_rate": 0.0001, "loss": 0.9243, "step": 8470 }, { "epoch": 2.0517866666666666, "grad_norm": 0.024224110805477754, "learning_rate": 0.0001, "loss": 0.9571, "step": 8471 }, { "epoch": 2.05184, "grad_norm": 0.023789599290545037, "learning_rate": 0.0001, "loss": 0.9637, "step": 8472 }, { "epoch": 2.051893333333333, "grad_norm": 0.02477845351572029, "learning_rate": 0.0001, "loss": 1.0203, "step": 8473 }, { "epoch": 2.051946666666667, "grad_norm": 0.02562746733012866, "learning_rate": 0.0001, "loss": 0.9673, "step": 8474 }, { "epoch": 2.052, "grad_norm": 0.024129734236192094, "learning_rate": 0.0001, "loss": 0.952, "step": 8475 }, { "epoch": 2.0520533333333333, "grad_norm": 0.023830890670433272, "learning_rate": 0.0001, "loss": 0.9674, "step": 8476 }, { "epoch": 2.0521066666666665, "grad_norm": 0.024542614614862027, "learning_rate": 0.0001, "loss": 0.9598, "step": 8477 }, { "epoch": 2.05216, "grad_norm": 0.025882096520938647, "learning_rate": 0.0001, "loss": 0.8755, "step": 8478 }, { "epoch": 2.0522133333333334, "grad_norm": 0.023737659371056888, "learning_rate": 0.0001, "loss": 1.0233, "step": 8479 }, { "epoch": 2.0522666666666667, "grad_norm": 0.025297996079937473, "learning_rate": 0.0001, "loss": 0.9981, "step": 8480 }, { "epoch": 2.05232, "grad_norm": 0.02413402439807666, "learning_rate": 0.0001, "loss": 0.9518, "step": 8481 }, { "epoch": 2.052373333333333, "grad_norm": 0.023585509141916802, "learning_rate": 0.0001, "loss": 0.9831, "step": 8482 }, { "epoch": 2.052426666666667, "grad_norm": 0.024602816272159222, "learning_rate": 0.0001, "loss": 0.9669, "step": 8483 }, { "epoch": 2.05248, "grad_norm": 0.022401995066225863, "learning_rate": 0.0001, "loss": 0.9712, "step": 8484 }, { "epoch": 2.0525333333333333, "grad_norm": 0.02326246421274619, "learning_rate": 0.0001, "loss": 0.9809, "step": 8485 }, { "epoch": 2.0525866666666666, "grad_norm": 0.022581669813590128, "learning_rate": 0.0001, "loss": 0.9967, "step": 8486 }, { "epoch": 2.05264, "grad_norm": 0.02357175775155609, "learning_rate": 0.0001, "loss": 0.9555, "step": 8487 }, { "epoch": 2.0526933333333335, "grad_norm": 0.023236509280216762, "learning_rate": 0.0001, "loss": 0.9362, "step": 8488 }, { "epoch": 2.0527466666666667, "grad_norm": 0.024261338500348558, "learning_rate": 0.0001, "loss": 0.9778, "step": 8489 }, { "epoch": 2.0528, "grad_norm": 0.02517254121424348, "learning_rate": 0.0001, "loss": 0.9375, "step": 8490 }, { "epoch": 2.052853333333333, "grad_norm": 0.023042992036515997, "learning_rate": 0.0001, "loss": 0.9234, "step": 8491 }, { "epoch": 2.052906666666667, "grad_norm": 0.022954378096417274, "learning_rate": 0.0001, "loss": 0.9348, "step": 8492 }, { "epoch": 2.05296, "grad_norm": 0.022091728561536874, "learning_rate": 0.0001, "loss": 0.9844, "step": 8493 }, { "epoch": 2.0530133333333334, "grad_norm": 0.025436752366713694, "learning_rate": 0.0001, "loss": 0.9579, "step": 8494 }, { "epoch": 2.0530666666666666, "grad_norm": 0.023518869095167108, "learning_rate": 0.0001, "loss": 0.9547, "step": 8495 }, { "epoch": 2.05312, "grad_norm": 0.023200057852588236, "learning_rate": 0.0001, "loss": 0.9678, "step": 8496 }, { "epoch": 2.0531733333333335, "grad_norm": 0.023936663884044234, "learning_rate": 0.0001, "loss": 0.9578, "step": 8497 }, { "epoch": 2.0532266666666668, "grad_norm": 0.026163151772704955, "learning_rate": 0.0001, "loss": 0.9711, "step": 8498 }, { "epoch": 2.05328, "grad_norm": 0.02443059234214081, "learning_rate": 0.0001, "loss": 0.9259, "step": 8499 }, { "epoch": 2.0533333333333332, "grad_norm": 0.02328415867442555, "learning_rate": 0.0001, "loss": 0.9517, "step": 8500 }, { "epoch": 2.0533866666666665, "grad_norm": 0.02518741599797472, "learning_rate": 0.0001, "loss": 0.9713, "step": 8501 }, { "epoch": 2.05344, "grad_norm": 0.023914530595811452, "learning_rate": 0.0001, "loss": 0.9599, "step": 8502 }, { "epoch": 2.0534933333333334, "grad_norm": 0.025705357793850674, "learning_rate": 0.0001, "loss": 0.9857, "step": 8503 }, { "epoch": 2.0535466666666666, "grad_norm": 0.024893829200861996, "learning_rate": 0.0001, "loss": 0.9281, "step": 8504 }, { "epoch": 2.0536, "grad_norm": 0.023512136699346185, "learning_rate": 0.0001, "loss": 1.054, "step": 8505 }, { "epoch": 2.053653333333333, "grad_norm": 0.02499680947847467, "learning_rate": 0.0001, "loss": 0.9825, "step": 8506 }, { "epoch": 2.053706666666667, "grad_norm": 0.025056907545693938, "learning_rate": 0.0001, "loss": 0.968, "step": 8507 }, { "epoch": 2.05376, "grad_norm": 0.024109345129045046, "learning_rate": 0.0001, "loss": 0.9675, "step": 8508 }, { "epoch": 2.0538133333333333, "grad_norm": 0.02492048965809326, "learning_rate": 0.0001, "loss": 1.0383, "step": 8509 }, { "epoch": 2.0538666666666665, "grad_norm": 0.02566281609627631, "learning_rate": 0.0001, "loss": 0.9887, "step": 8510 }, { "epoch": 2.05392, "grad_norm": 0.025045820442097414, "learning_rate": 0.0001, "loss": 0.9717, "step": 8511 }, { "epoch": 2.0539733333333334, "grad_norm": 0.025503495628991308, "learning_rate": 0.0001, "loss": 0.96, "step": 8512 }, { "epoch": 2.0540266666666667, "grad_norm": 0.023453638356563555, "learning_rate": 0.0001, "loss": 0.9877, "step": 8513 }, { "epoch": 2.05408, "grad_norm": 0.024701898851048558, "learning_rate": 0.0001, "loss": 0.9548, "step": 8514 }, { "epoch": 2.054133333333333, "grad_norm": 0.02345071521190681, "learning_rate": 0.0001, "loss": 1.0132, "step": 8515 }, { "epoch": 2.054186666666667, "grad_norm": 0.024247861071009832, "learning_rate": 0.0001, "loss": 1.0066, "step": 8516 }, { "epoch": 2.05424, "grad_norm": 0.02407855365167048, "learning_rate": 0.0001, "loss": 0.9906, "step": 8517 }, { "epoch": 2.0542933333333333, "grad_norm": 0.026455684000380158, "learning_rate": 0.0001, "loss": 0.9834, "step": 8518 }, { "epoch": 2.0543466666666665, "grad_norm": 0.023934307072158028, "learning_rate": 0.0001, "loss": 0.9728, "step": 8519 }, { "epoch": 2.0544, "grad_norm": 0.023517968085976254, "learning_rate": 0.0001, "loss": 1.0056, "step": 8520 }, { "epoch": 2.0544533333333335, "grad_norm": 0.024470479240002507, "learning_rate": 0.0001, "loss": 0.9261, "step": 8521 }, { "epoch": 2.0545066666666667, "grad_norm": 0.02446755536682546, "learning_rate": 0.0001, "loss": 0.977, "step": 8522 }, { "epoch": 2.05456, "grad_norm": 0.023975237840824528, "learning_rate": 0.0001, "loss": 1.0084, "step": 8523 }, { "epoch": 2.054613333333333, "grad_norm": 0.02514727541128734, "learning_rate": 0.0001, "loss": 0.9869, "step": 8524 }, { "epoch": 2.054666666666667, "grad_norm": 0.02647466001655416, "learning_rate": 0.0001, "loss": 0.981, "step": 8525 }, { "epoch": 2.05472, "grad_norm": 0.024307578258316892, "learning_rate": 0.0001, "loss": 1.0419, "step": 8526 }, { "epoch": 2.0547733333333333, "grad_norm": 0.025079077762824913, "learning_rate": 0.0001, "loss": 0.9461, "step": 8527 }, { "epoch": 2.0548266666666666, "grad_norm": 0.023411875289271255, "learning_rate": 0.0001, "loss": 0.9506, "step": 8528 }, { "epoch": 2.05488, "grad_norm": 0.024913450074321407, "learning_rate": 0.0001, "loss": 0.9036, "step": 8529 }, { "epoch": 2.0549333333333335, "grad_norm": 0.02563557850832246, "learning_rate": 0.0001, "loss": 0.9449, "step": 8530 }, { "epoch": 2.0549866666666667, "grad_norm": 0.024044932588738386, "learning_rate": 0.0001, "loss": 0.984, "step": 8531 }, { "epoch": 2.05504, "grad_norm": 0.02382531420631192, "learning_rate": 0.0001, "loss": 0.9578, "step": 8532 }, { "epoch": 2.055093333333333, "grad_norm": 0.024383651351407454, "learning_rate": 0.0001, "loss": 0.9964, "step": 8533 }, { "epoch": 2.0551466666666665, "grad_norm": 0.023797666010495325, "learning_rate": 0.0001, "loss": 0.9689, "step": 8534 }, { "epoch": 2.0552, "grad_norm": 0.024966640369915, "learning_rate": 0.0001, "loss": 0.9449, "step": 8535 }, { "epoch": 2.0552533333333334, "grad_norm": 0.02260304714144289, "learning_rate": 0.0001, "loss": 0.9278, "step": 8536 }, { "epoch": 2.0553066666666666, "grad_norm": 0.023572351090767045, "learning_rate": 0.0001, "loss": 0.9924, "step": 8537 }, { "epoch": 2.05536, "grad_norm": 0.02267074826932176, "learning_rate": 0.0001, "loss": 0.9431, "step": 8538 }, { "epoch": 2.0554133333333335, "grad_norm": 0.02344670128944215, "learning_rate": 0.0001, "loss": 0.9922, "step": 8539 }, { "epoch": 2.0554666666666668, "grad_norm": 0.024453672369441525, "learning_rate": 0.0001, "loss": 0.9776, "step": 8540 }, { "epoch": 2.05552, "grad_norm": 0.02391842800393837, "learning_rate": 0.0001, "loss": 1.0252, "step": 8541 }, { "epoch": 2.0555733333333333, "grad_norm": 0.024238656146118347, "learning_rate": 0.0001, "loss": 0.9249, "step": 8542 }, { "epoch": 2.0556266666666665, "grad_norm": 0.024390215916058475, "learning_rate": 0.0001, "loss": 0.9585, "step": 8543 }, { "epoch": 2.05568, "grad_norm": 0.023685049323954887, "learning_rate": 0.0001, "loss": 0.9822, "step": 8544 }, { "epoch": 2.0557333333333334, "grad_norm": 0.02388536538797593, "learning_rate": 0.0001, "loss": 1.019, "step": 8545 }, { "epoch": 2.0557866666666667, "grad_norm": 0.02340644615997405, "learning_rate": 0.0001, "loss": 0.9494, "step": 8546 }, { "epoch": 2.05584, "grad_norm": 0.0234290253528718, "learning_rate": 0.0001, "loss": 1.0234, "step": 8547 }, { "epoch": 2.055893333333333, "grad_norm": 0.024916417692340705, "learning_rate": 0.0001, "loss": 0.9179, "step": 8548 }, { "epoch": 2.055946666666667, "grad_norm": 0.023756411330342682, "learning_rate": 0.0001, "loss": 0.9356, "step": 8549 }, { "epoch": 2.056, "grad_norm": 0.025340367413955216, "learning_rate": 0.0001, "loss": 0.9807, "step": 8550 }, { "epoch": 2.0560533333333333, "grad_norm": 0.02398457686398911, "learning_rate": 0.0001, "loss": 0.9892, "step": 8551 }, { "epoch": 2.0561066666666665, "grad_norm": 0.024176627227470906, "learning_rate": 0.0001, "loss": 0.9501, "step": 8552 }, { "epoch": 2.05616, "grad_norm": 0.02432796790480192, "learning_rate": 0.0001, "loss": 0.9863, "step": 8553 }, { "epoch": 2.0562133333333334, "grad_norm": 0.02635192172466289, "learning_rate": 0.0001, "loss": 0.9366, "step": 8554 }, { "epoch": 2.0562666666666667, "grad_norm": 0.022818395237949297, "learning_rate": 0.0001, "loss": 0.9955, "step": 8555 }, { "epoch": 2.05632, "grad_norm": 0.02353114266829824, "learning_rate": 0.0001, "loss": 0.9033, "step": 8556 }, { "epoch": 2.056373333333333, "grad_norm": 0.024923585045049806, "learning_rate": 0.0001, "loss": 1.0098, "step": 8557 }, { "epoch": 2.056426666666667, "grad_norm": 0.0236217263271811, "learning_rate": 0.0001, "loss": 0.945, "step": 8558 }, { "epoch": 2.05648, "grad_norm": 0.02341096581978196, "learning_rate": 0.0001, "loss": 0.9855, "step": 8559 }, { "epoch": 2.0565333333333333, "grad_norm": 0.023236319401021412, "learning_rate": 0.0001, "loss": 0.9951, "step": 8560 }, { "epoch": 2.0565866666666666, "grad_norm": 0.023456254887689307, "learning_rate": 0.0001, "loss": 0.9963, "step": 8561 }, { "epoch": 2.05664, "grad_norm": 0.022895089412186945, "learning_rate": 0.0001, "loss": 0.9916, "step": 8562 }, { "epoch": 2.0566933333333335, "grad_norm": 0.02345071044018461, "learning_rate": 0.0001, "loss": 0.9613, "step": 8563 }, { "epoch": 2.0567466666666667, "grad_norm": 0.022436406644812806, "learning_rate": 0.0001, "loss": 0.948, "step": 8564 }, { "epoch": 2.0568, "grad_norm": 0.024085892054973697, "learning_rate": 0.0001, "loss": 0.9486, "step": 8565 }, { "epoch": 2.056853333333333, "grad_norm": 0.022616263966097852, "learning_rate": 0.0001, "loss": 0.9231, "step": 8566 }, { "epoch": 2.056906666666667, "grad_norm": 0.024201146083298302, "learning_rate": 0.0001, "loss": 1.0072, "step": 8567 }, { "epoch": 2.05696, "grad_norm": 0.026097313135763404, "learning_rate": 0.0001, "loss": 0.9622, "step": 8568 }, { "epoch": 2.0570133333333334, "grad_norm": 0.024838634921838267, "learning_rate": 0.0001, "loss": 1.008, "step": 8569 }, { "epoch": 2.0570666666666666, "grad_norm": 0.02297562088612933, "learning_rate": 0.0001, "loss": 0.9701, "step": 8570 }, { "epoch": 2.05712, "grad_norm": 0.025400453560053052, "learning_rate": 0.0001, "loss": 0.9752, "step": 8571 }, { "epoch": 2.0571733333333335, "grad_norm": 0.025904669380704962, "learning_rate": 0.0001, "loss": 0.9639, "step": 8572 }, { "epoch": 2.0572266666666668, "grad_norm": 0.026693479663959397, "learning_rate": 0.0001, "loss": 1.0007, "step": 8573 }, { "epoch": 2.05728, "grad_norm": 0.02403207852780826, "learning_rate": 0.0001, "loss": 1.0798, "step": 8574 }, { "epoch": 2.0573333333333332, "grad_norm": 0.024769562779236347, "learning_rate": 0.0001, "loss": 0.995, "step": 8575 }, { "epoch": 2.0573866666666665, "grad_norm": 0.025071199134315922, "learning_rate": 0.0001, "loss": 0.9625, "step": 8576 }, { "epoch": 2.05744, "grad_norm": 0.02414162231281912, "learning_rate": 0.0001, "loss": 0.9736, "step": 8577 }, { "epoch": 2.0574933333333334, "grad_norm": 0.025274595156640357, "learning_rate": 0.0001, "loss": 0.9631, "step": 8578 }, { "epoch": 2.0575466666666666, "grad_norm": 0.02407408401675802, "learning_rate": 0.0001, "loss": 0.9109, "step": 8579 }, { "epoch": 2.0576, "grad_norm": 0.02407140494316924, "learning_rate": 0.0001, "loss": 1.0214, "step": 8580 }, { "epoch": 2.0576533333333336, "grad_norm": 0.024980563247747226, "learning_rate": 0.0001, "loss": 0.9836, "step": 8581 }, { "epoch": 2.057706666666667, "grad_norm": 0.025418014182714634, "learning_rate": 0.0001, "loss": 0.9334, "step": 8582 }, { "epoch": 2.05776, "grad_norm": 0.023915241258105444, "learning_rate": 0.0001, "loss": 0.9183, "step": 8583 }, { "epoch": 2.0578133333333333, "grad_norm": 0.022796836349667584, "learning_rate": 0.0001, "loss": 0.9756, "step": 8584 }, { "epoch": 2.0578666666666665, "grad_norm": 0.026189060301880996, "learning_rate": 0.0001, "loss": 0.9941, "step": 8585 }, { "epoch": 2.05792, "grad_norm": 0.023622566522918165, "learning_rate": 0.0001, "loss": 0.9845, "step": 8586 }, { "epoch": 2.0579733333333334, "grad_norm": 0.025490766610720226, "learning_rate": 0.0001, "loss": 1.0198, "step": 8587 }, { "epoch": 2.0580266666666667, "grad_norm": 0.024458341614380655, "learning_rate": 0.0001, "loss": 1.0081, "step": 8588 }, { "epoch": 2.05808, "grad_norm": 0.02436391340606176, "learning_rate": 0.0001, "loss": 0.9339, "step": 8589 }, { "epoch": 2.058133333333333, "grad_norm": 0.02471926400281094, "learning_rate": 0.0001, "loss": 0.9447, "step": 8590 }, { "epoch": 2.058186666666667, "grad_norm": 0.023917078811077942, "learning_rate": 0.0001, "loss": 0.9839, "step": 8591 }, { "epoch": 2.05824, "grad_norm": 0.024055301316182973, "learning_rate": 0.0001, "loss": 0.9443, "step": 8592 }, { "epoch": 2.0582933333333333, "grad_norm": 0.024037722096160015, "learning_rate": 0.0001, "loss": 0.9383, "step": 8593 }, { "epoch": 2.0583466666666665, "grad_norm": 0.023487722778252493, "learning_rate": 0.0001, "loss": 0.9978, "step": 8594 }, { "epoch": 2.0584, "grad_norm": 0.02463956564542268, "learning_rate": 0.0001, "loss": 0.9695, "step": 8595 }, { "epoch": 2.0584533333333335, "grad_norm": 0.024190050674092977, "learning_rate": 0.0001, "loss": 0.9883, "step": 8596 }, { "epoch": 2.0585066666666667, "grad_norm": 0.024527323964542252, "learning_rate": 0.0001, "loss": 0.9769, "step": 8597 }, { "epoch": 2.05856, "grad_norm": 0.022805008487380273, "learning_rate": 0.0001, "loss": 0.986, "step": 8598 }, { "epoch": 2.058613333333333, "grad_norm": 0.02457964379995008, "learning_rate": 0.0001, "loss": 1.005, "step": 8599 }, { "epoch": 2.058666666666667, "grad_norm": 0.02466757201179792, "learning_rate": 0.0001, "loss": 0.9217, "step": 8600 }, { "epoch": 2.058666666666667, "eval_accuracy": 0.6202372219307349, "eval_loss": 1.35343337059021, "eval_runtime": 62.8562, "eval_samples_per_second": 15.909, "eval_steps_per_second": 0.509, "step": 8600 }, { "epoch": 2.05872, "grad_norm": 0.023154507883686903, "learning_rate": 0.0001, "loss": 0.9452, "step": 8601 }, { "epoch": 2.0587733333333333, "grad_norm": 0.023225984204154383, "learning_rate": 0.0001, "loss": 0.8969, "step": 8602 }, { "epoch": 2.0588266666666666, "grad_norm": 0.024324127080064796, "learning_rate": 0.0001, "loss": 1.0129, "step": 8603 }, { "epoch": 2.05888, "grad_norm": 0.023513371574992663, "learning_rate": 0.0001, "loss": 0.987, "step": 8604 }, { "epoch": 2.0589333333333335, "grad_norm": 0.023255174741416338, "learning_rate": 0.0001, "loss": 0.9456, "step": 8605 }, { "epoch": 2.0589866666666667, "grad_norm": 0.02383058731623144, "learning_rate": 0.0001, "loss": 0.8708, "step": 8606 }, { "epoch": 2.05904, "grad_norm": 0.022812024267756414, "learning_rate": 0.0001, "loss": 0.895, "step": 8607 }, { "epoch": 2.059093333333333, "grad_norm": 0.023817202613505305, "learning_rate": 0.0001, "loss": 0.9597, "step": 8608 }, { "epoch": 2.0591466666666665, "grad_norm": 0.02432417390627845, "learning_rate": 0.0001, "loss": 0.948, "step": 8609 }, { "epoch": 2.0592, "grad_norm": 0.023014534208329728, "learning_rate": 0.0001, "loss": 0.9813, "step": 8610 }, { "epoch": 2.0592533333333334, "grad_norm": 0.025322237869019226, "learning_rate": 0.0001, "loss": 0.9572, "step": 8611 }, { "epoch": 2.0593066666666666, "grad_norm": 0.02382589025862248, "learning_rate": 0.0001, "loss": 0.9561, "step": 8612 }, { "epoch": 2.05936, "grad_norm": 0.02394594134005538, "learning_rate": 0.0001, "loss": 0.955, "step": 8613 }, { "epoch": 2.0594133333333335, "grad_norm": 0.022750566532994537, "learning_rate": 0.0001, "loss": 0.9659, "step": 8614 }, { "epoch": 2.059466666666667, "grad_norm": 0.02452790648731825, "learning_rate": 0.0001, "loss": 0.9499, "step": 8615 }, { "epoch": 2.05952, "grad_norm": 0.022483357712221583, "learning_rate": 0.0001, "loss": 0.9392, "step": 8616 }, { "epoch": 2.0595733333333333, "grad_norm": 0.023789374432591118, "learning_rate": 0.0001, "loss": 0.9691, "step": 8617 }, { "epoch": 2.0596266666666665, "grad_norm": 0.024729495503508406, "learning_rate": 0.0001, "loss": 0.9427, "step": 8618 }, { "epoch": 2.05968, "grad_norm": 0.025182726320167773, "learning_rate": 0.0001, "loss": 0.9751, "step": 8619 }, { "epoch": 2.0597333333333334, "grad_norm": 0.026150227244650614, "learning_rate": 0.0001, "loss": 1.0065, "step": 8620 }, { "epoch": 2.0597866666666667, "grad_norm": 0.023869719183608386, "learning_rate": 0.0001, "loss": 0.9869, "step": 8621 }, { "epoch": 2.05984, "grad_norm": 0.025327202199707705, "learning_rate": 0.0001, "loss": 0.9933, "step": 8622 }, { "epoch": 2.059893333333333, "grad_norm": 0.02307328438287578, "learning_rate": 0.0001, "loss": 0.9526, "step": 8623 }, { "epoch": 2.059946666666667, "grad_norm": 0.02392902555250011, "learning_rate": 0.0001, "loss": 0.9522, "step": 8624 }, { "epoch": 2.06, "grad_norm": 0.023798118467241475, "learning_rate": 0.0001, "loss": 1.051, "step": 8625 }, { "epoch": 2.0600533333333333, "grad_norm": 0.02382509063077753, "learning_rate": 0.0001, "loss": 0.9255, "step": 8626 }, { "epoch": 2.0601066666666665, "grad_norm": 0.025929138206921835, "learning_rate": 0.0001, "loss": 0.9439, "step": 8627 }, { "epoch": 2.06016, "grad_norm": 0.025039280191885005, "learning_rate": 0.0001, "loss": 0.9872, "step": 8628 }, { "epoch": 2.0602133333333335, "grad_norm": 0.02570072281823165, "learning_rate": 0.0001, "loss": 1.0016, "step": 8629 }, { "epoch": 2.0602666666666667, "grad_norm": 0.024261443724105172, "learning_rate": 0.0001, "loss": 0.9588, "step": 8630 }, { "epoch": 2.06032, "grad_norm": 0.02382981772049744, "learning_rate": 0.0001, "loss": 0.9656, "step": 8631 }, { "epoch": 2.060373333333333, "grad_norm": 0.024662279658465933, "learning_rate": 0.0001, "loss": 0.9471, "step": 8632 }, { "epoch": 2.060426666666667, "grad_norm": 0.02383485549057055, "learning_rate": 0.0001, "loss": 1.0312, "step": 8633 }, { "epoch": 2.06048, "grad_norm": 0.02409382091251041, "learning_rate": 0.0001, "loss": 0.9947, "step": 8634 }, { "epoch": 2.0605333333333333, "grad_norm": 0.024932014914335637, "learning_rate": 0.0001, "loss": 0.9925, "step": 8635 }, { "epoch": 2.0605866666666666, "grad_norm": 0.02356164492960375, "learning_rate": 0.0001, "loss": 0.9829, "step": 8636 }, { "epoch": 2.06064, "grad_norm": 0.02409754178941889, "learning_rate": 0.0001, "loss": 0.9507, "step": 8637 }, { "epoch": 2.0606933333333335, "grad_norm": 0.02310683995589998, "learning_rate": 0.0001, "loss": 0.9619, "step": 8638 }, { "epoch": 2.0607466666666667, "grad_norm": 0.022910938482704906, "learning_rate": 0.0001, "loss": 0.9745, "step": 8639 }, { "epoch": 2.0608, "grad_norm": 0.025429099915539367, "learning_rate": 0.0001, "loss": 0.9441, "step": 8640 }, { "epoch": 2.060853333333333, "grad_norm": 0.025486490231066562, "learning_rate": 0.0001, "loss": 0.9352, "step": 8641 }, { "epoch": 2.060906666666667, "grad_norm": 0.024773103252047856, "learning_rate": 0.0001, "loss": 0.9727, "step": 8642 }, { "epoch": 2.06096, "grad_norm": 0.02497708285340351, "learning_rate": 0.0001, "loss": 1.0074, "step": 8643 }, { "epoch": 2.0610133333333334, "grad_norm": 0.023084242576208797, "learning_rate": 0.0001, "loss": 0.9371, "step": 8644 }, { "epoch": 2.0610666666666666, "grad_norm": 0.0235042870746501, "learning_rate": 0.0001, "loss": 0.9537, "step": 8645 }, { "epoch": 2.06112, "grad_norm": 0.02273279879659177, "learning_rate": 0.0001, "loss": 0.9663, "step": 8646 }, { "epoch": 2.0611733333333335, "grad_norm": 0.026851156307913574, "learning_rate": 0.0001, "loss": 0.9493, "step": 8647 }, { "epoch": 2.0612266666666668, "grad_norm": 0.023944297348634416, "learning_rate": 0.0001, "loss": 0.9572, "step": 8648 }, { "epoch": 2.06128, "grad_norm": 0.02302474604829639, "learning_rate": 0.0001, "loss": 0.9866, "step": 8649 }, { "epoch": 2.0613333333333332, "grad_norm": 0.02311913954263387, "learning_rate": 0.0001, "loss": 1.0443, "step": 8650 }, { "epoch": 2.0613866666666665, "grad_norm": 0.024161199869677973, "learning_rate": 0.0001, "loss": 0.8838, "step": 8651 }, { "epoch": 2.06144, "grad_norm": 0.024713626766460408, "learning_rate": 0.0001, "loss": 0.9626, "step": 8652 }, { "epoch": 2.0614933333333334, "grad_norm": 0.027090493854188987, "learning_rate": 0.0001, "loss": 0.9263, "step": 8653 }, { "epoch": 2.0615466666666666, "grad_norm": 0.024566798150469697, "learning_rate": 0.0001, "loss": 0.9579, "step": 8654 }, { "epoch": 2.0616, "grad_norm": 0.023157212056491256, "learning_rate": 0.0001, "loss": 0.9746, "step": 8655 }, { "epoch": 2.061653333333333, "grad_norm": 0.025735747650842057, "learning_rate": 0.0001, "loss": 0.9851, "step": 8656 }, { "epoch": 2.061706666666667, "grad_norm": 0.02486425263042812, "learning_rate": 0.0001, "loss": 0.9661, "step": 8657 }, { "epoch": 2.06176, "grad_norm": 0.02241533233726412, "learning_rate": 0.0001, "loss": 0.9991, "step": 8658 }, { "epoch": 2.0618133333333333, "grad_norm": 0.02449003802965204, "learning_rate": 0.0001, "loss": 0.9581, "step": 8659 }, { "epoch": 2.0618666666666665, "grad_norm": 0.023878494911379937, "learning_rate": 0.0001, "loss": 0.991, "step": 8660 }, { "epoch": 2.06192, "grad_norm": 0.024487734778343092, "learning_rate": 0.0001, "loss": 0.9185, "step": 8661 }, { "epoch": 2.0619733333333334, "grad_norm": 0.023433513652601864, "learning_rate": 0.0001, "loss": 0.934, "step": 8662 }, { "epoch": 2.0620266666666667, "grad_norm": 0.024329245276178853, "learning_rate": 0.0001, "loss": 0.969, "step": 8663 }, { "epoch": 2.06208, "grad_norm": 0.02463348919685793, "learning_rate": 0.0001, "loss": 0.9535, "step": 8664 }, { "epoch": 2.062133333333333, "grad_norm": 0.02509976214409896, "learning_rate": 0.0001, "loss": 0.9122, "step": 8665 }, { "epoch": 2.062186666666667, "grad_norm": 0.02517437695799496, "learning_rate": 0.0001, "loss": 0.9762, "step": 8666 }, { "epoch": 2.06224, "grad_norm": 0.024691350474065458, "learning_rate": 0.0001, "loss": 0.972, "step": 8667 }, { "epoch": 2.0622933333333333, "grad_norm": 0.026989725860345218, "learning_rate": 0.0001, "loss": 1.0153, "step": 8668 }, { "epoch": 2.0623466666666666, "grad_norm": 0.026698468330787498, "learning_rate": 0.0001, "loss": 0.9677, "step": 8669 }, { "epoch": 2.0624, "grad_norm": 0.024093237548322273, "learning_rate": 0.0001, "loss": 1.0033, "step": 8670 }, { "epoch": 2.0624533333333335, "grad_norm": 0.02373350833033283, "learning_rate": 0.0001, "loss": 0.9883, "step": 8671 }, { "epoch": 2.0625066666666667, "grad_norm": 0.024096349293724947, "learning_rate": 0.0001, "loss": 0.9942, "step": 8672 }, { "epoch": 2.06256, "grad_norm": 0.02389958739889745, "learning_rate": 0.0001, "loss": 0.9902, "step": 8673 }, { "epoch": 2.062613333333333, "grad_norm": 0.026913677160678835, "learning_rate": 0.0001, "loss": 0.9216, "step": 8674 }, { "epoch": 2.062666666666667, "grad_norm": 0.02312169759206765, "learning_rate": 0.0001, "loss": 1.0003, "step": 8675 }, { "epoch": 2.06272, "grad_norm": 0.02466918718843852, "learning_rate": 0.0001, "loss": 0.9694, "step": 8676 }, { "epoch": 2.0627733333333333, "grad_norm": 0.024318545204010774, "learning_rate": 0.0001, "loss": 0.9817, "step": 8677 }, { "epoch": 2.0628266666666666, "grad_norm": 0.023135252538972736, "learning_rate": 0.0001, "loss": 0.9786, "step": 8678 }, { "epoch": 2.06288, "grad_norm": 0.02330730356118636, "learning_rate": 0.0001, "loss": 0.9608, "step": 8679 }, { "epoch": 2.0629333333333335, "grad_norm": 0.02378679418067049, "learning_rate": 0.0001, "loss": 0.9891, "step": 8680 }, { "epoch": 2.0629866666666667, "grad_norm": 0.025724742035962072, "learning_rate": 0.0001, "loss": 0.9504, "step": 8681 }, { "epoch": 2.06304, "grad_norm": 0.023629961949402697, "learning_rate": 0.0001, "loss": 0.9356, "step": 8682 }, { "epoch": 2.0630933333333332, "grad_norm": 0.022458547492331202, "learning_rate": 0.0001, "loss": 0.9663, "step": 8683 }, { "epoch": 2.0631466666666665, "grad_norm": 0.02460236951660864, "learning_rate": 0.0001, "loss": 0.9927, "step": 8684 }, { "epoch": 2.0632, "grad_norm": 0.026445440518219173, "learning_rate": 0.0001, "loss": 0.9822, "step": 8685 }, { "epoch": 2.0632533333333334, "grad_norm": 0.02346525526999167, "learning_rate": 0.0001, "loss": 0.9202, "step": 8686 }, { "epoch": 2.0633066666666666, "grad_norm": 0.02572481271121647, "learning_rate": 0.0001, "loss": 0.9847, "step": 8687 }, { "epoch": 2.06336, "grad_norm": 0.025258146668732752, "learning_rate": 0.0001, "loss": 0.9766, "step": 8688 }, { "epoch": 2.0634133333333335, "grad_norm": 0.027709303507137593, "learning_rate": 0.0001, "loss": 0.9427, "step": 8689 }, { "epoch": 2.063466666666667, "grad_norm": 0.027301077373683588, "learning_rate": 0.0001, "loss": 0.9858, "step": 8690 }, { "epoch": 2.06352, "grad_norm": 0.02479854277664367, "learning_rate": 0.0001, "loss": 0.9666, "step": 8691 }, { "epoch": 2.0635733333333333, "grad_norm": 0.025807952556306017, "learning_rate": 0.0001, "loss": 0.9529, "step": 8692 }, { "epoch": 2.0636266666666665, "grad_norm": 0.026458776435024905, "learning_rate": 0.0001, "loss": 1.0017, "step": 8693 }, { "epoch": 2.06368, "grad_norm": 0.02698232777629887, "learning_rate": 0.0001, "loss": 0.9511, "step": 8694 }, { "epoch": 2.0637333333333334, "grad_norm": 0.023920090843555817, "learning_rate": 0.0001, "loss": 0.9532, "step": 8695 }, { "epoch": 2.0637866666666667, "grad_norm": 0.025315749013726123, "learning_rate": 0.0001, "loss": 0.9525, "step": 8696 }, { "epoch": 2.06384, "grad_norm": 0.02463832767355442, "learning_rate": 0.0001, "loss": 0.9836, "step": 8697 }, { "epoch": 2.063893333333333, "grad_norm": 0.024094422762630192, "learning_rate": 0.0001, "loss": 0.9449, "step": 8698 }, { "epoch": 2.063946666666667, "grad_norm": 0.025671850214847948, "learning_rate": 0.0001, "loss": 0.9757, "step": 8699 }, { "epoch": 2.064, "grad_norm": 0.024176069416778606, "learning_rate": 0.0001, "loss": 0.9376, "step": 8700 }, { "epoch": 2.0640533333333333, "grad_norm": 0.023643865222253816, "learning_rate": 0.0001, "loss": 0.9202, "step": 8701 }, { "epoch": 2.0641066666666665, "grad_norm": 0.023371976212103178, "learning_rate": 0.0001, "loss": 0.9532, "step": 8702 }, { "epoch": 2.06416, "grad_norm": 0.02387582811247973, "learning_rate": 0.0001, "loss": 0.9688, "step": 8703 }, { "epoch": 2.0642133333333335, "grad_norm": 0.023355653024504198, "learning_rate": 0.0001, "loss": 0.9832, "step": 8704 }, { "epoch": 2.0642666666666667, "grad_norm": 0.022894187304631594, "learning_rate": 0.0001, "loss": 0.9698, "step": 8705 }, { "epoch": 2.06432, "grad_norm": 0.02568503761880718, "learning_rate": 0.0001, "loss": 0.9465, "step": 8706 }, { "epoch": 2.064373333333333, "grad_norm": 0.028431355172268906, "learning_rate": 0.0001, "loss": 0.9145, "step": 8707 }, { "epoch": 2.064426666666667, "grad_norm": 0.02449634302341169, "learning_rate": 0.0001, "loss": 0.9444, "step": 8708 }, { "epoch": 2.06448, "grad_norm": 0.02404224127902588, "learning_rate": 0.0001, "loss": 0.9377, "step": 8709 }, { "epoch": 2.0645333333333333, "grad_norm": 0.02705134359618388, "learning_rate": 0.0001, "loss": 0.9538, "step": 8710 }, { "epoch": 2.0645866666666666, "grad_norm": 0.026587250160954604, "learning_rate": 0.0001, "loss": 0.9595, "step": 8711 }, { "epoch": 2.06464, "grad_norm": 0.024139705226234594, "learning_rate": 0.0001, "loss": 0.9076, "step": 8712 }, { "epoch": 2.0646933333333335, "grad_norm": 0.023600563396129294, "learning_rate": 0.0001, "loss": 0.9317, "step": 8713 }, { "epoch": 2.0647466666666667, "grad_norm": 0.024644062771134432, "learning_rate": 0.0001, "loss": 0.9781, "step": 8714 }, { "epoch": 2.0648, "grad_norm": 0.024032210349833976, "learning_rate": 0.0001, "loss": 0.9699, "step": 8715 }, { "epoch": 2.064853333333333, "grad_norm": 0.024659888476079892, "learning_rate": 0.0001, "loss": 0.9041, "step": 8716 }, { "epoch": 2.0649066666666664, "grad_norm": 0.023861448889383526, "learning_rate": 0.0001, "loss": 0.9497, "step": 8717 }, { "epoch": 2.06496, "grad_norm": 0.02325875726075528, "learning_rate": 0.0001, "loss": 0.9618, "step": 8718 }, { "epoch": 2.0650133333333334, "grad_norm": 0.02522907811449465, "learning_rate": 0.0001, "loss": 0.9174, "step": 8719 }, { "epoch": 2.0650666666666666, "grad_norm": 0.02414771879660383, "learning_rate": 0.0001, "loss": 0.9058, "step": 8720 }, { "epoch": 2.06512, "grad_norm": 0.023927953622635518, "learning_rate": 0.0001, "loss": 0.94, "step": 8721 }, { "epoch": 2.0651733333333335, "grad_norm": 0.02296160328965383, "learning_rate": 0.0001, "loss": 0.9302, "step": 8722 }, { "epoch": 2.0652266666666668, "grad_norm": 0.02319542829092166, "learning_rate": 0.0001, "loss": 1.0011, "step": 8723 }, { "epoch": 2.06528, "grad_norm": 0.02270095238850748, "learning_rate": 0.0001, "loss": 0.9871, "step": 8724 }, { "epoch": 2.0653333333333332, "grad_norm": 0.02504644720724833, "learning_rate": 0.0001, "loss": 1.0296, "step": 8725 }, { "epoch": 2.0653866666666665, "grad_norm": 0.02372786224978561, "learning_rate": 0.0001, "loss": 0.953, "step": 8726 }, { "epoch": 2.06544, "grad_norm": 0.023876797285930864, "learning_rate": 0.0001, "loss": 0.9627, "step": 8727 }, { "epoch": 2.0654933333333334, "grad_norm": 0.025426093521014485, "learning_rate": 0.0001, "loss": 0.9638, "step": 8728 }, { "epoch": 2.0655466666666666, "grad_norm": 0.02353145811494561, "learning_rate": 0.0001, "loss": 0.9665, "step": 8729 }, { "epoch": 2.0656, "grad_norm": 0.02454840936796575, "learning_rate": 0.0001, "loss": 0.9692, "step": 8730 }, { "epoch": 2.065653333333333, "grad_norm": 0.026165544324905247, "learning_rate": 0.0001, "loss": 0.9636, "step": 8731 }, { "epoch": 2.065706666666667, "grad_norm": 0.02444913565289035, "learning_rate": 0.0001, "loss": 0.9352, "step": 8732 }, { "epoch": 2.06576, "grad_norm": 0.023641274811913627, "learning_rate": 0.0001, "loss": 0.9117, "step": 8733 }, { "epoch": 2.0658133333333333, "grad_norm": 0.024752823084978354, "learning_rate": 0.0001, "loss": 1.0078, "step": 8734 }, { "epoch": 2.0658666666666665, "grad_norm": 0.022731384810996905, "learning_rate": 0.0001, "loss": 0.9772, "step": 8735 }, { "epoch": 2.06592, "grad_norm": 0.02354219499669858, "learning_rate": 0.0001, "loss": 0.975, "step": 8736 }, { "epoch": 2.0659733333333334, "grad_norm": 0.023398675346218915, "learning_rate": 0.0001, "loss": 0.9059, "step": 8737 }, { "epoch": 2.0660266666666667, "grad_norm": 0.02411933732978403, "learning_rate": 0.0001, "loss": 0.959, "step": 8738 }, { "epoch": 2.06608, "grad_norm": 0.02717798948219064, "learning_rate": 0.0001, "loss": 0.9095, "step": 8739 }, { "epoch": 2.066133333333333, "grad_norm": 0.02366797801585046, "learning_rate": 0.0001, "loss": 0.9609, "step": 8740 }, { "epoch": 2.066186666666667, "grad_norm": 0.024196849633482138, "learning_rate": 0.0001, "loss": 0.9964, "step": 8741 }, { "epoch": 2.06624, "grad_norm": 0.022512229407333474, "learning_rate": 0.0001, "loss": 0.8936, "step": 8742 }, { "epoch": 2.0662933333333333, "grad_norm": 0.023499480541718066, "learning_rate": 0.0001, "loss": 0.9521, "step": 8743 }, { "epoch": 2.0663466666666666, "grad_norm": 0.02452478870310593, "learning_rate": 0.0001, "loss": 0.9909, "step": 8744 }, { "epoch": 2.0664, "grad_norm": 0.024904061901633516, "learning_rate": 0.0001, "loss": 1.0, "step": 8745 }, { "epoch": 2.0664533333333335, "grad_norm": 0.023266434577478467, "learning_rate": 0.0001, "loss": 0.9889, "step": 8746 }, { "epoch": 2.0665066666666667, "grad_norm": 0.026804511042960805, "learning_rate": 0.0001, "loss": 0.9984, "step": 8747 }, { "epoch": 2.06656, "grad_norm": 0.029748299112021967, "learning_rate": 0.0001, "loss": 0.9668, "step": 8748 }, { "epoch": 2.066613333333333, "grad_norm": 0.025489995359411228, "learning_rate": 0.0001, "loss": 0.9981, "step": 8749 }, { "epoch": 2.066666666666667, "grad_norm": 0.023195114974447824, "learning_rate": 0.0001, "loss": 1.0189, "step": 8750 }, { "epoch": 2.06672, "grad_norm": 0.022841487186932213, "learning_rate": 0.0001, "loss": 0.9785, "step": 8751 }, { "epoch": 2.0667733333333334, "grad_norm": 0.026639314706613647, "learning_rate": 0.0001, "loss": 1.0069, "step": 8752 }, { "epoch": 2.0668266666666666, "grad_norm": 0.025085179720927032, "learning_rate": 0.0001, "loss": 0.978, "step": 8753 }, { "epoch": 2.06688, "grad_norm": 0.02296150371505632, "learning_rate": 0.0001, "loss": 0.9702, "step": 8754 }, { "epoch": 2.0669333333333335, "grad_norm": 0.026302060084592245, "learning_rate": 0.0001, "loss": 0.9758, "step": 8755 }, { "epoch": 2.0669866666666667, "grad_norm": 0.029704741220018725, "learning_rate": 0.0001, "loss": 0.9684, "step": 8756 }, { "epoch": 2.06704, "grad_norm": 0.02338512620306534, "learning_rate": 0.0001, "loss": 0.8996, "step": 8757 }, { "epoch": 2.0670933333333332, "grad_norm": 0.02450889278006365, "learning_rate": 0.0001, "loss": 0.9992, "step": 8758 }, { "epoch": 2.0671466666666665, "grad_norm": 0.025804728180202647, "learning_rate": 0.0001, "loss": 0.9359, "step": 8759 }, { "epoch": 2.0672, "grad_norm": 0.023257460651236902, "learning_rate": 0.0001, "loss": 1.0155, "step": 8760 }, { "epoch": 2.0672533333333334, "grad_norm": 0.023752410127983174, "learning_rate": 0.0001, "loss": 0.9737, "step": 8761 }, { "epoch": 2.0673066666666666, "grad_norm": 0.02226221528687742, "learning_rate": 0.0001, "loss": 0.9752, "step": 8762 }, { "epoch": 2.06736, "grad_norm": 0.02457933078553321, "learning_rate": 0.0001, "loss": 0.9443, "step": 8763 }, { "epoch": 2.0674133333333335, "grad_norm": 0.02409909626555822, "learning_rate": 0.0001, "loss": 0.944, "step": 8764 }, { "epoch": 2.067466666666667, "grad_norm": 0.022773871623752055, "learning_rate": 0.0001, "loss": 0.9512, "step": 8765 }, { "epoch": 2.06752, "grad_norm": 0.02262500355751716, "learning_rate": 0.0001, "loss": 1.0078, "step": 8766 }, { "epoch": 2.0675733333333333, "grad_norm": 0.02430040061094826, "learning_rate": 0.0001, "loss": 0.9457, "step": 8767 }, { "epoch": 2.0676266666666665, "grad_norm": 0.023307277208344333, "learning_rate": 0.0001, "loss": 0.931, "step": 8768 }, { "epoch": 2.06768, "grad_norm": 0.023432840303552666, "learning_rate": 0.0001, "loss": 0.9961, "step": 8769 }, { "epoch": 2.0677333333333334, "grad_norm": 0.024786806673137842, "learning_rate": 0.0001, "loss": 0.9105, "step": 8770 }, { "epoch": 2.0677866666666667, "grad_norm": 0.02307824395469305, "learning_rate": 0.0001, "loss": 0.9389, "step": 8771 }, { "epoch": 2.06784, "grad_norm": 0.024248560957192463, "learning_rate": 0.0001, "loss": 1.0193, "step": 8772 }, { "epoch": 2.067893333333333, "grad_norm": 0.02253110953401593, "learning_rate": 0.0001, "loss": 1.0455, "step": 8773 }, { "epoch": 2.067946666666667, "grad_norm": 0.024431339500531554, "learning_rate": 0.0001, "loss": 1.0373, "step": 8774 }, { "epoch": 2.068, "grad_norm": 0.025326267790905146, "learning_rate": 0.0001, "loss": 0.9278, "step": 8775 }, { "epoch": 2.0680533333333333, "grad_norm": 0.022505953841673938, "learning_rate": 0.0001, "loss": 0.9192, "step": 8776 }, { "epoch": 2.0681066666666665, "grad_norm": 0.025916073052928406, "learning_rate": 0.0001, "loss": 0.9843, "step": 8777 }, { "epoch": 2.0681599999999998, "grad_norm": 0.02554395720326553, "learning_rate": 0.0001, "loss": 0.9445, "step": 8778 }, { "epoch": 2.0682133333333335, "grad_norm": 0.02324099986143879, "learning_rate": 0.0001, "loss": 0.976, "step": 8779 }, { "epoch": 2.0682666666666667, "grad_norm": 0.02457459151802507, "learning_rate": 0.0001, "loss": 0.9837, "step": 8780 }, { "epoch": 2.06832, "grad_norm": 0.024157997488261015, "learning_rate": 0.0001, "loss": 0.992, "step": 8781 }, { "epoch": 2.068373333333333, "grad_norm": 0.023205973275286895, "learning_rate": 0.0001, "loss": 0.9754, "step": 8782 }, { "epoch": 2.068426666666667, "grad_norm": 0.02318768233507376, "learning_rate": 0.0001, "loss": 1.0444, "step": 8783 }, { "epoch": 2.06848, "grad_norm": 0.02400880086735067, "learning_rate": 0.0001, "loss": 0.9954, "step": 8784 }, { "epoch": 2.0685333333333333, "grad_norm": 0.02322777327498466, "learning_rate": 0.0001, "loss": 0.9377, "step": 8785 }, { "epoch": 2.0685866666666666, "grad_norm": 0.027052087101563326, "learning_rate": 0.0001, "loss": 0.9345, "step": 8786 }, { "epoch": 2.06864, "grad_norm": 0.02751560879464182, "learning_rate": 0.0001, "loss": 0.95, "step": 8787 }, { "epoch": 2.0686933333333335, "grad_norm": 0.024851242569598305, "learning_rate": 0.0001, "loss": 0.984, "step": 8788 }, { "epoch": 2.0687466666666667, "grad_norm": 0.02357056867515834, "learning_rate": 0.0001, "loss": 0.9794, "step": 8789 }, { "epoch": 2.0688, "grad_norm": 0.02358736809773772, "learning_rate": 0.0001, "loss": 0.9428, "step": 8790 }, { "epoch": 2.068853333333333, "grad_norm": 0.027276842639015156, "learning_rate": 0.0001, "loss": 0.9515, "step": 8791 }, { "epoch": 2.068906666666667, "grad_norm": 0.023936637872178902, "learning_rate": 0.0001, "loss": 1.0182, "step": 8792 }, { "epoch": 2.06896, "grad_norm": 0.023862292995917817, "learning_rate": 0.0001, "loss": 0.9634, "step": 8793 }, { "epoch": 2.0690133333333334, "grad_norm": 0.024561697768033932, "learning_rate": 0.0001, "loss": 0.9565, "step": 8794 }, { "epoch": 2.0690666666666666, "grad_norm": 0.02574153170278155, "learning_rate": 0.0001, "loss": 0.9702, "step": 8795 }, { "epoch": 2.06912, "grad_norm": 0.02264933459584535, "learning_rate": 0.0001, "loss": 0.9724, "step": 8796 }, { "epoch": 2.0691733333333335, "grad_norm": 0.02433589200593183, "learning_rate": 0.0001, "loss": 0.9143, "step": 8797 }, { "epoch": 2.0692266666666668, "grad_norm": 0.02240583028515343, "learning_rate": 0.0001, "loss": 1.0058, "step": 8798 }, { "epoch": 2.06928, "grad_norm": 0.0231584896371871, "learning_rate": 0.0001, "loss": 0.9969, "step": 8799 }, { "epoch": 2.0693333333333332, "grad_norm": 0.02375330496792355, "learning_rate": 0.0001, "loss": 0.9397, "step": 8800 }, { "epoch": 2.0693333333333332, "eval_accuracy": 0.6204151447764661, "eval_loss": 1.3529335260391235, "eval_runtime": 64.2423, "eval_samples_per_second": 15.566, "eval_steps_per_second": 0.498, "step": 8800 }, { "epoch": 2.0693866666666665, "grad_norm": 0.023302793350176574, "learning_rate": 0.0001, "loss": 0.9984, "step": 8801 }, { "epoch": 2.06944, "grad_norm": 0.024463035847085788, "learning_rate": 0.0001, "loss": 1.0082, "step": 8802 }, { "epoch": 2.0694933333333334, "grad_norm": 0.024984547410637065, "learning_rate": 0.0001, "loss": 0.9281, "step": 8803 }, { "epoch": 2.0695466666666666, "grad_norm": 0.02349987659651911, "learning_rate": 0.0001, "loss": 0.968, "step": 8804 }, { "epoch": 2.0696, "grad_norm": 0.02382104024626855, "learning_rate": 0.0001, "loss": 0.9838, "step": 8805 }, { "epoch": 2.069653333333333, "grad_norm": 0.023491743348759368, "learning_rate": 0.0001, "loss": 0.9691, "step": 8806 }, { "epoch": 2.069706666666667, "grad_norm": 0.023935558721272263, "learning_rate": 0.0001, "loss": 0.9454, "step": 8807 }, { "epoch": 2.06976, "grad_norm": 0.02331197169388494, "learning_rate": 0.0001, "loss": 0.9866, "step": 8808 }, { "epoch": 2.0698133333333333, "grad_norm": 0.028705411925383575, "learning_rate": 0.0001, "loss": 1.0373, "step": 8809 }, { "epoch": 2.0698666666666665, "grad_norm": 0.024010989027199725, "learning_rate": 0.0001, "loss": 0.9037, "step": 8810 }, { "epoch": 2.06992, "grad_norm": 0.025685083998020507, "learning_rate": 0.0001, "loss": 0.9792, "step": 8811 }, { "epoch": 2.0699733333333334, "grad_norm": 0.022928438899957396, "learning_rate": 0.0001, "loss": 0.9419, "step": 8812 }, { "epoch": 2.0700266666666667, "grad_norm": 0.027142866649692066, "learning_rate": 0.0001, "loss": 0.9416, "step": 8813 }, { "epoch": 2.07008, "grad_norm": 0.0252482630709984, "learning_rate": 0.0001, "loss": 0.9756, "step": 8814 }, { "epoch": 2.070133333333333, "grad_norm": 0.02525396147254112, "learning_rate": 0.0001, "loss": 0.9746, "step": 8815 }, { "epoch": 2.070186666666667, "grad_norm": 0.02390808663244108, "learning_rate": 0.0001, "loss": 1.0407, "step": 8816 }, { "epoch": 2.07024, "grad_norm": 0.024533324001018125, "learning_rate": 0.0001, "loss": 0.9403, "step": 8817 }, { "epoch": 2.0702933333333333, "grad_norm": 0.023324558606689156, "learning_rate": 0.0001, "loss": 0.9377, "step": 8818 }, { "epoch": 2.0703466666666666, "grad_norm": 0.02316801404514102, "learning_rate": 0.0001, "loss": 0.9561, "step": 8819 }, { "epoch": 2.0704, "grad_norm": 0.02505647355845888, "learning_rate": 0.0001, "loss": 0.9977, "step": 8820 }, { "epoch": 2.0704533333333335, "grad_norm": 0.023042156642286895, "learning_rate": 0.0001, "loss": 0.9943, "step": 8821 }, { "epoch": 2.0705066666666667, "grad_norm": 0.024191766392706492, "learning_rate": 0.0001, "loss": 0.9486, "step": 8822 }, { "epoch": 2.07056, "grad_norm": 0.024943811023012057, "learning_rate": 0.0001, "loss": 0.9534, "step": 8823 }, { "epoch": 2.070613333333333, "grad_norm": 0.0219079439265658, "learning_rate": 0.0001, "loss": 0.9994, "step": 8824 }, { "epoch": 2.070666666666667, "grad_norm": 0.023742973845277404, "learning_rate": 0.0001, "loss": 0.9336, "step": 8825 }, { "epoch": 2.07072, "grad_norm": 0.025748155733408266, "learning_rate": 0.0001, "loss": 0.9341, "step": 8826 }, { "epoch": 2.0707733333333334, "grad_norm": 0.02389048517376535, "learning_rate": 0.0001, "loss": 0.9176, "step": 8827 }, { "epoch": 2.0708266666666666, "grad_norm": 0.022961758741604263, "learning_rate": 0.0001, "loss": 0.983, "step": 8828 }, { "epoch": 2.07088, "grad_norm": 0.023841224824690765, "learning_rate": 0.0001, "loss": 0.9897, "step": 8829 }, { "epoch": 2.0709333333333335, "grad_norm": 0.023846161367855744, "learning_rate": 0.0001, "loss": 0.9847, "step": 8830 }, { "epoch": 2.0709866666666668, "grad_norm": 0.022812818293924116, "learning_rate": 0.0001, "loss": 0.9828, "step": 8831 }, { "epoch": 2.07104, "grad_norm": 0.02328946848087695, "learning_rate": 0.0001, "loss": 0.9695, "step": 8832 }, { "epoch": 2.0710933333333332, "grad_norm": 0.022716587297350033, "learning_rate": 0.0001, "loss": 0.9366, "step": 8833 }, { "epoch": 2.0711466666666665, "grad_norm": 0.022791329804652583, "learning_rate": 0.0001, "loss": 0.9753, "step": 8834 }, { "epoch": 2.0712, "grad_norm": 0.02378318563544875, "learning_rate": 0.0001, "loss": 0.9152, "step": 8835 }, { "epoch": 2.0712533333333334, "grad_norm": 0.024485489124177355, "learning_rate": 0.0001, "loss": 1.0062, "step": 8836 }, { "epoch": 2.0713066666666666, "grad_norm": 0.023648207759352877, "learning_rate": 0.0001, "loss": 0.997, "step": 8837 }, { "epoch": 2.07136, "grad_norm": 0.02479348284433086, "learning_rate": 0.0001, "loss": 0.9701, "step": 8838 }, { "epoch": 2.071413333333333, "grad_norm": 0.02575477753452935, "learning_rate": 0.0001, "loss": 0.9308, "step": 8839 }, { "epoch": 2.071466666666667, "grad_norm": 0.02355484428287616, "learning_rate": 0.0001, "loss": 0.9938, "step": 8840 }, { "epoch": 2.07152, "grad_norm": 0.023064123632761925, "learning_rate": 0.0001, "loss": 0.9269, "step": 8841 }, { "epoch": 2.0715733333333333, "grad_norm": 0.023390937597210837, "learning_rate": 0.0001, "loss": 0.9686, "step": 8842 }, { "epoch": 2.0716266666666665, "grad_norm": 0.02395513836677444, "learning_rate": 0.0001, "loss": 0.9304, "step": 8843 }, { "epoch": 2.07168, "grad_norm": 0.02260901306535553, "learning_rate": 0.0001, "loss": 0.9687, "step": 8844 }, { "epoch": 2.0717333333333334, "grad_norm": 0.02396972653381761, "learning_rate": 0.0001, "loss": 0.968, "step": 8845 }, { "epoch": 2.0717866666666667, "grad_norm": 0.022472246165283347, "learning_rate": 0.0001, "loss": 0.9845, "step": 8846 }, { "epoch": 2.07184, "grad_norm": 0.02369362943195306, "learning_rate": 0.0001, "loss": 0.9849, "step": 8847 }, { "epoch": 2.071893333333333, "grad_norm": 0.024371450967091535, "learning_rate": 0.0001, "loss": 0.9383, "step": 8848 }, { "epoch": 2.071946666666667, "grad_norm": 0.024978303442482353, "learning_rate": 0.0001, "loss": 0.9501, "step": 8849 }, { "epoch": 2.072, "grad_norm": 0.02531891151994998, "learning_rate": 0.0001, "loss": 0.9566, "step": 8850 }, { "epoch": 2.0720533333333333, "grad_norm": 0.022704659043760456, "learning_rate": 0.0001, "loss": 0.9942, "step": 8851 }, { "epoch": 2.0721066666666665, "grad_norm": 0.024779094297796032, "learning_rate": 0.0001, "loss": 1.0177, "step": 8852 }, { "epoch": 2.0721600000000002, "grad_norm": 0.022967831682885412, "learning_rate": 0.0001, "loss": 0.9819, "step": 8853 }, { "epoch": 2.0722133333333335, "grad_norm": 0.023024539611205968, "learning_rate": 0.0001, "loss": 0.9128, "step": 8854 }, { "epoch": 2.0722666666666667, "grad_norm": 0.025718087429455427, "learning_rate": 0.0001, "loss": 0.9745, "step": 8855 }, { "epoch": 2.07232, "grad_norm": 0.02575943451448957, "learning_rate": 0.0001, "loss": 0.9938, "step": 8856 }, { "epoch": 2.072373333333333, "grad_norm": 0.024585396420021992, "learning_rate": 0.0001, "loss": 0.9559, "step": 8857 }, { "epoch": 2.072426666666667, "grad_norm": 0.024062591803276117, "learning_rate": 0.0001, "loss": 0.9645, "step": 8858 }, { "epoch": 2.07248, "grad_norm": 0.025088129730392667, "learning_rate": 0.0001, "loss": 1.0102, "step": 8859 }, { "epoch": 2.0725333333333333, "grad_norm": 0.023244931518130185, "learning_rate": 0.0001, "loss": 0.9935, "step": 8860 }, { "epoch": 2.0725866666666666, "grad_norm": 0.02437475625677032, "learning_rate": 0.0001, "loss": 1.0256, "step": 8861 }, { "epoch": 2.07264, "grad_norm": 0.02295673490798107, "learning_rate": 0.0001, "loss": 0.9586, "step": 8862 }, { "epoch": 2.0726933333333335, "grad_norm": 0.023788174499738336, "learning_rate": 0.0001, "loss": 0.9626, "step": 8863 }, { "epoch": 2.0727466666666667, "grad_norm": 0.025716142718137158, "learning_rate": 0.0001, "loss": 0.951, "step": 8864 }, { "epoch": 2.0728, "grad_norm": 0.023583760322648313, "learning_rate": 0.0001, "loss": 1.0027, "step": 8865 }, { "epoch": 2.072853333333333, "grad_norm": 0.022785984321085067, "learning_rate": 0.0001, "loss": 0.9823, "step": 8866 }, { "epoch": 2.0729066666666665, "grad_norm": 0.027768964636717, "learning_rate": 0.0001, "loss": 0.9812, "step": 8867 }, { "epoch": 2.07296, "grad_norm": 0.02452313752378718, "learning_rate": 0.0001, "loss": 0.9794, "step": 8868 }, { "epoch": 2.0730133333333334, "grad_norm": 0.025351746838164366, "learning_rate": 0.0001, "loss": 0.9768, "step": 8869 }, { "epoch": 2.0730666666666666, "grad_norm": 0.023739790689426412, "learning_rate": 0.0001, "loss": 1.0246, "step": 8870 }, { "epoch": 2.07312, "grad_norm": 0.024437457271122405, "learning_rate": 0.0001, "loss": 0.9202, "step": 8871 }, { "epoch": 2.0731733333333335, "grad_norm": 0.02545836558067774, "learning_rate": 0.0001, "loss": 0.919, "step": 8872 }, { "epoch": 2.0732266666666668, "grad_norm": 0.023485229244521597, "learning_rate": 0.0001, "loss": 0.9168, "step": 8873 }, { "epoch": 2.07328, "grad_norm": 0.023631610162967415, "learning_rate": 0.0001, "loss": 0.9654, "step": 8874 }, { "epoch": 2.0733333333333333, "grad_norm": 0.025615317059540565, "learning_rate": 0.0001, "loss": 0.9232, "step": 8875 }, { "epoch": 2.0733866666666665, "grad_norm": 0.024306593257305983, "learning_rate": 0.0001, "loss": 0.9258, "step": 8876 }, { "epoch": 2.07344, "grad_norm": 0.024083368816148913, "learning_rate": 0.0001, "loss": 0.9526, "step": 8877 }, { "epoch": 2.0734933333333334, "grad_norm": 0.02506057518205399, "learning_rate": 0.0001, "loss": 0.9422, "step": 8878 }, { "epoch": 2.0735466666666666, "grad_norm": 0.02650822864985542, "learning_rate": 0.0001, "loss": 0.8972, "step": 8879 }, { "epoch": 2.0736, "grad_norm": 0.02376690328504021, "learning_rate": 0.0001, "loss": 0.9517, "step": 8880 }, { "epoch": 2.073653333333333, "grad_norm": 0.02465245406406432, "learning_rate": 0.0001, "loss": 0.9959, "step": 8881 }, { "epoch": 2.073706666666667, "grad_norm": 0.02488644617469682, "learning_rate": 0.0001, "loss": 0.9387, "step": 8882 }, { "epoch": 2.07376, "grad_norm": 0.025109518866544833, "learning_rate": 0.0001, "loss": 0.9832, "step": 8883 }, { "epoch": 2.0738133333333333, "grad_norm": 0.02460295604946869, "learning_rate": 0.0001, "loss": 0.9039, "step": 8884 }, { "epoch": 2.0738666666666665, "grad_norm": 0.023696323450848662, "learning_rate": 0.0001, "loss": 0.9301, "step": 8885 }, { "epoch": 2.07392, "grad_norm": 0.0257871891381609, "learning_rate": 0.0001, "loss": 0.9149, "step": 8886 }, { "epoch": 2.0739733333333334, "grad_norm": 0.02513131113328651, "learning_rate": 0.0001, "loss": 1.0217, "step": 8887 }, { "epoch": 2.0740266666666667, "grad_norm": 0.023039160622344936, "learning_rate": 0.0001, "loss": 0.9608, "step": 8888 }, { "epoch": 2.07408, "grad_norm": 0.02492607093078809, "learning_rate": 0.0001, "loss": 0.9887, "step": 8889 }, { "epoch": 2.074133333333333, "grad_norm": 0.02496262664377144, "learning_rate": 0.0001, "loss": 0.9019, "step": 8890 }, { "epoch": 2.074186666666667, "grad_norm": 0.02441618986390071, "learning_rate": 0.0001, "loss": 0.9604, "step": 8891 }, { "epoch": 2.07424, "grad_norm": 0.023256714909317272, "learning_rate": 0.0001, "loss": 0.9701, "step": 8892 }, { "epoch": 2.0742933333333333, "grad_norm": 0.024099135430155873, "learning_rate": 0.0001, "loss": 0.9961, "step": 8893 }, { "epoch": 2.0743466666666666, "grad_norm": 0.022086748055131073, "learning_rate": 0.0001, "loss": 0.9485, "step": 8894 }, { "epoch": 2.0744, "grad_norm": 0.024357487515090915, "learning_rate": 0.0001, "loss": 0.9738, "step": 8895 }, { "epoch": 2.0744533333333335, "grad_norm": 0.02363550674728415, "learning_rate": 0.0001, "loss": 0.9839, "step": 8896 }, { "epoch": 2.0745066666666667, "grad_norm": 0.022034952036519288, "learning_rate": 0.0001, "loss": 1.0159, "step": 8897 }, { "epoch": 2.07456, "grad_norm": 0.0239034426697093, "learning_rate": 0.0001, "loss": 0.979, "step": 8898 }, { "epoch": 2.074613333333333, "grad_norm": 0.022723522696290438, "learning_rate": 0.0001, "loss": 0.962, "step": 8899 }, { "epoch": 2.074666666666667, "grad_norm": 0.02435398071005705, "learning_rate": 0.0001, "loss": 1.0087, "step": 8900 }, { "epoch": 2.07472, "grad_norm": 0.023923472885566163, "learning_rate": 0.0001, "loss": 0.9669, "step": 8901 }, { "epoch": 2.0747733333333334, "grad_norm": 0.02363589738384455, "learning_rate": 0.0001, "loss": 0.9368, "step": 8902 }, { "epoch": 2.0748266666666666, "grad_norm": 0.023901297559075656, "learning_rate": 0.0001, "loss": 0.9034, "step": 8903 }, { "epoch": 2.07488, "grad_norm": 0.023998618047090775, "learning_rate": 0.0001, "loss": 0.998, "step": 8904 }, { "epoch": 2.0749333333333335, "grad_norm": 0.024144841357130156, "learning_rate": 0.0001, "loss": 0.9595, "step": 8905 }, { "epoch": 2.0749866666666668, "grad_norm": 0.022760424193025604, "learning_rate": 0.0001, "loss": 0.9428, "step": 8906 }, { "epoch": 2.07504, "grad_norm": 0.02550915692896576, "learning_rate": 0.0001, "loss": 0.9194, "step": 8907 }, { "epoch": 2.0750933333333332, "grad_norm": 0.024083422958981592, "learning_rate": 0.0001, "loss": 1.0521, "step": 8908 }, { "epoch": 2.0751466666666665, "grad_norm": 0.025013515431393338, "learning_rate": 0.0001, "loss": 0.9148, "step": 8909 }, { "epoch": 2.0752, "grad_norm": 0.02429475025064809, "learning_rate": 0.0001, "loss": 0.9674, "step": 8910 }, { "epoch": 2.0752533333333334, "grad_norm": 0.0238399246279055, "learning_rate": 0.0001, "loss": 1.0184, "step": 8911 }, { "epoch": 2.0753066666666666, "grad_norm": 0.02326454382492856, "learning_rate": 0.0001, "loss": 0.9447, "step": 8912 }, { "epoch": 2.07536, "grad_norm": 0.032230337254335724, "learning_rate": 0.0001, "loss": 0.9978, "step": 8913 }, { "epoch": 2.0754133333333336, "grad_norm": 0.023612977941452836, "learning_rate": 0.0001, "loss": 0.9739, "step": 8914 }, { "epoch": 2.075466666666667, "grad_norm": 0.022937318788042487, "learning_rate": 0.0001, "loss": 0.991, "step": 8915 }, { "epoch": 2.07552, "grad_norm": 0.023671343092268274, "learning_rate": 0.0001, "loss": 1.0062, "step": 8916 }, { "epoch": 2.0755733333333333, "grad_norm": 0.025285424093977653, "learning_rate": 0.0001, "loss": 0.9763, "step": 8917 }, { "epoch": 2.0756266666666665, "grad_norm": 0.023057039047988538, "learning_rate": 0.0001, "loss": 0.9635, "step": 8918 }, { "epoch": 2.07568, "grad_norm": 0.02270641611989122, "learning_rate": 0.0001, "loss": 1.0021, "step": 8919 }, { "epoch": 2.0757333333333334, "grad_norm": 0.024027355070084654, "learning_rate": 0.0001, "loss": 0.9619, "step": 8920 }, { "epoch": 2.0757866666666667, "grad_norm": 0.026069348967130035, "learning_rate": 0.0001, "loss": 0.9731, "step": 8921 }, { "epoch": 2.07584, "grad_norm": 0.023084212982451762, "learning_rate": 0.0001, "loss": 0.9741, "step": 8922 }, { "epoch": 2.075893333333333, "grad_norm": 0.022431858741175034, "learning_rate": 0.0001, "loss": 0.9696, "step": 8923 }, { "epoch": 2.075946666666667, "grad_norm": 0.023527964060017302, "learning_rate": 0.0001, "loss": 0.9627, "step": 8924 }, { "epoch": 2.076, "grad_norm": 0.023814269406044964, "learning_rate": 0.0001, "loss": 0.9023, "step": 8925 }, { "epoch": 2.0760533333333333, "grad_norm": 0.025767624782952962, "learning_rate": 0.0001, "loss": 0.9599, "step": 8926 }, { "epoch": 2.0761066666666665, "grad_norm": 0.024578902101637788, "learning_rate": 0.0001, "loss": 0.974, "step": 8927 }, { "epoch": 2.07616, "grad_norm": 0.02380215376082604, "learning_rate": 0.0001, "loss": 0.9676, "step": 8928 }, { "epoch": 2.0762133333333335, "grad_norm": 0.022674556396613463, "learning_rate": 0.0001, "loss": 0.9736, "step": 8929 }, { "epoch": 2.0762666666666667, "grad_norm": 0.022400698419354718, "learning_rate": 0.0001, "loss": 0.9612, "step": 8930 }, { "epoch": 2.07632, "grad_norm": 0.022948857296266167, "learning_rate": 0.0001, "loss": 0.9553, "step": 8931 }, { "epoch": 2.076373333333333, "grad_norm": 0.02324020913270728, "learning_rate": 0.0001, "loss": 0.9759, "step": 8932 }, { "epoch": 2.076426666666667, "grad_norm": 0.02260429290557653, "learning_rate": 0.0001, "loss": 0.9105, "step": 8933 }, { "epoch": 2.07648, "grad_norm": 0.02402803962970031, "learning_rate": 0.0001, "loss": 0.9702, "step": 8934 }, { "epoch": 2.0765333333333333, "grad_norm": 0.023903476994172345, "learning_rate": 0.0001, "loss": 0.9299, "step": 8935 }, { "epoch": 2.0765866666666666, "grad_norm": 0.02291163976232805, "learning_rate": 0.0001, "loss": 0.9312, "step": 8936 }, { "epoch": 2.07664, "grad_norm": 0.025842591040202444, "learning_rate": 0.0001, "loss": 0.9968, "step": 8937 }, { "epoch": 2.0766933333333335, "grad_norm": 0.023410525190923705, "learning_rate": 0.0001, "loss": 1.0302, "step": 8938 }, { "epoch": 2.0767466666666667, "grad_norm": 0.024019957094546723, "learning_rate": 0.0001, "loss": 0.9217, "step": 8939 }, { "epoch": 2.0768, "grad_norm": 0.02422540856028369, "learning_rate": 0.0001, "loss": 0.9754, "step": 8940 }, { "epoch": 2.076853333333333, "grad_norm": 0.023506593611472906, "learning_rate": 0.0001, "loss": 0.9563, "step": 8941 }, { "epoch": 2.0769066666666665, "grad_norm": 0.02628541823456292, "learning_rate": 0.0001, "loss": 0.9744, "step": 8942 }, { "epoch": 2.07696, "grad_norm": 0.022626851206353788, "learning_rate": 0.0001, "loss": 0.9303, "step": 8943 }, { "epoch": 2.0770133333333334, "grad_norm": 0.022934994422577903, "learning_rate": 0.0001, "loss": 0.9741, "step": 8944 }, { "epoch": 2.0770666666666666, "grad_norm": 0.02328378707218064, "learning_rate": 0.0001, "loss": 1.0276, "step": 8945 }, { "epoch": 2.07712, "grad_norm": 0.022727034531111596, "learning_rate": 0.0001, "loss": 0.9804, "step": 8946 }, { "epoch": 2.0771733333333335, "grad_norm": 0.023314931687445167, "learning_rate": 0.0001, "loss": 0.9427, "step": 8947 }, { "epoch": 2.0772266666666668, "grad_norm": 0.024562761869678512, "learning_rate": 0.0001, "loss": 0.9719, "step": 8948 }, { "epoch": 2.07728, "grad_norm": 0.023845798862819893, "learning_rate": 0.0001, "loss": 0.9392, "step": 8949 }, { "epoch": 2.0773333333333333, "grad_norm": 0.02346713883280898, "learning_rate": 0.0001, "loss": 0.9541, "step": 8950 }, { "epoch": 2.0773866666666665, "grad_norm": 0.024205179202650435, "learning_rate": 0.0001, "loss": 1.0217, "step": 8951 }, { "epoch": 2.07744, "grad_norm": 0.025099488745851526, "learning_rate": 0.0001, "loss": 0.9595, "step": 8952 }, { "epoch": 2.0774933333333334, "grad_norm": 0.024379084765715257, "learning_rate": 0.0001, "loss": 0.9473, "step": 8953 }, { "epoch": 2.0775466666666667, "grad_norm": 0.02376530794962782, "learning_rate": 0.0001, "loss": 0.9014, "step": 8954 }, { "epoch": 2.0776, "grad_norm": 0.02339947725131227, "learning_rate": 0.0001, "loss": 0.9215, "step": 8955 }, { "epoch": 2.077653333333333, "grad_norm": 0.02528925914962087, "learning_rate": 0.0001, "loss": 0.9646, "step": 8956 }, { "epoch": 2.077706666666667, "grad_norm": 0.023908116418828028, "learning_rate": 0.0001, "loss": 1.0238, "step": 8957 }, { "epoch": 2.07776, "grad_norm": 0.025169603724011638, "learning_rate": 0.0001, "loss": 0.9703, "step": 8958 }, { "epoch": 2.0778133333333333, "grad_norm": 0.0245762012654379, "learning_rate": 0.0001, "loss": 0.9479, "step": 8959 }, { "epoch": 2.0778666666666665, "grad_norm": 0.023340063086554716, "learning_rate": 0.0001, "loss": 0.9431, "step": 8960 }, { "epoch": 2.07792, "grad_norm": 0.02536470409723357, "learning_rate": 0.0001, "loss": 0.913, "step": 8961 }, { "epoch": 2.0779733333333334, "grad_norm": 0.022885774168618263, "learning_rate": 0.0001, "loss": 0.9077, "step": 8962 }, { "epoch": 2.0780266666666667, "grad_norm": 0.023160297145736766, "learning_rate": 0.0001, "loss": 1.0049, "step": 8963 }, { "epoch": 2.07808, "grad_norm": 0.024347927717793125, "learning_rate": 0.0001, "loss": 0.9139, "step": 8964 }, { "epoch": 2.078133333333333, "grad_norm": 0.023112025546691554, "learning_rate": 0.0001, "loss": 0.9774, "step": 8965 }, { "epoch": 2.078186666666667, "grad_norm": 0.024433900425832752, "learning_rate": 0.0001, "loss": 0.9109, "step": 8966 }, { "epoch": 2.07824, "grad_norm": 0.024608965425428224, "learning_rate": 0.0001, "loss": 0.9716, "step": 8967 }, { "epoch": 2.0782933333333333, "grad_norm": 0.02418615269424808, "learning_rate": 0.0001, "loss": 0.95, "step": 8968 }, { "epoch": 2.0783466666666666, "grad_norm": 0.0223649283043963, "learning_rate": 0.0001, "loss": 0.9363, "step": 8969 }, { "epoch": 2.0784, "grad_norm": 0.0276135852593035, "learning_rate": 0.0001, "loss": 0.9491, "step": 8970 }, { "epoch": 2.0784533333333335, "grad_norm": 0.025427855146633573, "learning_rate": 0.0001, "loss": 0.8955, "step": 8971 }, { "epoch": 2.0785066666666667, "grad_norm": 0.02255941215443144, "learning_rate": 0.0001, "loss": 1.0117, "step": 8972 }, { "epoch": 2.07856, "grad_norm": 0.02162716365053276, "learning_rate": 0.0001, "loss": 0.8862, "step": 8973 }, { "epoch": 2.078613333333333, "grad_norm": 0.02393795287261673, "learning_rate": 0.0001, "loss": 0.9777, "step": 8974 }, { "epoch": 2.078666666666667, "grad_norm": 0.028143041541821564, "learning_rate": 0.0001, "loss": 0.9974, "step": 8975 }, { "epoch": 2.07872, "grad_norm": 0.0232984629046209, "learning_rate": 0.0001, "loss": 0.9825, "step": 8976 }, { "epoch": 2.0787733333333334, "grad_norm": 0.024632900292386604, "learning_rate": 0.0001, "loss": 0.9939, "step": 8977 }, { "epoch": 2.0788266666666666, "grad_norm": 0.023922386591126086, "learning_rate": 0.0001, "loss": 0.974, "step": 8978 }, { "epoch": 2.07888, "grad_norm": 0.022946527072049226, "learning_rate": 0.0001, "loss": 0.9513, "step": 8979 }, { "epoch": 2.0789333333333335, "grad_norm": 0.023104269496765265, "learning_rate": 0.0001, "loss": 1.0171, "step": 8980 }, { "epoch": 2.0789866666666668, "grad_norm": 0.023347912218610066, "learning_rate": 0.0001, "loss": 0.9404, "step": 8981 }, { "epoch": 2.07904, "grad_norm": 0.023886336808965892, "learning_rate": 0.0001, "loss": 0.9875, "step": 8982 }, { "epoch": 2.0790933333333332, "grad_norm": 0.022993240872701062, "learning_rate": 0.0001, "loss": 1.005, "step": 8983 }, { "epoch": 2.0791466666666665, "grad_norm": 0.02564113074734003, "learning_rate": 0.0001, "loss": 0.9813, "step": 8984 }, { "epoch": 2.0792, "grad_norm": 0.026481132535311536, "learning_rate": 0.0001, "loss": 1.0146, "step": 8985 }, { "epoch": 2.0792533333333334, "grad_norm": 0.023540544102009283, "learning_rate": 0.0001, "loss": 0.9553, "step": 8986 }, { "epoch": 2.0793066666666666, "grad_norm": 0.025063914512755307, "learning_rate": 0.0001, "loss": 0.9785, "step": 8987 }, { "epoch": 2.07936, "grad_norm": 0.02539524335642424, "learning_rate": 0.0001, "loss": 0.9569, "step": 8988 }, { "epoch": 2.079413333333333, "grad_norm": 0.024818798529132022, "learning_rate": 0.0001, "loss": 0.9713, "step": 8989 }, { "epoch": 2.079466666666667, "grad_norm": 0.022747703148358753, "learning_rate": 0.0001, "loss": 0.9673, "step": 8990 }, { "epoch": 2.07952, "grad_norm": 0.022908981831186313, "learning_rate": 0.0001, "loss": 0.9894, "step": 8991 }, { "epoch": 2.0795733333333333, "grad_norm": 0.023852496519002533, "learning_rate": 0.0001, "loss": 0.9708, "step": 8992 }, { "epoch": 2.0796266666666665, "grad_norm": 0.025974582260053107, "learning_rate": 0.0001, "loss": 0.9257, "step": 8993 }, { "epoch": 2.07968, "grad_norm": 0.025409979739037615, "learning_rate": 0.0001, "loss": 1.0152, "step": 8994 }, { "epoch": 2.0797333333333334, "grad_norm": 0.022194909109059684, "learning_rate": 0.0001, "loss": 1.0098, "step": 8995 }, { "epoch": 2.0797866666666667, "grad_norm": 0.023700272813048377, "learning_rate": 0.0001, "loss": 1.0084, "step": 8996 }, { "epoch": 2.07984, "grad_norm": 0.023472679461882442, "learning_rate": 0.0001, "loss": 0.9306, "step": 8997 }, { "epoch": 2.079893333333333, "grad_norm": 0.023340563054120446, "learning_rate": 0.0001, "loss": 0.963, "step": 8998 }, { "epoch": 2.079946666666667, "grad_norm": 0.022569209449336464, "learning_rate": 0.0001, "loss": 0.9973, "step": 8999 }, { "epoch": 2.08, "grad_norm": 0.024314599881795403, "learning_rate": 0.0001, "loss": 0.9134, "step": 9000 }, { "epoch": 2.08, "eval_accuracy": 0.6205653892385502, "eval_loss": 1.352199912071228, "eval_runtime": 63.1865, "eval_samples_per_second": 15.826, "eval_steps_per_second": 0.506, "step": 9000 }, { "epoch": 2.0800533333333333, "grad_norm": 0.022708748176714127, "learning_rate": 0.0001, "loss": 0.9717, "step": 9001 }, { "epoch": 2.0801066666666665, "grad_norm": 0.024140946465831706, "learning_rate": 0.0001, "loss": 0.9573, "step": 9002 }, { "epoch": 2.08016, "grad_norm": 0.02552341130622695, "learning_rate": 0.0001, "loss": 0.9435, "step": 9003 }, { "epoch": 2.0802133333333335, "grad_norm": 0.024249593013482954, "learning_rate": 0.0001, "loss": 0.9997, "step": 9004 }, { "epoch": 2.0802666666666667, "grad_norm": 0.02477850087840115, "learning_rate": 0.0001, "loss": 0.96, "step": 9005 }, { "epoch": 2.08032, "grad_norm": 0.025624543217376658, "learning_rate": 0.0001, "loss": 0.982, "step": 9006 }, { "epoch": 2.080373333333333, "grad_norm": 0.024955801827111667, "learning_rate": 0.0001, "loss": 0.9944, "step": 9007 }, { "epoch": 2.080426666666667, "grad_norm": 0.023521210779879946, "learning_rate": 0.0001, "loss": 0.9776, "step": 9008 }, { "epoch": 2.08048, "grad_norm": 0.024367223922216057, "learning_rate": 0.0001, "loss": 0.9921, "step": 9009 }, { "epoch": 2.0805333333333333, "grad_norm": 0.024239498046734476, "learning_rate": 0.0001, "loss": 0.9464, "step": 9010 }, { "epoch": 2.0805866666666666, "grad_norm": 0.02360949884421636, "learning_rate": 0.0001, "loss": 0.9629, "step": 9011 }, { "epoch": 2.08064, "grad_norm": 0.025529022457895244, "learning_rate": 0.0001, "loss": 0.9426, "step": 9012 }, { "epoch": 2.0806933333333335, "grad_norm": 0.023356169981516534, "learning_rate": 0.0001, "loss": 0.9447, "step": 9013 }, { "epoch": 2.0807466666666667, "grad_norm": 0.024015910572310787, "learning_rate": 0.0001, "loss": 0.928, "step": 9014 }, { "epoch": 2.0808, "grad_norm": 0.025596706176792525, "learning_rate": 0.0001, "loss": 0.9499, "step": 9015 }, { "epoch": 2.080853333333333, "grad_norm": 0.024940867376412316, "learning_rate": 0.0001, "loss": 0.9339, "step": 9016 }, { "epoch": 2.0809066666666665, "grad_norm": 0.023245415318860162, "learning_rate": 0.0001, "loss": 0.8678, "step": 9017 }, { "epoch": 2.08096, "grad_norm": 0.024809965437677994, "learning_rate": 0.0001, "loss": 1.0601, "step": 9018 }, { "epoch": 2.0810133333333334, "grad_norm": 0.023189166248648915, "learning_rate": 0.0001, "loss": 0.9557, "step": 9019 }, { "epoch": 2.0810666666666666, "grad_norm": 0.024341766152183357, "learning_rate": 0.0001, "loss": 0.969, "step": 9020 }, { "epoch": 2.08112, "grad_norm": 0.024528432393234212, "learning_rate": 0.0001, "loss": 0.967, "step": 9021 }, { "epoch": 2.0811733333333335, "grad_norm": 0.025198104181381485, "learning_rate": 0.0001, "loss": 0.9544, "step": 9022 }, { "epoch": 2.081226666666667, "grad_norm": 0.024492536307471422, "learning_rate": 0.0001, "loss": 0.9674, "step": 9023 }, { "epoch": 2.08128, "grad_norm": 0.024257661770376263, "learning_rate": 0.0001, "loss": 0.9596, "step": 9024 }, { "epoch": 2.0813333333333333, "grad_norm": 0.025605010505499237, "learning_rate": 0.0001, "loss": 0.9363, "step": 9025 }, { "epoch": 2.0813866666666665, "grad_norm": 0.023521154964853578, "learning_rate": 0.0001, "loss": 0.9703, "step": 9026 }, { "epoch": 2.08144, "grad_norm": 0.02355105174110394, "learning_rate": 0.0001, "loss": 0.945, "step": 9027 }, { "epoch": 2.0814933333333334, "grad_norm": 0.023582436245482678, "learning_rate": 0.0001, "loss": 0.9462, "step": 9028 }, { "epoch": 2.0815466666666667, "grad_norm": 0.026264866473149465, "learning_rate": 0.0001, "loss": 0.9428, "step": 9029 }, { "epoch": 2.0816, "grad_norm": 0.023281665793807495, "learning_rate": 0.0001, "loss": 0.9386, "step": 9030 }, { "epoch": 2.081653333333333, "grad_norm": 0.025230656538140033, "learning_rate": 0.0001, "loss": 0.9503, "step": 9031 }, { "epoch": 2.081706666666667, "grad_norm": 0.025405360003029554, "learning_rate": 0.0001, "loss": 0.9747, "step": 9032 }, { "epoch": 2.08176, "grad_norm": 0.024143517396161506, "learning_rate": 0.0001, "loss": 0.9786, "step": 9033 }, { "epoch": 2.0818133333333333, "grad_norm": 0.02550625858083241, "learning_rate": 0.0001, "loss": 1.0161, "step": 9034 }, { "epoch": 2.0818666666666665, "grad_norm": 0.024907947499620466, "learning_rate": 0.0001, "loss": 0.9994, "step": 9035 }, { "epoch": 2.08192, "grad_norm": 0.022610561173634587, "learning_rate": 0.0001, "loss": 1.0184, "step": 9036 }, { "epoch": 2.0819733333333335, "grad_norm": 0.025187327875498502, "learning_rate": 0.0001, "loss": 1.0731, "step": 9037 }, { "epoch": 2.0820266666666667, "grad_norm": 0.026443382702086272, "learning_rate": 0.0001, "loss": 0.9852, "step": 9038 }, { "epoch": 2.08208, "grad_norm": 0.02426550923854434, "learning_rate": 0.0001, "loss": 0.9834, "step": 9039 }, { "epoch": 2.082133333333333, "grad_norm": 0.026701411342809653, "learning_rate": 0.0001, "loss": 1.0258, "step": 9040 }, { "epoch": 2.082186666666667, "grad_norm": 0.022089329117507484, "learning_rate": 0.0001, "loss": 0.9498, "step": 9041 }, { "epoch": 2.08224, "grad_norm": 0.024188073885059582, "learning_rate": 0.0001, "loss": 0.9666, "step": 9042 }, { "epoch": 2.0822933333333333, "grad_norm": 0.023853109119032483, "learning_rate": 0.0001, "loss": 0.898, "step": 9043 }, { "epoch": 2.0823466666666666, "grad_norm": 0.023321722786849873, "learning_rate": 0.0001, "loss": 0.9439, "step": 9044 }, { "epoch": 2.0824, "grad_norm": 0.025410755463430214, "learning_rate": 0.0001, "loss": 0.9858, "step": 9045 }, { "epoch": 2.0824533333333335, "grad_norm": 0.024009458532919466, "learning_rate": 0.0001, "loss": 0.9859, "step": 9046 }, { "epoch": 2.0825066666666667, "grad_norm": 0.023569220599376654, "learning_rate": 0.0001, "loss": 0.9685, "step": 9047 }, { "epoch": 2.08256, "grad_norm": 0.022841690843712507, "learning_rate": 0.0001, "loss": 0.9341, "step": 9048 }, { "epoch": 2.082613333333333, "grad_norm": 0.024194845883435415, "learning_rate": 0.0001, "loss": 0.968, "step": 9049 }, { "epoch": 2.0826666666666664, "grad_norm": 0.024004436443914763, "learning_rate": 0.0001, "loss": 0.9469, "step": 9050 }, { "epoch": 2.08272, "grad_norm": 0.022889768881705463, "learning_rate": 0.0001, "loss": 0.9895, "step": 9051 }, { "epoch": 2.0827733333333334, "grad_norm": 0.022816099663723048, "learning_rate": 0.0001, "loss": 0.9969, "step": 9052 }, { "epoch": 2.0828266666666666, "grad_norm": 0.023522623788248154, "learning_rate": 0.0001, "loss": 0.9566, "step": 9053 }, { "epoch": 2.08288, "grad_norm": 0.022967369551198824, "learning_rate": 0.0001, "loss": 0.9405, "step": 9054 }, { "epoch": 2.0829333333333335, "grad_norm": 0.026261968030193695, "learning_rate": 0.0001, "loss": 1.0258, "step": 9055 }, { "epoch": 2.0829866666666668, "grad_norm": 0.021676699720377023, "learning_rate": 0.0001, "loss": 0.9134, "step": 9056 }, { "epoch": 2.08304, "grad_norm": 0.0231627177249165, "learning_rate": 0.0001, "loss": 0.986, "step": 9057 }, { "epoch": 2.0830933333333332, "grad_norm": 0.025847109193812497, "learning_rate": 0.0001, "loss": 0.9746, "step": 9058 }, { "epoch": 2.0831466666666665, "grad_norm": 0.02518435150106906, "learning_rate": 0.0001, "loss": 0.9584, "step": 9059 }, { "epoch": 2.0832, "grad_norm": 0.02188169496221701, "learning_rate": 0.0001, "loss": 0.9852, "step": 9060 }, { "epoch": 2.0832533333333334, "grad_norm": 0.023850087606201116, "learning_rate": 0.0001, "loss": 0.9927, "step": 9061 }, { "epoch": 2.0833066666666666, "grad_norm": 0.022549425968177154, "learning_rate": 0.0001, "loss": 0.9657, "step": 9062 }, { "epoch": 2.08336, "grad_norm": 0.024848870692921205, "learning_rate": 0.0001, "loss": 0.9073, "step": 9063 }, { "epoch": 2.0834133333333336, "grad_norm": 0.023948821310627266, "learning_rate": 0.0001, "loss": 0.9929, "step": 9064 }, { "epoch": 2.083466666666667, "grad_norm": 0.022119771849966507, "learning_rate": 0.0001, "loss": 0.9833, "step": 9065 }, { "epoch": 2.08352, "grad_norm": 0.024343343916797842, "learning_rate": 0.0001, "loss": 1.0012, "step": 9066 }, { "epoch": 2.0835733333333333, "grad_norm": 0.024741293047741923, "learning_rate": 0.0001, "loss": 1.0189, "step": 9067 }, { "epoch": 2.0836266666666665, "grad_norm": 0.023864493858482806, "learning_rate": 0.0001, "loss": 1.0348, "step": 9068 }, { "epoch": 2.08368, "grad_norm": 0.025605701563136525, "learning_rate": 0.0001, "loss": 0.923, "step": 9069 }, { "epoch": 2.0837333333333334, "grad_norm": 0.02388271887018704, "learning_rate": 0.0001, "loss": 0.9425, "step": 9070 }, { "epoch": 2.0837866666666667, "grad_norm": 0.025731120824637518, "learning_rate": 0.0001, "loss": 0.9816, "step": 9071 }, { "epoch": 2.08384, "grad_norm": 0.0248794247075788, "learning_rate": 0.0001, "loss": 0.9573, "step": 9072 }, { "epoch": 2.083893333333333, "grad_norm": 0.024553783225805047, "learning_rate": 0.0001, "loss": 0.8848, "step": 9073 }, { "epoch": 2.083946666666667, "grad_norm": 0.0235984636022715, "learning_rate": 0.0001, "loss": 1.0022, "step": 9074 }, { "epoch": 2.084, "grad_norm": 0.023845873349194673, "learning_rate": 0.0001, "loss": 1.0065, "step": 9075 }, { "epoch": 2.0840533333333333, "grad_norm": 0.02245587553522472, "learning_rate": 0.0001, "loss": 0.987, "step": 9076 }, { "epoch": 2.0841066666666666, "grad_norm": 0.0274036868153927, "learning_rate": 0.0001, "loss": 0.9416, "step": 9077 }, { "epoch": 2.08416, "grad_norm": 0.02359678895842327, "learning_rate": 0.0001, "loss": 0.9805, "step": 9078 }, { "epoch": 2.0842133333333335, "grad_norm": 0.02414672105104457, "learning_rate": 0.0001, "loss": 0.9773, "step": 9079 }, { "epoch": 2.0842666666666667, "grad_norm": 0.023966035203824097, "learning_rate": 0.0001, "loss": 0.9656, "step": 9080 }, { "epoch": 2.08432, "grad_norm": 0.024268900451478698, "learning_rate": 0.0001, "loss": 0.9845, "step": 9081 }, { "epoch": 2.084373333333333, "grad_norm": 0.023014023101622552, "learning_rate": 0.0001, "loss": 0.9217, "step": 9082 }, { "epoch": 2.084426666666667, "grad_norm": 0.022436307949477517, "learning_rate": 0.0001, "loss": 1.0107, "step": 9083 }, { "epoch": 2.08448, "grad_norm": 0.024428998827966182, "learning_rate": 0.0001, "loss": 0.9656, "step": 9084 }, { "epoch": 2.0845333333333333, "grad_norm": 0.02351519124202221, "learning_rate": 0.0001, "loss": 0.9838, "step": 9085 }, { "epoch": 2.0845866666666666, "grad_norm": 0.023905431300307204, "learning_rate": 0.0001, "loss": 0.9697, "step": 9086 }, { "epoch": 2.08464, "grad_norm": 0.024451345025856653, "learning_rate": 0.0001, "loss": 0.9946, "step": 9087 }, { "epoch": 2.0846933333333335, "grad_norm": 0.021884506698428643, "learning_rate": 0.0001, "loss": 0.9728, "step": 9088 }, { "epoch": 2.0847466666666667, "grad_norm": 0.02289436669007997, "learning_rate": 0.0001, "loss": 0.9807, "step": 9089 }, { "epoch": 2.0848, "grad_norm": 0.023238679261571575, "learning_rate": 0.0001, "loss": 0.9523, "step": 9090 }, { "epoch": 2.0848533333333332, "grad_norm": 0.02350637437194403, "learning_rate": 0.0001, "loss": 0.9874, "step": 9091 }, { "epoch": 2.0849066666666665, "grad_norm": 0.022821635184358577, "learning_rate": 0.0001, "loss": 0.9381, "step": 9092 }, { "epoch": 2.08496, "grad_norm": 0.024662420880057538, "learning_rate": 0.0001, "loss": 0.8863, "step": 9093 }, { "epoch": 2.0850133333333334, "grad_norm": 0.024901759212783522, "learning_rate": 0.0001, "loss": 0.9854, "step": 9094 }, { "epoch": 2.0850666666666666, "grad_norm": 0.02438481778336074, "learning_rate": 0.0001, "loss": 0.95, "step": 9095 }, { "epoch": 2.08512, "grad_norm": 0.024113257412137414, "learning_rate": 0.0001, "loss": 0.9789, "step": 9096 }, { "epoch": 2.0851733333333335, "grad_norm": 0.02299891701455483, "learning_rate": 0.0001, "loss": 1.012, "step": 9097 }, { "epoch": 2.085226666666667, "grad_norm": 0.022564269034347335, "learning_rate": 0.0001, "loss": 0.971, "step": 9098 }, { "epoch": 2.08528, "grad_norm": 0.023376804477809963, "learning_rate": 0.0001, "loss": 0.9659, "step": 9099 }, { "epoch": 2.0853333333333333, "grad_norm": 0.023902036081599853, "learning_rate": 0.0001, "loss": 0.9652, "step": 9100 }, { "epoch": 2.0853866666666665, "grad_norm": 0.02398648394335246, "learning_rate": 0.0001, "loss": 0.9823, "step": 9101 }, { "epoch": 2.08544, "grad_norm": 0.025670257720763003, "learning_rate": 0.0001, "loss": 0.9711, "step": 9102 }, { "epoch": 2.0854933333333334, "grad_norm": 0.022996102358267045, "learning_rate": 0.0001, "loss": 0.9185, "step": 9103 }, { "epoch": 2.0855466666666667, "grad_norm": 0.023452564579154022, "learning_rate": 0.0001, "loss": 0.9853, "step": 9104 }, { "epoch": 2.0856, "grad_norm": 0.023991005870054784, "learning_rate": 0.0001, "loss": 0.979, "step": 9105 }, { "epoch": 2.085653333333333, "grad_norm": 0.025701606246732005, "learning_rate": 0.0001, "loss": 0.9854, "step": 9106 }, { "epoch": 2.085706666666667, "grad_norm": 0.023470286947451253, "learning_rate": 0.0001, "loss": 0.9678, "step": 9107 }, { "epoch": 2.08576, "grad_norm": 0.023917124243911264, "learning_rate": 0.0001, "loss": 1.002, "step": 9108 }, { "epoch": 2.0858133333333333, "grad_norm": 0.02513894198027282, "learning_rate": 0.0001, "loss": 0.9876, "step": 9109 }, { "epoch": 2.0858666666666665, "grad_norm": 0.023469189811325546, "learning_rate": 0.0001, "loss": 0.8933, "step": 9110 }, { "epoch": 2.0859199999999998, "grad_norm": 0.023151860893931096, "learning_rate": 0.0001, "loss": 0.9244, "step": 9111 }, { "epoch": 2.0859733333333335, "grad_norm": 0.023623036049242485, "learning_rate": 0.0001, "loss": 0.9766, "step": 9112 }, { "epoch": 2.0860266666666667, "grad_norm": 0.023687450561472617, "learning_rate": 0.0001, "loss": 1.0001, "step": 9113 }, { "epoch": 2.08608, "grad_norm": 0.025395268485220515, "learning_rate": 0.0001, "loss": 0.9546, "step": 9114 }, { "epoch": 2.086133333333333, "grad_norm": 0.022802853943307312, "learning_rate": 0.0001, "loss": 0.9343, "step": 9115 }, { "epoch": 2.086186666666667, "grad_norm": 0.02455104676265106, "learning_rate": 0.0001, "loss": 0.9826, "step": 9116 }, { "epoch": 2.08624, "grad_norm": 0.023370819368425593, "learning_rate": 0.0001, "loss": 0.8738, "step": 9117 }, { "epoch": 2.0862933333333333, "grad_norm": 0.027038033928695086, "learning_rate": 0.0001, "loss": 0.9771, "step": 9118 }, { "epoch": 2.0863466666666666, "grad_norm": 0.02389834037868901, "learning_rate": 0.0001, "loss": 0.957, "step": 9119 }, { "epoch": 2.0864, "grad_norm": 0.02300772692428526, "learning_rate": 0.0001, "loss": 0.9193, "step": 9120 }, { "epoch": 2.0864533333333335, "grad_norm": 0.02397768611201968, "learning_rate": 0.0001, "loss": 0.9782, "step": 9121 }, { "epoch": 2.0865066666666667, "grad_norm": 0.02444183482154236, "learning_rate": 0.0001, "loss": 0.9908, "step": 9122 }, { "epoch": 2.08656, "grad_norm": 0.02441788464973298, "learning_rate": 0.0001, "loss": 0.9427, "step": 9123 }, { "epoch": 2.086613333333333, "grad_norm": 0.02387162862545705, "learning_rate": 0.0001, "loss": 0.9288, "step": 9124 }, { "epoch": 2.086666666666667, "grad_norm": 0.02573204461282782, "learning_rate": 0.0001, "loss": 0.9957, "step": 9125 }, { "epoch": 2.08672, "grad_norm": 0.023427983941621485, "learning_rate": 0.0001, "loss": 0.9479, "step": 9126 }, { "epoch": 2.0867733333333334, "grad_norm": 0.02291216453199992, "learning_rate": 0.0001, "loss": 0.981, "step": 9127 }, { "epoch": 2.0868266666666666, "grad_norm": 0.023926140336135715, "learning_rate": 0.0001, "loss": 0.9619, "step": 9128 }, { "epoch": 2.08688, "grad_norm": 0.0223035487132163, "learning_rate": 0.0001, "loss": 0.9561, "step": 9129 }, { "epoch": 2.0869333333333335, "grad_norm": 0.025200102932127065, "learning_rate": 0.0001, "loss": 0.974, "step": 9130 }, { "epoch": 2.0869866666666668, "grad_norm": 0.023584187640044905, "learning_rate": 0.0001, "loss": 0.9523, "step": 9131 }, { "epoch": 2.08704, "grad_norm": 0.023808421935876244, "learning_rate": 0.0001, "loss": 0.9804, "step": 9132 }, { "epoch": 2.0870933333333332, "grad_norm": 0.02481695336079991, "learning_rate": 0.0001, "loss": 0.9812, "step": 9133 }, { "epoch": 2.0871466666666665, "grad_norm": 0.023926448116963445, "learning_rate": 0.0001, "loss": 0.8784, "step": 9134 }, { "epoch": 2.0872, "grad_norm": 0.022876383087172446, "learning_rate": 0.0001, "loss": 0.9727, "step": 9135 }, { "epoch": 2.0872533333333334, "grad_norm": 0.023794014972565856, "learning_rate": 0.0001, "loss": 0.9402, "step": 9136 }, { "epoch": 2.0873066666666666, "grad_norm": 0.02691827759028359, "learning_rate": 0.0001, "loss": 1.0221, "step": 9137 }, { "epoch": 2.08736, "grad_norm": 0.022558474297368996, "learning_rate": 0.0001, "loss": 0.9773, "step": 9138 }, { "epoch": 2.087413333333333, "grad_norm": 0.024389848173186533, "learning_rate": 0.0001, "loss": 0.9408, "step": 9139 }, { "epoch": 2.087466666666667, "grad_norm": 0.022585961059489092, "learning_rate": 0.0001, "loss": 0.9618, "step": 9140 }, { "epoch": 2.08752, "grad_norm": 0.025093331507426198, "learning_rate": 0.0001, "loss": 0.9664, "step": 9141 }, { "epoch": 2.0875733333333333, "grad_norm": 0.024366219636298328, "learning_rate": 0.0001, "loss": 0.9684, "step": 9142 }, { "epoch": 2.0876266666666665, "grad_norm": 0.02265807804114779, "learning_rate": 0.0001, "loss": 0.9835, "step": 9143 }, { "epoch": 2.08768, "grad_norm": 0.02371395685080468, "learning_rate": 0.0001, "loss": 1.0296, "step": 9144 }, { "epoch": 2.0877333333333334, "grad_norm": 0.022898770481009075, "learning_rate": 0.0001, "loss": 0.9668, "step": 9145 }, { "epoch": 2.0877866666666667, "grad_norm": 0.023951183157092347, "learning_rate": 0.0001, "loss": 1.0078, "step": 9146 }, { "epoch": 2.08784, "grad_norm": 0.022046720451594365, "learning_rate": 0.0001, "loss": 0.9453, "step": 9147 }, { "epoch": 2.087893333333333, "grad_norm": 0.02440639962460925, "learning_rate": 0.0001, "loss": 0.9352, "step": 9148 }, { "epoch": 2.087946666666667, "grad_norm": 0.02350582022346445, "learning_rate": 0.0001, "loss": 0.9444, "step": 9149 }, { "epoch": 2.088, "grad_norm": 0.02361777803572139, "learning_rate": 0.0001, "loss": 0.9671, "step": 9150 }, { "epoch": 2.0880533333333333, "grad_norm": 0.02252385878661514, "learning_rate": 0.0001, "loss": 0.9412, "step": 9151 }, { "epoch": 2.0881066666666666, "grad_norm": 0.02285452984123858, "learning_rate": 0.0001, "loss": 1.0333, "step": 9152 }, { "epoch": 2.08816, "grad_norm": 0.023311836949323074, "learning_rate": 0.0001, "loss": 0.9936, "step": 9153 }, { "epoch": 2.0882133333333335, "grad_norm": 0.025365656318026963, "learning_rate": 0.0001, "loss": 0.9807, "step": 9154 }, { "epoch": 2.0882666666666667, "grad_norm": 0.0225621415181967, "learning_rate": 0.0001, "loss": 0.9438, "step": 9155 }, { "epoch": 2.08832, "grad_norm": 0.02378649008957864, "learning_rate": 0.0001, "loss": 0.9499, "step": 9156 }, { "epoch": 2.088373333333333, "grad_norm": 0.023628831712844134, "learning_rate": 0.0001, "loss": 0.9568, "step": 9157 }, { "epoch": 2.088426666666667, "grad_norm": 0.022925132665392894, "learning_rate": 0.0001, "loss": 0.9644, "step": 9158 }, { "epoch": 2.08848, "grad_norm": 0.02243026376755928, "learning_rate": 0.0001, "loss": 0.9643, "step": 9159 }, { "epoch": 2.0885333333333334, "grad_norm": 0.024501106632319067, "learning_rate": 0.0001, "loss": 0.9538, "step": 9160 }, { "epoch": 2.0885866666666666, "grad_norm": 0.023136856409955508, "learning_rate": 0.0001, "loss": 0.9826, "step": 9161 }, { "epoch": 2.08864, "grad_norm": 0.024100983183310158, "learning_rate": 0.0001, "loss": 0.9671, "step": 9162 }, { "epoch": 2.0886933333333335, "grad_norm": 0.025152346103867823, "learning_rate": 0.0001, "loss": 0.9629, "step": 9163 }, { "epoch": 2.0887466666666668, "grad_norm": 0.024509680270246297, "learning_rate": 0.0001, "loss": 0.9483, "step": 9164 }, { "epoch": 2.0888, "grad_norm": 0.024059358699883474, "learning_rate": 0.0001, "loss": 1.0503, "step": 9165 }, { "epoch": 2.0888533333333332, "grad_norm": 0.02273673830964979, "learning_rate": 0.0001, "loss": 0.978, "step": 9166 }, { "epoch": 2.0889066666666665, "grad_norm": 0.024393756271096783, "learning_rate": 0.0001, "loss": 0.8936, "step": 9167 }, { "epoch": 2.08896, "grad_norm": 0.023325890114332, "learning_rate": 0.0001, "loss": 0.9561, "step": 9168 }, { "epoch": 2.0890133333333334, "grad_norm": 0.022726897112801396, "learning_rate": 0.0001, "loss": 0.9677, "step": 9169 }, { "epoch": 2.0890666666666666, "grad_norm": 0.022582727499761555, "learning_rate": 0.0001, "loss": 0.8772, "step": 9170 }, { "epoch": 2.08912, "grad_norm": 0.02349748454807148, "learning_rate": 0.0001, "loss": 0.9761, "step": 9171 }, { "epoch": 2.089173333333333, "grad_norm": 0.022534942069530137, "learning_rate": 0.0001, "loss": 1.0431, "step": 9172 }, { "epoch": 2.089226666666667, "grad_norm": 0.022475489347877423, "learning_rate": 0.0001, "loss": 0.9087, "step": 9173 }, { "epoch": 2.08928, "grad_norm": 0.022489338714514386, "learning_rate": 0.0001, "loss": 0.9251, "step": 9174 }, { "epoch": 2.0893333333333333, "grad_norm": 0.02248894117311609, "learning_rate": 0.0001, "loss": 0.9861, "step": 9175 }, { "epoch": 2.0893866666666665, "grad_norm": 0.022132776109895606, "learning_rate": 0.0001, "loss": 0.9152, "step": 9176 }, { "epoch": 2.08944, "grad_norm": 0.023653706715421313, "learning_rate": 0.0001, "loss": 0.9291, "step": 9177 }, { "epoch": 2.0894933333333334, "grad_norm": 0.024167451119653748, "learning_rate": 0.0001, "loss": 0.9388, "step": 9178 }, { "epoch": 2.0895466666666667, "grad_norm": 0.0244017038843601, "learning_rate": 0.0001, "loss": 1.0441, "step": 9179 }, { "epoch": 2.0896, "grad_norm": 0.021811053936345016, "learning_rate": 0.0001, "loss": 0.9436, "step": 9180 }, { "epoch": 2.089653333333333, "grad_norm": 0.024250869392779203, "learning_rate": 0.0001, "loss": 0.9213, "step": 9181 }, { "epoch": 2.089706666666667, "grad_norm": 0.02234319434204407, "learning_rate": 0.0001, "loss": 0.8864, "step": 9182 }, { "epoch": 2.08976, "grad_norm": 0.02407182743721561, "learning_rate": 0.0001, "loss": 0.9995, "step": 9183 }, { "epoch": 2.0898133333333333, "grad_norm": 0.024262552247102578, "learning_rate": 0.0001, "loss": 0.9805, "step": 9184 }, { "epoch": 2.0898666666666665, "grad_norm": 0.023178578745170545, "learning_rate": 0.0001, "loss": 0.9619, "step": 9185 }, { "epoch": 2.08992, "grad_norm": 0.02381485916608154, "learning_rate": 0.0001, "loss": 0.9428, "step": 9186 }, { "epoch": 2.0899733333333335, "grad_norm": 0.023810873466638002, "learning_rate": 0.0001, "loss": 0.9637, "step": 9187 }, { "epoch": 2.0900266666666667, "grad_norm": 0.02954173184954204, "learning_rate": 0.0001, "loss": 1.0108, "step": 9188 }, { "epoch": 2.09008, "grad_norm": 0.02589370797010266, "learning_rate": 0.0001, "loss": 0.9249, "step": 9189 }, { "epoch": 2.090133333333333, "grad_norm": 0.027278889362090726, "learning_rate": 0.0001, "loss": 0.9429, "step": 9190 }, { "epoch": 2.090186666666667, "grad_norm": 0.024052031464585018, "learning_rate": 0.0001, "loss": 1.0071, "step": 9191 }, { "epoch": 2.09024, "grad_norm": 0.024599123385071874, "learning_rate": 0.0001, "loss": 0.9405, "step": 9192 }, { "epoch": 2.0902933333333333, "grad_norm": 0.024025557602902474, "learning_rate": 0.0001, "loss": 0.978, "step": 9193 }, { "epoch": 2.0903466666666666, "grad_norm": 0.02397143974587416, "learning_rate": 0.0001, "loss": 0.9713, "step": 9194 }, { "epoch": 2.0904, "grad_norm": 0.024857363884276718, "learning_rate": 0.0001, "loss": 1.0204, "step": 9195 }, { "epoch": 2.0904533333333335, "grad_norm": 0.023848751345108686, "learning_rate": 0.0001, "loss": 1.0077, "step": 9196 }, { "epoch": 2.0905066666666667, "grad_norm": 0.02530453619549741, "learning_rate": 0.0001, "loss": 0.954, "step": 9197 }, { "epoch": 2.09056, "grad_norm": 0.024366278944529186, "learning_rate": 0.0001, "loss": 0.9781, "step": 9198 }, { "epoch": 2.090613333333333, "grad_norm": 0.02633363238570736, "learning_rate": 0.0001, "loss": 0.9274, "step": 9199 }, { "epoch": 2.0906666666666665, "grad_norm": 0.02278590366132861, "learning_rate": 0.0001, "loss": 0.9544, "step": 9200 }, { "epoch": 2.0906666666666665, "eval_accuracy": 0.6207022322448051, "eval_loss": 1.3514800071716309, "eval_runtime": 62.9137, "eval_samples_per_second": 15.895, "eval_steps_per_second": 0.509, "step": 9200 }, { "epoch": 2.09072, "grad_norm": 0.023673021969888266, "learning_rate": 0.0001, "loss": 0.9598, "step": 9201 }, { "epoch": 2.0907733333333334, "grad_norm": 0.0243030337158512, "learning_rate": 0.0001, "loss": 0.9427, "step": 9202 }, { "epoch": 2.0908266666666666, "grad_norm": 0.023580518773378738, "learning_rate": 0.0001, "loss": 1.0156, "step": 9203 }, { "epoch": 2.09088, "grad_norm": 0.023547100724177376, "learning_rate": 0.0001, "loss": 0.9851, "step": 9204 }, { "epoch": 2.0909333333333335, "grad_norm": 0.024319568932897648, "learning_rate": 0.0001, "loss": 0.9904, "step": 9205 }, { "epoch": 2.0909866666666668, "grad_norm": 0.02639729884964668, "learning_rate": 0.0001, "loss": 0.9679, "step": 9206 }, { "epoch": 2.09104, "grad_norm": 0.02711275432021942, "learning_rate": 0.0001, "loss": 1.0005, "step": 9207 }, { "epoch": 2.0910933333333332, "grad_norm": 0.026486398990002512, "learning_rate": 0.0001, "loss": 0.9673, "step": 9208 }, { "epoch": 2.0911466666666665, "grad_norm": 0.026925562213840425, "learning_rate": 0.0001, "loss": 0.992, "step": 9209 }, { "epoch": 2.0912, "grad_norm": 0.02428536269282137, "learning_rate": 0.0001, "loss": 0.9282, "step": 9210 }, { "epoch": 2.0912533333333334, "grad_norm": 0.025378618915158375, "learning_rate": 0.0001, "loss": 1.0058, "step": 9211 }, { "epoch": 2.0913066666666666, "grad_norm": 0.02412719226761102, "learning_rate": 0.0001, "loss": 0.9021, "step": 9212 }, { "epoch": 2.09136, "grad_norm": 0.022883219859625242, "learning_rate": 0.0001, "loss": 0.9621, "step": 9213 }, { "epoch": 2.091413333333333, "grad_norm": 0.02595297496256065, "learning_rate": 0.0001, "loss": 0.9525, "step": 9214 }, { "epoch": 2.091466666666667, "grad_norm": 0.02413995856531258, "learning_rate": 0.0001, "loss": 0.8972, "step": 9215 }, { "epoch": 2.09152, "grad_norm": 0.024456388146097574, "learning_rate": 0.0001, "loss": 0.9314, "step": 9216 }, { "epoch": 2.0915733333333333, "grad_norm": 0.025192279345177034, "learning_rate": 0.0001, "loss": 0.9567, "step": 9217 }, { "epoch": 2.0916266666666665, "grad_norm": 0.02430626291335282, "learning_rate": 0.0001, "loss": 0.96, "step": 9218 }, { "epoch": 2.09168, "grad_norm": 0.022624737693439048, "learning_rate": 0.0001, "loss": 0.9598, "step": 9219 }, { "epoch": 2.0917333333333334, "grad_norm": 0.02626969022360596, "learning_rate": 0.0001, "loss": 0.9763, "step": 9220 }, { "epoch": 2.0917866666666667, "grad_norm": 0.02345399362325379, "learning_rate": 0.0001, "loss": 0.9783, "step": 9221 }, { "epoch": 2.09184, "grad_norm": 0.025515607276410487, "learning_rate": 0.0001, "loss": 0.9482, "step": 9222 }, { "epoch": 2.091893333333333, "grad_norm": 0.023328193254878896, "learning_rate": 0.0001, "loss": 0.9504, "step": 9223 }, { "epoch": 2.091946666666667, "grad_norm": 0.025261877662589843, "learning_rate": 0.0001, "loss": 0.9356, "step": 9224 }, { "epoch": 2.092, "grad_norm": 0.02379780146555644, "learning_rate": 0.0001, "loss": 1.0354, "step": 9225 }, { "epoch": 2.0920533333333333, "grad_norm": 0.024254253005841053, "learning_rate": 0.0001, "loss": 0.9428, "step": 9226 }, { "epoch": 2.0921066666666666, "grad_norm": 0.024883620800339536, "learning_rate": 0.0001, "loss": 0.9273, "step": 9227 }, { "epoch": 2.09216, "grad_norm": 0.024671992320537416, "learning_rate": 0.0001, "loss": 1.0045, "step": 9228 }, { "epoch": 2.0922133333333335, "grad_norm": 0.024789907673569256, "learning_rate": 0.0001, "loss": 0.9558, "step": 9229 }, { "epoch": 2.0922666666666667, "grad_norm": 0.025086460421317364, "learning_rate": 0.0001, "loss": 0.9555, "step": 9230 }, { "epoch": 2.09232, "grad_norm": 0.024235137992882405, "learning_rate": 0.0001, "loss": 0.99, "step": 9231 }, { "epoch": 2.092373333333333, "grad_norm": 0.02375415805422163, "learning_rate": 0.0001, "loss": 0.9866, "step": 9232 }, { "epoch": 2.092426666666667, "grad_norm": 0.024605811278349116, "learning_rate": 0.0001, "loss": 0.9282, "step": 9233 }, { "epoch": 2.09248, "grad_norm": 0.02255750828290023, "learning_rate": 0.0001, "loss": 0.9073, "step": 9234 }, { "epoch": 2.0925333333333334, "grad_norm": 0.025460087511927975, "learning_rate": 0.0001, "loss": 0.9705, "step": 9235 }, { "epoch": 2.0925866666666666, "grad_norm": 0.026419212731314545, "learning_rate": 0.0001, "loss": 0.9411, "step": 9236 }, { "epoch": 2.09264, "grad_norm": 0.02386336761477542, "learning_rate": 0.0001, "loss": 0.9346, "step": 9237 }, { "epoch": 2.0926933333333335, "grad_norm": 0.025193294168809874, "learning_rate": 0.0001, "loss": 0.9245, "step": 9238 }, { "epoch": 2.0927466666666668, "grad_norm": 0.02414621466062462, "learning_rate": 0.0001, "loss": 1.0003, "step": 9239 }, { "epoch": 2.0928, "grad_norm": 0.02250306366685288, "learning_rate": 0.0001, "loss": 0.963, "step": 9240 }, { "epoch": 2.0928533333333332, "grad_norm": 0.024555751690468947, "learning_rate": 0.0001, "loss": 0.9945, "step": 9241 }, { "epoch": 2.0929066666666665, "grad_norm": 0.026493175364501017, "learning_rate": 0.0001, "loss": 0.9678, "step": 9242 }, { "epoch": 2.09296, "grad_norm": 0.02482067187457183, "learning_rate": 0.0001, "loss": 0.9868, "step": 9243 }, { "epoch": 2.0930133333333334, "grad_norm": 0.021989624375251638, "learning_rate": 0.0001, "loss": 0.957, "step": 9244 }, { "epoch": 2.0930666666666666, "grad_norm": 0.02416314256792942, "learning_rate": 0.0001, "loss": 0.9812, "step": 9245 }, { "epoch": 2.09312, "grad_norm": 0.025564423162818116, "learning_rate": 0.0001, "loss": 1.0175, "step": 9246 }, { "epoch": 2.0931733333333336, "grad_norm": 0.02492469591355613, "learning_rate": 0.0001, "loss": 0.9465, "step": 9247 }, { "epoch": 2.093226666666667, "grad_norm": 0.02239564516888999, "learning_rate": 0.0001, "loss": 0.9458, "step": 9248 }, { "epoch": 2.09328, "grad_norm": 0.024460705377584758, "learning_rate": 0.0001, "loss": 0.9668, "step": 9249 }, { "epoch": 2.0933333333333333, "grad_norm": 0.024326687469127698, "learning_rate": 0.0001, "loss": 0.9894, "step": 9250 }, { "epoch": 2.0933866666666665, "grad_norm": 0.025139148638176876, "learning_rate": 0.0001, "loss": 0.9987, "step": 9251 }, { "epoch": 2.09344, "grad_norm": 0.023371113275365122, "learning_rate": 0.0001, "loss": 0.9789, "step": 9252 }, { "epoch": 2.0934933333333334, "grad_norm": 0.026492962097379256, "learning_rate": 0.0001, "loss": 1.0071, "step": 9253 }, { "epoch": 2.0935466666666667, "grad_norm": 0.024360646269253886, "learning_rate": 0.0001, "loss": 0.9935, "step": 9254 }, { "epoch": 2.0936, "grad_norm": 0.021918092966497698, "learning_rate": 0.0001, "loss": 0.9612, "step": 9255 }, { "epoch": 2.093653333333333, "grad_norm": 0.02352613065071253, "learning_rate": 0.0001, "loss": 0.9903, "step": 9256 }, { "epoch": 2.093706666666667, "grad_norm": 0.022542982212570808, "learning_rate": 0.0001, "loss": 0.9108, "step": 9257 }, { "epoch": 2.09376, "grad_norm": 0.023456167731854105, "learning_rate": 0.0001, "loss": 0.9631, "step": 9258 }, { "epoch": 2.0938133333333333, "grad_norm": 0.023933759200491702, "learning_rate": 0.0001, "loss": 0.9087, "step": 9259 }, { "epoch": 2.0938666666666665, "grad_norm": 0.02481434019497739, "learning_rate": 0.0001, "loss": 0.9607, "step": 9260 }, { "epoch": 2.09392, "grad_norm": 0.024057336132992078, "learning_rate": 0.0001, "loss": 0.9965, "step": 9261 }, { "epoch": 2.0939733333333335, "grad_norm": 0.02645081872591661, "learning_rate": 0.0001, "loss": 1.0125, "step": 9262 }, { "epoch": 2.0940266666666667, "grad_norm": 0.025697328904183674, "learning_rate": 0.0001, "loss": 0.9612, "step": 9263 }, { "epoch": 2.09408, "grad_norm": 0.024515119599377536, "learning_rate": 0.0001, "loss": 0.9916, "step": 9264 }, { "epoch": 2.094133333333333, "grad_norm": 0.02252679033411646, "learning_rate": 0.0001, "loss": 0.9482, "step": 9265 }, { "epoch": 2.094186666666667, "grad_norm": 0.02518388432391877, "learning_rate": 0.0001, "loss": 0.9392, "step": 9266 }, { "epoch": 2.09424, "grad_norm": 0.024562866679605316, "learning_rate": 0.0001, "loss": 0.8975, "step": 9267 }, { "epoch": 2.0942933333333333, "grad_norm": 0.02416288074416521, "learning_rate": 0.0001, "loss": 1.0285, "step": 9268 }, { "epoch": 2.0943466666666666, "grad_norm": 0.02365725956545249, "learning_rate": 0.0001, "loss": 0.9022, "step": 9269 }, { "epoch": 2.0944, "grad_norm": 0.023307697965288036, "learning_rate": 0.0001, "loss": 0.9176, "step": 9270 }, { "epoch": 2.0944533333333335, "grad_norm": 0.0236994321101022, "learning_rate": 0.0001, "loss": 0.9992, "step": 9271 }, { "epoch": 2.0945066666666667, "grad_norm": 0.024282655181487568, "learning_rate": 0.0001, "loss": 0.9056, "step": 9272 }, { "epoch": 2.09456, "grad_norm": 0.022884592231203867, "learning_rate": 0.0001, "loss": 0.9863, "step": 9273 }, { "epoch": 2.094613333333333, "grad_norm": 0.028996517544228724, "learning_rate": 0.0001, "loss": 0.9398, "step": 9274 }, { "epoch": 2.0946666666666665, "grad_norm": 0.024031003992670153, "learning_rate": 0.0001, "loss": 0.9375, "step": 9275 }, { "epoch": 2.09472, "grad_norm": 0.024899581163175324, "learning_rate": 0.0001, "loss": 0.9412, "step": 9276 }, { "epoch": 2.0947733333333334, "grad_norm": 0.02369705635099272, "learning_rate": 0.0001, "loss": 0.9792, "step": 9277 }, { "epoch": 2.0948266666666666, "grad_norm": 0.02497114738902675, "learning_rate": 0.0001, "loss": 0.8758, "step": 9278 }, { "epoch": 2.09488, "grad_norm": 0.02511201233835456, "learning_rate": 0.0001, "loss": 0.9752, "step": 9279 }, { "epoch": 2.0949333333333335, "grad_norm": 0.024601343503314266, "learning_rate": 0.0001, "loss": 0.9237, "step": 9280 }, { "epoch": 2.0949866666666668, "grad_norm": 0.024533459324468734, "learning_rate": 0.0001, "loss": 0.9665, "step": 9281 }, { "epoch": 2.09504, "grad_norm": 0.02469613819569884, "learning_rate": 0.0001, "loss": 0.9571, "step": 9282 }, { "epoch": 2.0950933333333333, "grad_norm": 0.022662980351904467, "learning_rate": 0.0001, "loss": 0.9604, "step": 9283 }, { "epoch": 2.0951466666666665, "grad_norm": 0.0238494879009768, "learning_rate": 0.0001, "loss": 0.9437, "step": 9284 }, { "epoch": 2.0952, "grad_norm": 0.02218483274440505, "learning_rate": 0.0001, "loss": 0.942, "step": 9285 }, { "epoch": 2.0952533333333334, "grad_norm": 0.022288191924591697, "learning_rate": 0.0001, "loss": 0.8906, "step": 9286 }, { "epoch": 2.0953066666666667, "grad_norm": 0.025167915814781523, "learning_rate": 0.0001, "loss": 0.8984, "step": 9287 }, { "epoch": 2.09536, "grad_norm": 0.02441055056997549, "learning_rate": 0.0001, "loss": 1.005, "step": 9288 }, { "epoch": 2.095413333333333, "grad_norm": 0.022980885284802664, "learning_rate": 0.0001, "loss": 0.9566, "step": 9289 }, { "epoch": 2.095466666666667, "grad_norm": 0.024854361830772925, "learning_rate": 0.0001, "loss": 0.9451, "step": 9290 }, { "epoch": 2.09552, "grad_norm": 0.02566286304848216, "learning_rate": 0.0001, "loss": 0.9759, "step": 9291 }, { "epoch": 2.0955733333333333, "grad_norm": 0.025137081465372538, "learning_rate": 0.0001, "loss": 0.9689, "step": 9292 }, { "epoch": 2.0956266666666665, "grad_norm": 0.024014267454658414, "learning_rate": 0.0001, "loss": 0.9774, "step": 9293 }, { "epoch": 2.09568, "grad_norm": 0.024651905146708956, "learning_rate": 0.0001, "loss": 0.9397, "step": 9294 }, { "epoch": 2.0957333333333334, "grad_norm": 0.02357589233000887, "learning_rate": 0.0001, "loss": 0.9941, "step": 9295 }, { "epoch": 2.0957866666666667, "grad_norm": 0.025078595768167723, "learning_rate": 0.0001, "loss": 0.9125, "step": 9296 }, { "epoch": 2.09584, "grad_norm": 0.02506113654160896, "learning_rate": 0.0001, "loss": 0.9655, "step": 9297 }, { "epoch": 2.095893333333333, "grad_norm": 0.025508001923139935, "learning_rate": 0.0001, "loss": 0.9276, "step": 9298 }, { "epoch": 2.095946666666667, "grad_norm": 0.024100738442334818, "learning_rate": 0.0001, "loss": 1.001, "step": 9299 }, { "epoch": 2.096, "grad_norm": 0.02355491469713443, "learning_rate": 0.0001, "loss": 0.9648, "step": 9300 }, { "epoch": 2.0960533333333333, "grad_norm": 0.024511275914418516, "learning_rate": 0.0001, "loss": 0.9255, "step": 9301 }, { "epoch": 2.0961066666666666, "grad_norm": 0.025091610086532126, "learning_rate": 0.0001, "loss": 0.9495, "step": 9302 }, { "epoch": 2.09616, "grad_norm": 0.023806330181489397, "learning_rate": 0.0001, "loss": 0.967, "step": 9303 }, { "epoch": 2.0962133333333335, "grad_norm": 0.022738020833448874, "learning_rate": 0.0001, "loss": 0.9132, "step": 9304 }, { "epoch": 2.0962666666666667, "grad_norm": 0.023855588434957543, "learning_rate": 0.0001, "loss": 0.9583, "step": 9305 }, { "epoch": 2.09632, "grad_norm": 0.0243588829260441, "learning_rate": 0.0001, "loss": 0.9961, "step": 9306 }, { "epoch": 2.096373333333333, "grad_norm": 0.023816135081644117, "learning_rate": 0.0001, "loss": 0.9348, "step": 9307 }, { "epoch": 2.096426666666667, "grad_norm": 0.023719196957390314, "learning_rate": 0.0001, "loss": 0.9691, "step": 9308 }, { "epoch": 2.09648, "grad_norm": 0.024531694324963053, "learning_rate": 0.0001, "loss": 0.9543, "step": 9309 }, { "epoch": 2.0965333333333334, "grad_norm": 0.025199223622214235, "learning_rate": 0.0001, "loss": 0.9715, "step": 9310 }, { "epoch": 2.0965866666666666, "grad_norm": 0.024820364299623206, "learning_rate": 0.0001, "loss": 0.9608, "step": 9311 }, { "epoch": 2.09664, "grad_norm": 0.025806103794436302, "learning_rate": 0.0001, "loss": 0.9617, "step": 9312 }, { "epoch": 2.0966933333333335, "grad_norm": 0.02615924678936425, "learning_rate": 0.0001, "loss": 0.9621, "step": 9313 }, { "epoch": 2.0967466666666668, "grad_norm": 0.022644789032377047, "learning_rate": 0.0001, "loss": 0.911, "step": 9314 }, { "epoch": 2.0968, "grad_norm": 0.023735145139329283, "learning_rate": 0.0001, "loss": 0.9683, "step": 9315 }, { "epoch": 2.0968533333333332, "grad_norm": 0.02334757414747277, "learning_rate": 0.0001, "loss": 0.9439, "step": 9316 }, { "epoch": 2.0969066666666665, "grad_norm": 0.023722767701135794, "learning_rate": 0.0001, "loss": 0.927, "step": 9317 }, { "epoch": 2.09696, "grad_norm": 0.025687775674475867, "learning_rate": 0.0001, "loss": 0.9797, "step": 9318 }, { "epoch": 2.0970133333333334, "grad_norm": 0.022371200018166792, "learning_rate": 0.0001, "loss": 0.9519, "step": 9319 }, { "epoch": 2.0970666666666666, "grad_norm": 0.02220673182729142, "learning_rate": 0.0001, "loss": 0.9817, "step": 9320 }, { "epoch": 2.09712, "grad_norm": 0.023086552969235636, "learning_rate": 0.0001, "loss": 0.9413, "step": 9321 }, { "epoch": 2.097173333333333, "grad_norm": 0.0235259236357612, "learning_rate": 0.0001, "loss": 0.9861, "step": 9322 }, { "epoch": 2.097226666666667, "grad_norm": 0.02417997971176397, "learning_rate": 0.0001, "loss": 0.9445, "step": 9323 }, { "epoch": 2.09728, "grad_norm": 0.022639562095551197, "learning_rate": 0.0001, "loss": 1.0303, "step": 9324 }, { "epoch": 2.0973333333333333, "grad_norm": 0.025184389269612324, "learning_rate": 0.0001, "loss": 0.9935, "step": 9325 }, { "epoch": 2.0973866666666665, "grad_norm": 0.024162691048704374, "learning_rate": 0.0001, "loss": 0.9619, "step": 9326 }, { "epoch": 2.09744, "grad_norm": 0.022759063322672076, "learning_rate": 0.0001, "loss": 0.9762, "step": 9327 }, { "epoch": 2.0974933333333334, "grad_norm": 0.02309210096500775, "learning_rate": 0.0001, "loss": 0.9854, "step": 9328 }, { "epoch": 2.0975466666666667, "grad_norm": 0.022709643033349592, "learning_rate": 0.0001, "loss": 0.949, "step": 9329 }, { "epoch": 2.0976, "grad_norm": 0.02429255312115088, "learning_rate": 0.0001, "loss": 0.9683, "step": 9330 }, { "epoch": 2.097653333333333, "grad_norm": 0.02206791603251222, "learning_rate": 0.0001, "loss": 1.0174, "step": 9331 }, { "epoch": 2.097706666666667, "grad_norm": 0.022925850553015048, "learning_rate": 0.0001, "loss": 0.953, "step": 9332 }, { "epoch": 2.09776, "grad_norm": 0.023154010880210775, "learning_rate": 0.0001, "loss": 0.9765, "step": 9333 }, { "epoch": 2.0978133333333333, "grad_norm": 0.02420893009107783, "learning_rate": 0.0001, "loss": 0.9949, "step": 9334 }, { "epoch": 2.0978666666666665, "grad_norm": 0.02350051962354703, "learning_rate": 0.0001, "loss": 1.0238, "step": 9335 }, { "epoch": 2.09792, "grad_norm": 0.022672160086967628, "learning_rate": 0.0001, "loss": 0.9943, "step": 9336 }, { "epoch": 2.0979733333333335, "grad_norm": 0.023634542108429375, "learning_rate": 0.0001, "loss": 0.9655, "step": 9337 }, { "epoch": 2.0980266666666667, "grad_norm": 0.024542626608618664, "learning_rate": 0.0001, "loss": 0.9547, "step": 9338 }, { "epoch": 2.09808, "grad_norm": 0.02447664138961189, "learning_rate": 0.0001, "loss": 0.9372, "step": 9339 }, { "epoch": 2.098133333333333, "grad_norm": 0.023525400748515037, "learning_rate": 0.0001, "loss": 0.9623, "step": 9340 }, { "epoch": 2.098186666666667, "grad_norm": 0.024489525998751503, "learning_rate": 0.0001, "loss": 1.0446, "step": 9341 }, { "epoch": 2.09824, "grad_norm": 0.022639467204392905, "learning_rate": 0.0001, "loss": 0.9399, "step": 9342 }, { "epoch": 2.0982933333333333, "grad_norm": 0.023079873701134658, "learning_rate": 0.0001, "loss": 0.9823, "step": 9343 }, { "epoch": 2.0983466666666666, "grad_norm": 0.024034151549518594, "learning_rate": 0.0001, "loss": 1.0059, "step": 9344 }, { "epoch": 2.0984, "grad_norm": 0.023601719186629594, "learning_rate": 0.0001, "loss": 1.0037, "step": 9345 }, { "epoch": 2.0984533333333335, "grad_norm": 0.024422584378638375, "learning_rate": 0.0001, "loss": 1.0068, "step": 9346 }, { "epoch": 2.0985066666666667, "grad_norm": 0.027552291363198235, "learning_rate": 0.0001, "loss": 1.0095, "step": 9347 }, { "epoch": 2.09856, "grad_norm": 0.022494217576548885, "learning_rate": 0.0001, "loss": 0.9503, "step": 9348 }, { "epoch": 2.098613333333333, "grad_norm": 0.02193935385135902, "learning_rate": 0.0001, "loss": 0.9523, "step": 9349 }, { "epoch": 2.0986666666666665, "grad_norm": 0.027196092559741803, "learning_rate": 0.0001, "loss": 0.9842, "step": 9350 }, { "epoch": 2.09872, "grad_norm": 0.02430588230683864, "learning_rate": 0.0001, "loss": 0.9555, "step": 9351 }, { "epoch": 2.0987733333333334, "grad_norm": 0.02376101072027126, "learning_rate": 0.0001, "loss": 0.92, "step": 9352 }, { "epoch": 2.0988266666666666, "grad_norm": 0.023626506889473164, "learning_rate": 0.0001, "loss": 0.9427, "step": 9353 }, { "epoch": 2.09888, "grad_norm": 0.023052661714786385, "learning_rate": 0.0001, "loss": 0.9535, "step": 9354 }, { "epoch": 2.0989333333333335, "grad_norm": 0.024503356095813673, "learning_rate": 0.0001, "loss": 0.9982, "step": 9355 }, { "epoch": 2.098986666666667, "grad_norm": 0.022619904260227735, "learning_rate": 0.0001, "loss": 1.0003, "step": 9356 }, { "epoch": 2.09904, "grad_norm": 0.026719641494744144, "learning_rate": 0.0001, "loss": 0.9157, "step": 9357 }, { "epoch": 2.0990933333333333, "grad_norm": 0.02312760812901856, "learning_rate": 0.0001, "loss": 0.9565, "step": 9358 }, { "epoch": 2.0991466666666665, "grad_norm": 0.022332923529696336, "learning_rate": 0.0001, "loss": 0.9423, "step": 9359 }, { "epoch": 2.0992, "grad_norm": 0.02348239077241512, "learning_rate": 0.0001, "loss": 0.9515, "step": 9360 }, { "epoch": 2.0992533333333334, "grad_norm": 0.025151542946478426, "learning_rate": 0.0001, "loss": 0.9328, "step": 9361 }, { "epoch": 2.0993066666666667, "grad_norm": 0.022963192692135197, "learning_rate": 0.0001, "loss": 0.9616, "step": 9362 }, { "epoch": 2.09936, "grad_norm": 0.024813255008311604, "learning_rate": 0.0001, "loss": 0.9731, "step": 9363 }, { "epoch": 2.099413333333333, "grad_norm": 0.02536773004119846, "learning_rate": 0.0001, "loss": 0.8997, "step": 9364 }, { "epoch": 2.099466666666667, "grad_norm": 0.023708192628971964, "learning_rate": 0.0001, "loss": 0.9183, "step": 9365 }, { "epoch": 2.09952, "grad_norm": 0.022879063831807257, "learning_rate": 0.0001, "loss": 0.9792, "step": 9366 }, { "epoch": 2.0995733333333333, "grad_norm": 0.022866630233813516, "learning_rate": 0.0001, "loss": 0.9461, "step": 9367 }, { "epoch": 2.0996266666666665, "grad_norm": 0.024089852901281544, "learning_rate": 0.0001, "loss": 0.9773, "step": 9368 }, { "epoch": 2.09968, "grad_norm": 0.02327304209665751, "learning_rate": 0.0001, "loss": 1.0261, "step": 9369 }, { "epoch": 2.0997333333333335, "grad_norm": 0.02385709578859501, "learning_rate": 0.0001, "loss": 0.9367, "step": 9370 }, { "epoch": 2.0997866666666667, "grad_norm": 0.02432921825339004, "learning_rate": 0.0001, "loss": 0.941, "step": 9371 }, { "epoch": 2.09984, "grad_norm": 0.02342700936060369, "learning_rate": 0.0001, "loss": 0.9591, "step": 9372 }, { "epoch": 2.099893333333333, "grad_norm": 0.02480005453417022, "learning_rate": 0.0001, "loss": 0.9528, "step": 9373 }, { "epoch": 2.099946666666667, "grad_norm": 0.024363188305722542, "learning_rate": 0.0001, "loss": 1.0116, "step": 9374 }, { "epoch": 2.1, "grad_norm": 0.02322086610515233, "learning_rate": 0.0001, "loss": 0.9643, "step": 9375 }, { "epoch": 2.1000533333333333, "grad_norm": 0.023435632589782398, "learning_rate": 0.0001, "loss": 0.9845, "step": 9376 }, { "epoch": 2.1001066666666666, "grad_norm": 0.02391274993441289, "learning_rate": 0.0001, "loss": 0.959, "step": 9377 }, { "epoch": 2.10016, "grad_norm": 0.024496698034859942, "learning_rate": 0.0001, "loss": 0.9639, "step": 9378 }, { "epoch": 2.1002133333333335, "grad_norm": 0.025241323239010766, "learning_rate": 0.0001, "loss": 0.985, "step": 9379 }, { "epoch": 2.1002666666666667, "grad_norm": 0.022748427693877502, "learning_rate": 0.0001, "loss": 0.9811, "step": 9380 }, { "epoch": 2.10032, "grad_norm": 0.023576724295643104, "learning_rate": 0.0001, "loss": 1.013, "step": 9381 }, { "epoch": 2.100373333333333, "grad_norm": 0.022761753016078197, "learning_rate": 0.0001, "loss": 0.9497, "step": 9382 }, { "epoch": 2.1004266666666664, "grad_norm": 0.02369666462427787, "learning_rate": 0.0001, "loss": 1.0395, "step": 9383 }, { "epoch": 2.10048, "grad_norm": 0.02320929868370111, "learning_rate": 0.0001, "loss": 0.9662, "step": 9384 }, { "epoch": 2.1005333333333334, "grad_norm": 0.025040705391912214, "learning_rate": 0.0001, "loss": 1.0177, "step": 9385 }, { "epoch": 2.1005866666666666, "grad_norm": 0.024131213985704083, "learning_rate": 0.0001, "loss": 0.9365, "step": 9386 }, { "epoch": 2.10064, "grad_norm": 0.024569547007526345, "learning_rate": 0.0001, "loss": 0.9954, "step": 9387 }, { "epoch": 2.1006933333333335, "grad_norm": 0.0232760725042702, "learning_rate": 0.0001, "loss": 0.9764, "step": 9388 }, { "epoch": 2.1007466666666668, "grad_norm": 0.026158651352159466, "learning_rate": 0.0001, "loss": 0.9983, "step": 9389 }, { "epoch": 2.1008, "grad_norm": 0.024342598689928767, "learning_rate": 0.0001, "loss": 0.9422, "step": 9390 }, { "epoch": 2.1008533333333332, "grad_norm": 0.023940600879353967, "learning_rate": 0.0001, "loss": 0.9439, "step": 9391 }, { "epoch": 2.1009066666666665, "grad_norm": 0.026111842347972283, "learning_rate": 0.0001, "loss": 0.998, "step": 9392 }, { "epoch": 2.10096, "grad_norm": 0.02393997947795757, "learning_rate": 0.0001, "loss": 0.968, "step": 9393 }, { "epoch": 2.1010133333333334, "grad_norm": 0.024706762167330275, "learning_rate": 0.0001, "loss": 0.9541, "step": 9394 }, { "epoch": 2.1010666666666666, "grad_norm": 0.024701136554750088, "learning_rate": 0.0001, "loss": 0.9726, "step": 9395 }, { "epoch": 2.10112, "grad_norm": 0.025221521888816448, "learning_rate": 0.0001, "loss": 0.9372, "step": 9396 }, { "epoch": 2.1011733333333336, "grad_norm": 0.022501115545304946, "learning_rate": 0.0001, "loss": 0.9511, "step": 9397 }, { "epoch": 2.101226666666667, "grad_norm": 0.023049908859988713, "learning_rate": 0.0001, "loss": 0.9863, "step": 9398 }, { "epoch": 2.10128, "grad_norm": 0.027637996009826468, "learning_rate": 0.0001, "loss": 0.9594, "step": 9399 }, { "epoch": 2.1013333333333333, "grad_norm": 0.02570834330749103, "learning_rate": 0.0001, "loss": 0.9518, "step": 9400 }, { "epoch": 2.1013333333333333, "eval_accuracy": 0.6208565846908368, "eval_loss": 1.3507401943206787, "eval_runtime": 63.3804, "eval_samples_per_second": 15.778, "eval_steps_per_second": 0.505, "step": 9400 }, { "epoch": 2.1013866666666665, "grad_norm": 0.02400144657911198, "learning_rate": 0.0001, "loss": 0.9161, "step": 9401 }, { "epoch": 2.10144, "grad_norm": 0.0230809112535024, "learning_rate": 0.0001, "loss": 0.9176, "step": 9402 }, { "epoch": 2.1014933333333334, "grad_norm": 0.026327408029976088, "learning_rate": 0.0001, "loss": 0.9589, "step": 9403 }, { "epoch": 2.1015466666666667, "grad_norm": 0.023990095732275035, "learning_rate": 0.0001, "loss": 0.9374, "step": 9404 }, { "epoch": 2.1016, "grad_norm": 0.022591886138868332, "learning_rate": 0.0001, "loss": 0.9404, "step": 9405 }, { "epoch": 2.101653333333333, "grad_norm": 0.024041157828974483, "learning_rate": 0.0001, "loss": 0.9463, "step": 9406 }, { "epoch": 2.101706666666667, "grad_norm": 0.0258470828708486, "learning_rate": 0.0001, "loss": 0.9106, "step": 9407 }, { "epoch": 2.10176, "grad_norm": 0.024393095410767944, "learning_rate": 0.0001, "loss": 0.9193, "step": 9408 }, { "epoch": 2.1018133333333333, "grad_norm": 0.024480690385133178, "learning_rate": 0.0001, "loss": 0.9783, "step": 9409 }, { "epoch": 2.1018666666666665, "grad_norm": 0.025222691402368713, "learning_rate": 0.0001, "loss": 0.9438, "step": 9410 }, { "epoch": 2.10192, "grad_norm": 0.02361333733859403, "learning_rate": 0.0001, "loss": 1.0084, "step": 9411 }, { "epoch": 2.1019733333333335, "grad_norm": 0.023840004228082162, "learning_rate": 0.0001, "loss": 0.9797, "step": 9412 }, { "epoch": 2.1020266666666667, "grad_norm": 0.023795354549021746, "learning_rate": 0.0001, "loss": 1.0253, "step": 9413 }, { "epoch": 2.10208, "grad_norm": 0.02513648500209778, "learning_rate": 0.0001, "loss": 0.9607, "step": 9414 }, { "epoch": 2.102133333333333, "grad_norm": 0.024497237984755057, "learning_rate": 0.0001, "loss": 0.9942, "step": 9415 }, { "epoch": 2.102186666666667, "grad_norm": 0.024115321988863143, "learning_rate": 0.0001, "loss": 0.8594, "step": 9416 }, { "epoch": 2.10224, "grad_norm": 0.024812397527063036, "learning_rate": 0.0001, "loss": 0.9389, "step": 9417 }, { "epoch": 2.1022933333333333, "grad_norm": 0.02349931465063758, "learning_rate": 0.0001, "loss": 0.9671, "step": 9418 }, { "epoch": 2.1023466666666666, "grad_norm": 0.024524131693256984, "learning_rate": 0.0001, "loss": 0.9811, "step": 9419 }, { "epoch": 2.1024, "grad_norm": 0.022302805267236495, "learning_rate": 0.0001, "loss": 0.9948, "step": 9420 }, { "epoch": 2.1024533333333335, "grad_norm": 0.026408396098856344, "learning_rate": 0.0001, "loss": 0.9768, "step": 9421 }, { "epoch": 2.1025066666666667, "grad_norm": 0.023306495139262955, "learning_rate": 0.0001, "loss": 0.9743, "step": 9422 }, { "epoch": 2.10256, "grad_norm": 0.023044075462231067, "learning_rate": 0.0001, "loss": 0.9924, "step": 9423 }, { "epoch": 2.1026133333333332, "grad_norm": 0.02281833273837294, "learning_rate": 0.0001, "loss": 0.997, "step": 9424 }, { "epoch": 2.1026666666666665, "grad_norm": 0.024322037129839675, "learning_rate": 0.0001, "loss": 0.9414, "step": 9425 }, { "epoch": 2.10272, "grad_norm": 0.024938781606308025, "learning_rate": 0.0001, "loss": 0.9608, "step": 9426 }, { "epoch": 2.1027733333333334, "grad_norm": 0.023247062557966262, "learning_rate": 0.0001, "loss": 0.9706, "step": 9427 }, { "epoch": 2.1028266666666666, "grad_norm": 0.023482620419192173, "learning_rate": 0.0001, "loss": 1.0427, "step": 9428 }, { "epoch": 2.10288, "grad_norm": 0.025013755165805316, "learning_rate": 0.0001, "loss": 0.9856, "step": 9429 }, { "epoch": 2.1029333333333335, "grad_norm": 0.02251534045799156, "learning_rate": 0.0001, "loss": 1.0114, "step": 9430 }, { "epoch": 2.102986666666667, "grad_norm": 0.02556695646744126, "learning_rate": 0.0001, "loss": 0.9001, "step": 9431 }, { "epoch": 2.10304, "grad_norm": 0.023374454157177614, "learning_rate": 0.0001, "loss": 0.9911, "step": 9432 }, { "epoch": 2.1030933333333333, "grad_norm": 0.02399689893875119, "learning_rate": 0.0001, "loss": 1.0035, "step": 9433 }, { "epoch": 2.1031466666666665, "grad_norm": 0.024247065612318885, "learning_rate": 0.0001, "loss": 0.9951, "step": 9434 }, { "epoch": 2.1032, "grad_norm": 0.02180922373017202, "learning_rate": 0.0001, "loss": 0.942, "step": 9435 }, { "epoch": 2.1032533333333334, "grad_norm": 0.024309814750764044, "learning_rate": 0.0001, "loss": 0.9109, "step": 9436 }, { "epoch": 2.1033066666666667, "grad_norm": 0.023017433826086925, "learning_rate": 0.0001, "loss": 0.9761, "step": 9437 }, { "epoch": 2.10336, "grad_norm": 0.023438785731346543, "learning_rate": 0.0001, "loss": 0.9966, "step": 9438 }, { "epoch": 2.103413333333333, "grad_norm": 0.02378282293535924, "learning_rate": 0.0001, "loss": 0.9951, "step": 9439 }, { "epoch": 2.103466666666667, "grad_norm": 0.025091316782013966, "learning_rate": 0.0001, "loss": 1.0091, "step": 9440 }, { "epoch": 2.10352, "grad_norm": 0.022452604969418793, "learning_rate": 0.0001, "loss": 0.9292, "step": 9441 }, { "epoch": 2.1035733333333333, "grad_norm": 0.023402283974851574, "learning_rate": 0.0001, "loss": 0.9584, "step": 9442 }, { "epoch": 2.1036266666666665, "grad_norm": 0.025060524320623657, "learning_rate": 0.0001, "loss": 0.9582, "step": 9443 }, { "epoch": 2.1036799999999998, "grad_norm": 0.024331156023559612, "learning_rate": 0.0001, "loss": 0.9618, "step": 9444 }, { "epoch": 2.1037333333333335, "grad_norm": 0.023644161864584224, "learning_rate": 0.0001, "loss": 1.0007, "step": 9445 }, { "epoch": 2.1037866666666667, "grad_norm": 0.025950423151596527, "learning_rate": 0.0001, "loss": 0.9939, "step": 9446 }, { "epoch": 2.10384, "grad_norm": 0.024320569540121198, "learning_rate": 0.0001, "loss": 0.9709, "step": 9447 }, { "epoch": 2.103893333333333, "grad_norm": 0.024162584705960676, "learning_rate": 0.0001, "loss": 0.9145, "step": 9448 }, { "epoch": 2.103946666666667, "grad_norm": 0.023703665278965596, "learning_rate": 0.0001, "loss": 0.999, "step": 9449 }, { "epoch": 2.104, "grad_norm": 0.023903227371978256, "learning_rate": 0.0001, "loss": 0.9998, "step": 9450 }, { "epoch": 2.1040533333333333, "grad_norm": 0.024937529133977808, "learning_rate": 0.0001, "loss": 0.9911, "step": 9451 }, { "epoch": 2.1041066666666666, "grad_norm": 0.02299012829155882, "learning_rate": 0.0001, "loss": 0.9658, "step": 9452 }, { "epoch": 2.10416, "grad_norm": 0.024243143936613858, "learning_rate": 0.0001, "loss": 1.0067, "step": 9453 }, { "epoch": 2.1042133333333335, "grad_norm": 0.024187415933875595, "learning_rate": 0.0001, "loss": 0.9096, "step": 9454 }, { "epoch": 2.1042666666666667, "grad_norm": 0.02378398247503021, "learning_rate": 0.0001, "loss": 0.9533, "step": 9455 }, { "epoch": 2.10432, "grad_norm": 0.02356628084170158, "learning_rate": 0.0001, "loss": 0.9043, "step": 9456 }, { "epoch": 2.104373333333333, "grad_norm": 0.023052812666080672, "learning_rate": 0.0001, "loss": 0.9242, "step": 9457 }, { "epoch": 2.104426666666667, "grad_norm": 0.02463519594351753, "learning_rate": 0.0001, "loss": 0.9296, "step": 9458 }, { "epoch": 2.10448, "grad_norm": 0.022654179329717312, "learning_rate": 0.0001, "loss": 0.9407, "step": 9459 }, { "epoch": 2.1045333333333334, "grad_norm": 0.02374743752982112, "learning_rate": 0.0001, "loss": 0.9245, "step": 9460 }, { "epoch": 2.1045866666666666, "grad_norm": 0.023721994211659384, "learning_rate": 0.0001, "loss": 0.9828, "step": 9461 }, { "epoch": 2.10464, "grad_norm": 0.023680278540675316, "learning_rate": 0.0001, "loss": 0.9967, "step": 9462 }, { "epoch": 2.1046933333333335, "grad_norm": 0.022659682123468056, "learning_rate": 0.0001, "loss": 0.9906, "step": 9463 }, { "epoch": 2.1047466666666668, "grad_norm": 0.02342158781840561, "learning_rate": 0.0001, "loss": 0.9259, "step": 9464 }, { "epoch": 2.1048, "grad_norm": 0.025047700191099018, "learning_rate": 0.0001, "loss": 1.0012, "step": 9465 }, { "epoch": 2.1048533333333332, "grad_norm": 0.025972494077132886, "learning_rate": 0.0001, "loss": 0.9739, "step": 9466 }, { "epoch": 2.1049066666666665, "grad_norm": 0.024862534829101467, "learning_rate": 0.0001, "loss": 0.9843, "step": 9467 }, { "epoch": 2.10496, "grad_norm": 0.0242328549587572, "learning_rate": 0.0001, "loss": 0.9507, "step": 9468 }, { "epoch": 2.1050133333333334, "grad_norm": 0.02230370982631169, "learning_rate": 0.0001, "loss": 0.9716, "step": 9469 }, { "epoch": 2.1050666666666666, "grad_norm": 0.023551053157335612, "learning_rate": 0.0001, "loss": 0.9631, "step": 9470 }, { "epoch": 2.10512, "grad_norm": 0.024077455978844732, "learning_rate": 0.0001, "loss": 0.972, "step": 9471 }, { "epoch": 2.105173333333333, "grad_norm": 0.02528166092617514, "learning_rate": 0.0001, "loss": 0.9845, "step": 9472 }, { "epoch": 2.105226666666667, "grad_norm": 0.023051004501389336, "learning_rate": 0.0001, "loss": 0.9145, "step": 9473 }, { "epoch": 2.10528, "grad_norm": 0.025876472004585187, "learning_rate": 0.0001, "loss": 0.9389, "step": 9474 }, { "epoch": 2.1053333333333333, "grad_norm": 0.024931201544242373, "learning_rate": 0.0001, "loss": 0.9569, "step": 9475 }, { "epoch": 2.1053866666666665, "grad_norm": 0.02996418853098905, "learning_rate": 0.0001, "loss": 0.9736, "step": 9476 }, { "epoch": 2.10544, "grad_norm": 0.026052606153580002, "learning_rate": 0.0001, "loss": 0.9466, "step": 9477 }, { "epoch": 2.1054933333333334, "grad_norm": 0.025992760494999618, "learning_rate": 0.0001, "loss": 0.9324, "step": 9478 }, { "epoch": 2.1055466666666667, "grad_norm": 0.02547380360950464, "learning_rate": 0.0001, "loss": 0.9538, "step": 9479 }, { "epoch": 2.1056, "grad_norm": 0.02360644689810247, "learning_rate": 0.0001, "loss": 0.8951, "step": 9480 }, { "epoch": 2.105653333333333, "grad_norm": 0.02275352660093173, "learning_rate": 0.0001, "loss": 0.9501, "step": 9481 }, { "epoch": 2.105706666666667, "grad_norm": 0.025085029442560275, "learning_rate": 0.0001, "loss": 0.9518, "step": 9482 }, { "epoch": 2.10576, "grad_norm": 0.025237625983050054, "learning_rate": 0.0001, "loss": 0.9808, "step": 9483 }, { "epoch": 2.1058133333333333, "grad_norm": 0.023755171120521237, "learning_rate": 0.0001, "loss": 0.9876, "step": 9484 }, { "epoch": 2.1058666666666666, "grad_norm": 0.024459242092213687, "learning_rate": 0.0001, "loss": 0.9672, "step": 9485 }, { "epoch": 2.10592, "grad_norm": 0.02537302256939379, "learning_rate": 0.0001, "loss": 0.9362, "step": 9486 }, { "epoch": 2.1059733333333335, "grad_norm": 0.024798999010168857, "learning_rate": 0.0001, "loss": 0.9742, "step": 9487 }, { "epoch": 2.1060266666666667, "grad_norm": 0.02347550358058584, "learning_rate": 0.0001, "loss": 0.9141, "step": 9488 }, { "epoch": 2.10608, "grad_norm": 0.02357499346500141, "learning_rate": 0.0001, "loss": 0.9665, "step": 9489 }, { "epoch": 2.106133333333333, "grad_norm": 0.02504225559162805, "learning_rate": 0.0001, "loss": 0.9433, "step": 9490 }, { "epoch": 2.106186666666667, "grad_norm": 0.023106153245723304, "learning_rate": 0.0001, "loss": 0.9134, "step": 9491 }, { "epoch": 2.10624, "grad_norm": 0.02480613948618244, "learning_rate": 0.0001, "loss": 0.9909, "step": 9492 }, { "epoch": 2.1062933333333334, "grad_norm": 0.02269917761655525, "learning_rate": 0.0001, "loss": 0.9879, "step": 9493 }, { "epoch": 2.1063466666666666, "grad_norm": 0.02427339155157761, "learning_rate": 0.0001, "loss": 0.968, "step": 9494 }, { "epoch": 2.1064, "grad_norm": 0.023561277532612477, "learning_rate": 0.0001, "loss": 0.9594, "step": 9495 }, { "epoch": 2.1064533333333335, "grad_norm": 0.024211808729475332, "learning_rate": 0.0001, "loss": 1.0434, "step": 9496 }, { "epoch": 2.1065066666666667, "grad_norm": 0.022921231705479574, "learning_rate": 0.0001, "loss": 0.9741, "step": 9497 }, { "epoch": 2.10656, "grad_norm": 0.02391378611262371, "learning_rate": 0.0001, "loss": 0.9207, "step": 9498 }, { "epoch": 2.1066133333333332, "grad_norm": 0.025025198436634196, "learning_rate": 0.0001, "loss": 0.9486, "step": 9499 }, { "epoch": 2.1066666666666665, "grad_norm": 0.02283091554082977, "learning_rate": 0.0001, "loss": 0.9216, "step": 9500 }, { "epoch": 2.10672, "grad_norm": 0.02343859340287123, "learning_rate": 0.0001, "loss": 0.9644, "step": 9501 }, { "epoch": 2.1067733333333334, "grad_norm": 0.023031149581280486, "learning_rate": 0.0001, "loss": 0.9715, "step": 9502 }, { "epoch": 2.1068266666666666, "grad_norm": 0.02281228343880891, "learning_rate": 0.0001, "loss": 0.8825, "step": 9503 }, { "epoch": 2.10688, "grad_norm": 0.023009045862297788, "learning_rate": 0.0001, "loss": 0.9823, "step": 9504 }, { "epoch": 2.1069333333333335, "grad_norm": 0.023093891353552158, "learning_rate": 0.0001, "loss": 0.8947, "step": 9505 }, { "epoch": 2.106986666666667, "grad_norm": 0.026831317158450486, "learning_rate": 0.0001, "loss": 0.9838, "step": 9506 }, { "epoch": 2.10704, "grad_norm": 0.022411291911664466, "learning_rate": 0.0001, "loss": 0.9632, "step": 9507 }, { "epoch": 2.1070933333333333, "grad_norm": 0.024044076154102607, "learning_rate": 0.0001, "loss": 0.9728, "step": 9508 }, { "epoch": 2.1071466666666665, "grad_norm": 0.024923416971575036, "learning_rate": 0.0001, "loss": 1.0047, "step": 9509 }, { "epoch": 2.1072, "grad_norm": 0.023611391886144643, "learning_rate": 0.0001, "loss": 0.9732, "step": 9510 }, { "epoch": 2.1072533333333334, "grad_norm": 0.023702023778786635, "learning_rate": 0.0001, "loss": 0.9224, "step": 9511 }, { "epoch": 2.1073066666666667, "grad_norm": 0.023471843720785153, "learning_rate": 0.0001, "loss": 0.9683, "step": 9512 }, { "epoch": 2.10736, "grad_norm": 0.025857328695485994, "learning_rate": 0.0001, "loss": 0.9849, "step": 9513 }, { "epoch": 2.107413333333333, "grad_norm": 0.023635447300458648, "learning_rate": 0.0001, "loss": 0.9299, "step": 9514 }, { "epoch": 2.107466666666667, "grad_norm": 0.02499025409390037, "learning_rate": 0.0001, "loss": 0.984, "step": 9515 }, { "epoch": 2.10752, "grad_norm": 0.022581046921050094, "learning_rate": 0.0001, "loss": 0.9487, "step": 9516 }, { "epoch": 2.1075733333333333, "grad_norm": 0.023647188346647658, "learning_rate": 0.0001, "loss": 0.9343, "step": 9517 }, { "epoch": 2.1076266666666665, "grad_norm": 0.02498723742129948, "learning_rate": 0.0001, "loss": 0.9314, "step": 9518 }, { "epoch": 2.10768, "grad_norm": 0.023570785171151788, "learning_rate": 0.0001, "loss": 0.9289, "step": 9519 }, { "epoch": 2.1077333333333335, "grad_norm": 0.026843939095256092, "learning_rate": 0.0001, "loss": 0.981, "step": 9520 }, { "epoch": 2.1077866666666667, "grad_norm": 0.025541975031714376, "learning_rate": 0.0001, "loss": 0.9596, "step": 9521 }, { "epoch": 2.10784, "grad_norm": 0.022655744608683515, "learning_rate": 0.0001, "loss": 1.0028, "step": 9522 }, { "epoch": 2.107893333333333, "grad_norm": 0.02459802744724418, "learning_rate": 0.0001, "loss": 0.9452, "step": 9523 }, { "epoch": 2.107946666666667, "grad_norm": 0.023081750158571855, "learning_rate": 0.0001, "loss": 0.9878, "step": 9524 }, { "epoch": 2.108, "grad_norm": 0.02409675507318261, "learning_rate": 0.0001, "loss": 0.936, "step": 9525 }, { "epoch": 2.1080533333333333, "grad_norm": 0.025881555553361062, "learning_rate": 0.0001, "loss": 0.9718, "step": 9526 }, { "epoch": 2.1081066666666666, "grad_norm": 0.02354122966588568, "learning_rate": 0.0001, "loss": 1.0188, "step": 9527 }, { "epoch": 2.10816, "grad_norm": 0.022278546078739324, "learning_rate": 0.0001, "loss": 0.9394, "step": 9528 }, { "epoch": 2.1082133333333335, "grad_norm": 0.02325483948746018, "learning_rate": 0.0001, "loss": 0.9343, "step": 9529 }, { "epoch": 2.1082666666666667, "grad_norm": 0.02465663444600965, "learning_rate": 0.0001, "loss": 0.913, "step": 9530 }, { "epoch": 2.10832, "grad_norm": 0.024003000815990713, "learning_rate": 0.0001, "loss": 0.9227, "step": 9531 }, { "epoch": 2.108373333333333, "grad_norm": 0.025883849333097578, "learning_rate": 0.0001, "loss": 0.9596, "step": 9532 }, { "epoch": 2.1084266666666664, "grad_norm": 0.023460014236048512, "learning_rate": 0.0001, "loss": 0.9583, "step": 9533 }, { "epoch": 2.10848, "grad_norm": 0.02380015374210754, "learning_rate": 0.0001, "loss": 0.9141, "step": 9534 }, { "epoch": 2.1085333333333334, "grad_norm": 0.024291556159128414, "learning_rate": 0.0001, "loss": 0.9607, "step": 9535 }, { "epoch": 2.1085866666666666, "grad_norm": 0.02431868853279342, "learning_rate": 0.0001, "loss": 0.9454, "step": 9536 }, { "epoch": 2.10864, "grad_norm": 0.023023349657712834, "learning_rate": 0.0001, "loss": 0.9505, "step": 9537 }, { "epoch": 2.1086933333333335, "grad_norm": 0.023821093851059436, "learning_rate": 0.0001, "loss": 0.9903, "step": 9538 }, { "epoch": 2.1087466666666668, "grad_norm": 0.021968968221763384, "learning_rate": 0.0001, "loss": 0.9997, "step": 9539 }, { "epoch": 2.1088, "grad_norm": 0.025100780858533064, "learning_rate": 0.0001, "loss": 0.9941, "step": 9540 }, { "epoch": 2.1088533333333332, "grad_norm": 0.02367593141667326, "learning_rate": 0.0001, "loss": 0.9966, "step": 9541 }, { "epoch": 2.1089066666666665, "grad_norm": 0.02266914445084052, "learning_rate": 0.0001, "loss": 0.9609, "step": 9542 }, { "epoch": 2.10896, "grad_norm": 0.024177887064539647, "learning_rate": 0.0001, "loss": 0.9531, "step": 9543 }, { "epoch": 2.1090133333333334, "grad_norm": 0.022578560091183447, "learning_rate": 0.0001, "loss": 0.9817, "step": 9544 }, { "epoch": 2.1090666666666666, "grad_norm": 0.024050243710753854, "learning_rate": 0.0001, "loss": 0.9609, "step": 9545 }, { "epoch": 2.10912, "grad_norm": 0.02369443752779662, "learning_rate": 0.0001, "loss": 0.9433, "step": 9546 }, { "epoch": 2.109173333333333, "grad_norm": 0.024357318129364088, "learning_rate": 0.0001, "loss": 0.9289, "step": 9547 }, { "epoch": 2.109226666666667, "grad_norm": 0.023418314002090258, "learning_rate": 0.0001, "loss": 0.9589, "step": 9548 }, { "epoch": 2.10928, "grad_norm": 0.024800751382810057, "learning_rate": 0.0001, "loss": 0.9465, "step": 9549 }, { "epoch": 2.1093333333333333, "grad_norm": 0.024212008726281743, "learning_rate": 0.0001, "loss": 0.9662, "step": 9550 }, { "epoch": 2.1093866666666665, "grad_norm": 0.023385009395921783, "learning_rate": 0.0001, "loss": 0.9673, "step": 9551 }, { "epoch": 2.10944, "grad_norm": 0.024120856274145078, "learning_rate": 0.0001, "loss": 0.9416, "step": 9552 }, { "epoch": 2.1094933333333334, "grad_norm": 0.021637956111054034, "learning_rate": 0.0001, "loss": 0.9945, "step": 9553 }, { "epoch": 2.1095466666666667, "grad_norm": 0.022672815074469017, "learning_rate": 0.0001, "loss": 0.9369, "step": 9554 }, { "epoch": 2.1096, "grad_norm": 0.02320842525203524, "learning_rate": 0.0001, "loss": 0.9707, "step": 9555 }, { "epoch": 2.109653333333333, "grad_norm": 0.02427945273860859, "learning_rate": 0.0001, "loss": 0.9275, "step": 9556 }, { "epoch": 2.109706666666667, "grad_norm": 0.025982686590100567, "learning_rate": 0.0001, "loss": 0.9718, "step": 9557 }, { "epoch": 2.10976, "grad_norm": 0.023798222869265095, "learning_rate": 0.0001, "loss": 0.9278, "step": 9558 }, { "epoch": 2.1098133333333333, "grad_norm": 0.023297279353215006, "learning_rate": 0.0001, "loss": 0.9466, "step": 9559 }, { "epoch": 2.1098666666666666, "grad_norm": 0.024181157497203953, "learning_rate": 0.0001, "loss": 1.0233, "step": 9560 }, { "epoch": 2.10992, "grad_norm": 0.02321071853451429, "learning_rate": 0.0001, "loss": 0.9767, "step": 9561 }, { "epoch": 2.1099733333333335, "grad_norm": 0.022712124550488266, "learning_rate": 0.0001, "loss": 0.9577, "step": 9562 }, { "epoch": 2.1100266666666667, "grad_norm": 0.022660028341648004, "learning_rate": 0.0001, "loss": 0.9594, "step": 9563 }, { "epoch": 2.11008, "grad_norm": 0.023589207498393997, "learning_rate": 0.0001, "loss": 0.9962, "step": 9564 }, { "epoch": 2.110133333333333, "grad_norm": 0.02552147584091399, "learning_rate": 0.0001, "loss": 0.9514, "step": 9565 }, { "epoch": 2.110186666666667, "grad_norm": 0.02482720280305059, "learning_rate": 0.0001, "loss": 0.9305, "step": 9566 }, { "epoch": 2.11024, "grad_norm": 0.02325934595817185, "learning_rate": 0.0001, "loss": 0.9548, "step": 9567 }, { "epoch": 2.1102933333333334, "grad_norm": 0.023317812427071382, "learning_rate": 0.0001, "loss": 1.0162, "step": 9568 }, { "epoch": 2.1103466666666666, "grad_norm": 0.022060747505098784, "learning_rate": 0.0001, "loss": 1.0095, "step": 9569 }, { "epoch": 2.1104, "grad_norm": 0.025854121333040665, "learning_rate": 0.0001, "loss": 0.9869, "step": 9570 }, { "epoch": 2.1104533333333335, "grad_norm": 0.023854268773785443, "learning_rate": 0.0001, "loss": 0.9625, "step": 9571 }, { "epoch": 2.1105066666666668, "grad_norm": 0.024159550207791005, "learning_rate": 0.0001, "loss": 0.9794, "step": 9572 }, { "epoch": 2.11056, "grad_norm": 0.026344833461510096, "learning_rate": 0.0001, "loss": 0.9647, "step": 9573 }, { "epoch": 2.1106133333333332, "grad_norm": 0.02451879508776183, "learning_rate": 0.0001, "loss": 0.9892, "step": 9574 }, { "epoch": 2.1106666666666665, "grad_norm": 0.02428130171939429, "learning_rate": 0.0001, "loss": 0.9663, "step": 9575 }, { "epoch": 2.11072, "grad_norm": 0.02478274701843837, "learning_rate": 0.0001, "loss": 0.9309, "step": 9576 }, { "epoch": 2.1107733333333334, "grad_norm": 0.023749970203383243, "learning_rate": 0.0001, "loss": 0.9717, "step": 9577 }, { "epoch": 2.1108266666666666, "grad_norm": 0.023225469074378544, "learning_rate": 0.0001, "loss": 0.9776, "step": 9578 }, { "epoch": 2.11088, "grad_norm": 0.026643956605802096, "learning_rate": 0.0001, "loss": 0.953, "step": 9579 }, { "epoch": 2.1109333333333336, "grad_norm": 0.023274830335143794, "learning_rate": 0.0001, "loss": 0.8971, "step": 9580 }, { "epoch": 2.110986666666667, "grad_norm": 0.023553309844869454, "learning_rate": 0.0001, "loss": 1.0044, "step": 9581 }, { "epoch": 2.11104, "grad_norm": 0.02460512504435567, "learning_rate": 0.0001, "loss": 0.9784, "step": 9582 }, { "epoch": 2.1110933333333333, "grad_norm": 0.023381900592334554, "learning_rate": 0.0001, "loss": 0.9598, "step": 9583 }, { "epoch": 2.1111466666666665, "grad_norm": 0.02610697542570022, "learning_rate": 0.0001, "loss": 0.9157, "step": 9584 }, { "epoch": 2.1112, "grad_norm": 0.02213592897202737, "learning_rate": 0.0001, "loss": 0.9739, "step": 9585 }, { "epoch": 2.1112533333333334, "grad_norm": 0.023434355975371884, "learning_rate": 0.0001, "loss": 0.9335, "step": 9586 }, { "epoch": 2.1113066666666667, "grad_norm": 0.02377419381900452, "learning_rate": 0.0001, "loss": 0.9845, "step": 9587 }, { "epoch": 2.11136, "grad_norm": 0.025856404529466057, "learning_rate": 0.0001, "loss": 0.957, "step": 9588 }, { "epoch": 2.111413333333333, "grad_norm": 0.023804474554293322, "learning_rate": 0.0001, "loss": 1.0338, "step": 9589 }, { "epoch": 2.111466666666667, "grad_norm": 0.025264982773661165, "learning_rate": 0.0001, "loss": 0.9601, "step": 9590 }, { "epoch": 2.11152, "grad_norm": 0.02320227033269493, "learning_rate": 0.0001, "loss": 0.9561, "step": 9591 }, { "epoch": 2.1115733333333333, "grad_norm": 0.024369600439747653, "learning_rate": 0.0001, "loss": 0.9416, "step": 9592 }, { "epoch": 2.1116266666666665, "grad_norm": 0.023390517565454693, "learning_rate": 0.0001, "loss": 1.0063, "step": 9593 }, { "epoch": 2.11168, "grad_norm": 0.023820099094642697, "learning_rate": 0.0001, "loss": 1.0028, "step": 9594 }, { "epoch": 2.1117333333333335, "grad_norm": 0.022700832421216007, "learning_rate": 0.0001, "loss": 0.9595, "step": 9595 }, { "epoch": 2.1117866666666667, "grad_norm": 0.024155387315482283, "learning_rate": 0.0001, "loss": 0.953, "step": 9596 }, { "epoch": 2.11184, "grad_norm": 0.024417939895448108, "learning_rate": 0.0001, "loss": 1.027, "step": 9597 }, { "epoch": 2.111893333333333, "grad_norm": 0.02315244316586076, "learning_rate": 0.0001, "loss": 0.9895, "step": 9598 }, { "epoch": 2.111946666666667, "grad_norm": 0.0229428818500357, "learning_rate": 0.0001, "loss": 0.9854, "step": 9599 }, { "epoch": 2.112, "grad_norm": 0.02736661637088961, "learning_rate": 0.0001, "loss": 0.9684, "step": 9600 }, { "epoch": 2.112, "eval_accuracy": 0.6209309998098879, "eval_loss": 1.3501551151275635, "eval_runtime": 62.8957, "eval_samples_per_second": 15.899, "eval_steps_per_second": 0.509, "step": 9600 }, { "epoch": 2.1120533333333333, "grad_norm": 0.025793012867121788, "learning_rate": 0.0001, "loss": 1.0447, "step": 9601 }, { "epoch": 2.1121066666666666, "grad_norm": 0.02449010181695459, "learning_rate": 0.0001, "loss": 0.9873, "step": 9602 }, { "epoch": 2.11216, "grad_norm": 0.024135352112971714, "learning_rate": 0.0001, "loss": 0.9414, "step": 9603 }, { "epoch": 2.1122133333333335, "grad_norm": 0.022281445113050736, "learning_rate": 0.0001, "loss": 1.0195, "step": 9604 }, { "epoch": 2.1122666666666667, "grad_norm": 0.023135480345696072, "learning_rate": 0.0001, "loss": 0.9639, "step": 9605 }, { "epoch": 2.11232, "grad_norm": 0.023062940608207686, "learning_rate": 0.0001, "loss": 0.9562, "step": 9606 }, { "epoch": 2.112373333333333, "grad_norm": 0.022526335561945273, "learning_rate": 0.0001, "loss": 0.9868, "step": 9607 }, { "epoch": 2.1124266666666665, "grad_norm": 0.023957658013552215, "learning_rate": 0.0001, "loss": 0.9642, "step": 9608 }, { "epoch": 2.11248, "grad_norm": 0.022910939686134873, "learning_rate": 0.0001, "loss": 0.9955, "step": 9609 }, { "epoch": 2.1125333333333334, "grad_norm": 0.02358933222729327, "learning_rate": 0.0001, "loss": 0.9811, "step": 9610 }, { "epoch": 2.1125866666666666, "grad_norm": 0.022743245192809357, "learning_rate": 0.0001, "loss": 0.9148, "step": 9611 }, { "epoch": 2.11264, "grad_norm": 0.023125884853127627, "learning_rate": 0.0001, "loss": 0.9565, "step": 9612 }, { "epoch": 2.1126933333333335, "grad_norm": 0.022731058794344224, "learning_rate": 0.0001, "loss": 0.9572, "step": 9613 }, { "epoch": 2.1127466666666668, "grad_norm": 0.023116951267505938, "learning_rate": 0.0001, "loss": 0.988, "step": 9614 }, { "epoch": 2.1128, "grad_norm": 0.023007852593871683, "learning_rate": 0.0001, "loss": 0.9498, "step": 9615 }, { "epoch": 2.1128533333333333, "grad_norm": 0.023916627710933194, "learning_rate": 0.0001, "loss": 0.9927, "step": 9616 }, { "epoch": 2.1129066666666665, "grad_norm": 0.024202545447679896, "learning_rate": 0.0001, "loss": 0.9854, "step": 9617 }, { "epoch": 2.11296, "grad_norm": 0.021414039638453692, "learning_rate": 0.0001, "loss": 0.9206, "step": 9618 }, { "epoch": 2.1130133333333334, "grad_norm": 0.023478872777620778, "learning_rate": 0.0001, "loss": 0.9481, "step": 9619 }, { "epoch": 2.1130666666666666, "grad_norm": 0.023928913157997375, "learning_rate": 0.0001, "loss": 0.9509, "step": 9620 }, { "epoch": 2.11312, "grad_norm": 0.02360202857940299, "learning_rate": 0.0001, "loss": 0.9619, "step": 9621 }, { "epoch": 2.113173333333333, "grad_norm": 0.02370405609411715, "learning_rate": 0.0001, "loss": 0.9757, "step": 9622 }, { "epoch": 2.113226666666667, "grad_norm": 0.02249526809852204, "learning_rate": 0.0001, "loss": 0.9664, "step": 9623 }, { "epoch": 2.11328, "grad_norm": 0.02309440674146143, "learning_rate": 0.0001, "loss": 0.9505, "step": 9624 }, { "epoch": 2.1133333333333333, "grad_norm": 0.024701051118703014, "learning_rate": 0.0001, "loss": 0.965, "step": 9625 }, { "epoch": 2.1133866666666665, "grad_norm": 0.024056873339833116, "learning_rate": 0.0001, "loss": 0.9328, "step": 9626 }, { "epoch": 2.11344, "grad_norm": 0.022131937344972978, "learning_rate": 0.0001, "loss": 0.9677, "step": 9627 }, { "epoch": 2.1134933333333334, "grad_norm": 0.03450587324425312, "learning_rate": 0.0001, "loss": 0.9367, "step": 9628 }, { "epoch": 2.1135466666666667, "grad_norm": 0.022090389520998708, "learning_rate": 0.0001, "loss": 0.9558, "step": 9629 }, { "epoch": 2.1136, "grad_norm": 0.0249945046911408, "learning_rate": 0.0001, "loss": 0.9301, "step": 9630 }, { "epoch": 2.113653333333333, "grad_norm": 0.023414547691550026, "learning_rate": 0.0001, "loss": 0.9374, "step": 9631 }, { "epoch": 2.113706666666667, "grad_norm": 0.023998900851383467, "learning_rate": 0.0001, "loss": 0.9738, "step": 9632 }, { "epoch": 2.11376, "grad_norm": 0.024994279830143556, "learning_rate": 0.0001, "loss": 0.9894, "step": 9633 }, { "epoch": 2.1138133333333333, "grad_norm": 0.023032333961914078, "learning_rate": 0.0001, "loss": 0.9761, "step": 9634 }, { "epoch": 2.1138666666666666, "grad_norm": 0.02238851014423745, "learning_rate": 0.0001, "loss": 0.9742, "step": 9635 }, { "epoch": 2.11392, "grad_norm": 0.02354150355047781, "learning_rate": 0.0001, "loss": 0.9796, "step": 9636 }, { "epoch": 2.1139733333333335, "grad_norm": 0.023502840305236312, "learning_rate": 0.0001, "loss": 0.9655, "step": 9637 }, { "epoch": 2.1140266666666667, "grad_norm": 0.023900511111797564, "learning_rate": 0.0001, "loss": 0.9657, "step": 9638 }, { "epoch": 2.11408, "grad_norm": 0.025091791971754148, "learning_rate": 0.0001, "loss": 0.9558, "step": 9639 }, { "epoch": 2.114133333333333, "grad_norm": 0.024705971928697085, "learning_rate": 0.0001, "loss": 0.9663, "step": 9640 }, { "epoch": 2.114186666666667, "grad_norm": 0.023711092167812912, "learning_rate": 0.0001, "loss": 0.9898, "step": 9641 }, { "epoch": 2.11424, "grad_norm": 0.02541278262827662, "learning_rate": 0.0001, "loss": 0.9675, "step": 9642 }, { "epoch": 2.1142933333333334, "grad_norm": 0.02244659644219866, "learning_rate": 0.0001, "loss": 0.9951, "step": 9643 }, { "epoch": 2.1143466666666666, "grad_norm": 0.022322046853566473, "learning_rate": 0.0001, "loss": 0.9884, "step": 9644 }, { "epoch": 2.1144, "grad_norm": 0.024518309275277823, "learning_rate": 0.0001, "loss": 0.9131, "step": 9645 }, { "epoch": 2.1144533333333335, "grad_norm": 0.02456443756624069, "learning_rate": 0.0001, "loss": 0.9256, "step": 9646 }, { "epoch": 2.1145066666666668, "grad_norm": 0.022668699560474667, "learning_rate": 0.0001, "loss": 0.9682, "step": 9647 }, { "epoch": 2.11456, "grad_norm": 0.022352588676010234, "learning_rate": 0.0001, "loss": 0.9907, "step": 9648 }, { "epoch": 2.1146133333333332, "grad_norm": 0.024085791695073345, "learning_rate": 0.0001, "loss": 0.9453, "step": 9649 }, { "epoch": 2.1146666666666665, "grad_norm": 0.025514443001910938, "learning_rate": 0.0001, "loss": 0.9906, "step": 9650 }, { "epoch": 2.11472, "grad_norm": 0.023820967547014956, "learning_rate": 0.0001, "loss": 0.9444, "step": 9651 }, { "epoch": 2.1147733333333334, "grad_norm": 0.02355599839808396, "learning_rate": 0.0001, "loss": 0.9421, "step": 9652 }, { "epoch": 2.1148266666666666, "grad_norm": 0.02499920497013296, "learning_rate": 0.0001, "loss": 1.0035, "step": 9653 }, { "epoch": 2.11488, "grad_norm": 0.02531665187766444, "learning_rate": 0.0001, "loss": 1.0085, "step": 9654 }, { "epoch": 2.114933333333333, "grad_norm": 0.024311208929331158, "learning_rate": 0.0001, "loss": 1.0433, "step": 9655 }, { "epoch": 2.114986666666667, "grad_norm": 0.02263914867082463, "learning_rate": 0.0001, "loss": 0.938, "step": 9656 }, { "epoch": 2.11504, "grad_norm": 0.024690659729824264, "learning_rate": 0.0001, "loss": 0.9821, "step": 9657 }, { "epoch": 2.1150933333333333, "grad_norm": 0.02410185800205157, "learning_rate": 0.0001, "loss": 0.9693, "step": 9658 }, { "epoch": 2.1151466666666665, "grad_norm": 0.025319391000817145, "learning_rate": 0.0001, "loss": 0.9947, "step": 9659 }, { "epoch": 2.1152, "grad_norm": 0.025709885497002736, "learning_rate": 0.0001, "loss": 0.9826, "step": 9660 }, { "epoch": 2.1152533333333334, "grad_norm": 0.02347393495680298, "learning_rate": 0.0001, "loss": 0.9698, "step": 9661 }, { "epoch": 2.1153066666666667, "grad_norm": 0.02234446825965931, "learning_rate": 0.0001, "loss": 0.9848, "step": 9662 }, { "epoch": 2.11536, "grad_norm": 0.023621390218692848, "learning_rate": 0.0001, "loss": 0.9921, "step": 9663 }, { "epoch": 2.115413333333333, "grad_norm": 0.02466460638341968, "learning_rate": 0.0001, "loss": 0.9726, "step": 9664 }, { "epoch": 2.115466666666667, "grad_norm": 0.02463999837016767, "learning_rate": 0.0001, "loss": 0.9597, "step": 9665 }, { "epoch": 2.11552, "grad_norm": 0.023583170336129743, "learning_rate": 0.0001, "loss": 0.9259, "step": 9666 }, { "epoch": 2.1155733333333333, "grad_norm": 0.02491536442722898, "learning_rate": 0.0001, "loss": 0.9202, "step": 9667 }, { "epoch": 2.1156266666666665, "grad_norm": 0.023712054386078218, "learning_rate": 0.0001, "loss": 0.9806, "step": 9668 }, { "epoch": 2.1156800000000002, "grad_norm": 0.025848422067539442, "learning_rate": 0.0001, "loss": 0.9783, "step": 9669 }, { "epoch": 2.1157333333333335, "grad_norm": 0.0243556695537544, "learning_rate": 0.0001, "loss": 0.9491, "step": 9670 }, { "epoch": 2.1157866666666667, "grad_norm": 0.02409508993007326, "learning_rate": 0.0001, "loss": 0.9769, "step": 9671 }, { "epoch": 2.11584, "grad_norm": 0.024960974497249933, "learning_rate": 0.0001, "loss": 0.951, "step": 9672 }, { "epoch": 2.115893333333333, "grad_norm": 0.023408172066675025, "learning_rate": 0.0001, "loss": 0.9807, "step": 9673 }, { "epoch": 2.115946666666667, "grad_norm": 0.02395002491255666, "learning_rate": 0.0001, "loss": 0.9773, "step": 9674 }, { "epoch": 2.116, "grad_norm": 0.023797088383434185, "learning_rate": 0.0001, "loss": 0.9627, "step": 9675 }, { "epoch": 2.1160533333333333, "grad_norm": 0.024902210269976948, "learning_rate": 0.0001, "loss": 1.0081, "step": 9676 }, { "epoch": 2.1161066666666666, "grad_norm": 0.024261327697408172, "learning_rate": 0.0001, "loss": 0.9542, "step": 9677 }, { "epoch": 2.11616, "grad_norm": 0.023135730855405462, "learning_rate": 0.0001, "loss": 0.9569, "step": 9678 }, { "epoch": 2.1162133333333335, "grad_norm": 0.023465339139498612, "learning_rate": 0.0001, "loss": 1.0071, "step": 9679 }, { "epoch": 2.1162666666666667, "grad_norm": 0.022860797846845363, "learning_rate": 0.0001, "loss": 0.9046, "step": 9680 }, { "epoch": 2.11632, "grad_norm": 0.022049001704018408, "learning_rate": 0.0001, "loss": 0.8719, "step": 9681 }, { "epoch": 2.116373333333333, "grad_norm": 0.02509176306294869, "learning_rate": 0.0001, "loss": 0.9378, "step": 9682 }, { "epoch": 2.1164266666666665, "grad_norm": 0.02350959991144934, "learning_rate": 0.0001, "loss": 0.9626, "step": 9683 }, { "epoch": 2.11648, "grad_norm": 0.024711032726923775, "learning_rate": 0.0001, "loss": 0.9853, "step": 9684 }, { "epoch": 2.1165333333333334, "grad_norm": 0.024542883424103535, "learning_rate": 0.0001, "loss": 0.9588, "step": 9685 }, { "epoch": 2.1165866666666666, "grad_norm": 0.022285866744727514, "learning_rate": 0.0001, "loss": 0.9988, "step": 9686 }, { "epoch": 2.11664, "grad_norm": 0.023178882173873875, "learning_rate": 0.0001, "loss": 1.0003, "step": 9687 }, { "epoch": 2.1166933333333335, "grad_norm": 0.023486722805057085, "learning_rate": 0.0001, "loss": 1.0142, "step": 9688 }, { "epoch": 2.1167466666666668, "grad_norm": 0.028930650490365185, "learning_rate": 0.0001, "loss": 0.9658, "step": 9689 }, { "epoch": 2.1168, "grad_norm": 0.022354514577653656, "learning_rate": 0.0001, "loss": 0.9117, "step": 9690 }, { "epoch": 2.1168533333333333, "grad_norm": 0.022634562893480047, "learning_rate": 0.0001, "loss": 0.9135, "step": 9691 }, { "epoch": 2.1169066666666665, "grad_norm": 0.02501818035083753, "learning_rate": 0.0001, "loss": 0.9445, "step": 9692 }, { "epoch": 2.11696, "grad_norm": 0.02496699402105899, "learning_rate": 0.0001, "loss": 0.9591, "step": 9693 }, { "epoch": 2.1170133333333334, "grad_norm": 0.027844330969956813, "learning_rate": 0.0001, "loss": 0.9445, "step": 9694 }, { "epoch": 2.1170666666666667, "grad_norm": 0.022713967740097853, "learning_rate": 0.0001, "loss": 0.9434, "step": 9695 }, { "epoch": 2.11712, "grad_norm": 0.024962107274929795, "learning_rate": 0.0001, "loss": 0.983, "step": 9696 }, { "epoch": 2.117173333333333, "grad_norm": 0.024953085658032375, "learning_rate": 0.0001, "loss": 0.9759, "step": 9697 }, { "epoch": 2.117226666666667, "grad_norm": 0.02233679343264826, "learning_rate": 0.0001, "loss": 1.0153, "step": 9698 }, { "epoch": 2.11728, "grad_norm": 0.023345629811671344, "learning_rate": 0.0001, "loss": 0.9561, "step": 9699 }, { "epoch": 2.1173333333333333, "grad_norm": 0.02430987160671366, "learning_rate": 0.0001, "loss": 1.0174, "step": 9700 }, { "epoch": 2.1173866666666665, "grad_norm": 0.024166787044395628, "learning_rate": 0.0001, "loss": 0.9928, "step": 9701 }, { "epoch": 2.11744, "grad_norm": 0.025984159324356132, "learning_rate": 0.0001, "loss": 0.9916, "step": 9702 }, { "epoch": 2.1174933333333334, "grad_norm": 0.024863712957874644, "learning_rate": 0.0001, "loss": 0.9521, "step": 9703 }, { "epoch": 2.1175466666666667, "grad_norm": 0.023716520252329648, "learning_rate": 0.0001, "loss": 0.9281, "step": 9704 }, { "epoch": 2.1176, "grad_norm": 0.023162351454176763, "learning_rate": 0.0001, "loss": 1.0598, "step": 9705 }, { "epoch": 2.117653333333333, "grad_norm": 0.025000886664240655, "learning_rate": 0.0001, "loss": 0.9984, "step": 9706 }, { "epoch": 2.117706666666667, "grad_norm": 0.023973555982209824, "learning_rate": 0.0001, "loss": 0.9032, "step": 9707 }, { "epoch": 2.11776, "grad_norm": 0.022307205719582782, "learning_rate": 0.0001, "loss": 0.9528, "step": 9708 }, { "epoch": 2.1178133333333333, "grad_norm": 0.025808852368056367, "learning_rate": 0.0001, "loss": 0.998, "step": 9709 }, { "epoch": 2.1178666666666666, "grad_norm": 0.023142552574208473, "learning_rate": 0.0001, "loss": 0.9374, "step": 9710 }, { "epoch": 2.11792, "grad_norm": 0.024432130055298054, "learning_rate": 0.0001, "loss": 0.9462, "step": 9711 }, { "epoch": 2.1179733333333335, "grad_norm": 0.02702272092820019, "learning_rate": 0.0001, "loss": 1.0322, "step": 9712 }, { "epoch": 2.1180266666666667, "grad_norm": 0.02673070641106504, "learning_rate": 0.0001, "loss": 0.9503, "step": 9713 }, { "epoch": 2.11808, "grad_norm": 0.02243132219074958, "learning_rate": 0.0001, "loss": 0.9554, "step": 9714 }, { "epoch": 2.118133333333333, "grad_norm": 0.027930784189864152, "learning_rate": 0.0001, "loss": 0.9578, "step": 9715 }, { "epoch": 2.1181866666666664, "grad_norm": 0.025036397583603365, "learning_rate": 0.0001, "loss": 0.9003, "step": 9716 }, { "epoch": 2.11824, "grad_norm": 0.023915848139265374, "learning_rate": 0.0001, "loss": 0.9536, "step": 9717 }, { "epoch": 2.1182933333333334, "grad_norm": 0.023283082265937855, "learning_rate": 0.0001, "loss": 0.9559, "step": 9718 }, { "epoch": 2.1183466666666666, "grad_norm": 0.024192305336895367, "learning_rate": 0.0001, "loss": 0.939, "step": 9719 }, { "epoch": 2.1184, "grad_norm": 0.025235318701135993, "learning_rate": 0.0001, "loss": 0.98, "step": 9720 }, { "epoch": 2.1184533333333335, "grad_norm": 0.023518633374851015, "learning_rate": 0.0001, "loss": 1.0111, "step": 9721 }, { "epoch": 2.1185066666666668, "grad_norm": 0.023018607690076808, "learning_rate": 0.0001, "loss": 0.8957, "step": 9722 }, { "epoch": 2.11856, "grad_norm": 0.022803183278771753, "learning_rate": 0.0001, "loss": 0.9835, "step": 9723 }, { "epoch": 2.1186133333333332, "grad_norm": 0.025296696292617615, "learning_rate": 0.0001, "loss": 0.9701, "step": 9724 }, { "epoch": 2.1186666666666665, "grad_norm": 0.023398259674085355, "learning_rate": 0.0001, "loss": 0.8904, "step": 9725 }, { "epoch": 2.11872, "grad_norm": 0.024312322363184563, "learning_rate": 0.0001, "loss": 0.8901, "step": 9726 }, { "epoch": 2.1187733333333334, "grad_norm": 0.024595118482676447, "learning_rate": 0.0001, "loss": 0.9875, "step": 9727 }, { "epoch": 2.1188266666666666, "grad_norm": 0.023168373568853772, "learning_rate": 0.0001, "loss": 1.001, "step": 9728 }, { "epoch": 2.11888, "grad_norm": 0.026151527351181935, "learning_rate": 0.0001, "loss": 0.9333, "step": 9729 }, { "epoch": 2.1189333333333336, "grad_norm": 0.02909788677275526, "learning_rate": 0.0001, "loss": 0.9543, "step": 9730 }, { "epoch": 2.118986666666667, "grad_norm": 0.0248598096014661, "learning_rate": 0.0001, "loss": 1.0089, "step": 9731 }, { "epoch": 2.11904, "grad_norm": 0.022644770470563253, "learning_rate": 0.0001, "loss": 0.9983, "step": 9732 }, { "epoch": 2.1190933333333333, "grad_norm": 0.02386600297410104, "learning_rate": 0.0001, "loss": 0.9511, "step": 9733 }, { "epoch": 2.1191466666666665, "grad_norm": 0.02502406656713905, "learning_rate": 0.0001, "loss": 1.0176, "step": 9734 }, { "epoch": 2.1192, "grad_norm": 0.02396090092651871, "learning_rate": 0.0001, "loss": 0.9364, "step": 9735 }, { "epoch": 2.1192533333333334, "grad_norm": 0.023979639143208338, "learning_rate": 0.0001, "loss": 0.9665, "step": 9736 }, { "epoch": 2.1193066666666667, "grad_norm": 0.023236334763973906, "learning_rate": 0.0001, "loss": 1.027, "step": 9737 }, { "epoch": 2.11936, "grad_norm": 0.02325635132875721, "learning_rate": 0.0001, "loss": 0.992, "step": 9738 }, { "epoch": 2.119413333333333, "grad_norm": 0.024723665752166182, "learning_rate": 0.0001, "loss": 0.9515, "step": 9739 }, { "epoch": 2.119466666666667, "grad_norm": 0.023398549540982572, "learning_rate": 0.0001, "loss": 0.9696, "step": 9740 }, { "epoch": 2.11952, "grad_norm": 0.024783458351282605, "learning_rate": 0.0001, "loss": 0.9971, "step": 9741 }, { "epoch": 2.1195733333333333, "grad_norm": 0.023152446778949166, "learning_rate": 0.0001, "loss": 0.9769, "step": 9742 }, { "epoch": 2.1196266666666665, "grad_norm": 0.02425762235190495, "learning_rate": 0.0001, "loss": 0.9756, "step": 9743 }, { "epoch": 2.11968, "grad_norm": 0.024314877266382286, "learning_rate": 0.0001, "loss": 0.9826, "step": 9744 }, { "epoch": 2.1197333333333335, "grad_norm": 0.023586326450059696, "learning_rate": 0.0001, "loss": 0.9661, "step": 9745 }, { "epoch": 2.1197866666666667, "grad_norm": 0.025445909534257825, "learning_rate": 0.0001, "loss": 0.9459, "step": 9746 }, { "epoch": 2.11984, "grad_norm": 0.023768330947687145, "learning_rate": 0.0001, "loss": 0.9346, "step": 9747 }, { "epoch": 2.119893333333333, "grad_norm": 0.024853902292198547, "learning_rate": 0.0001, "loss": 0.9445, "step": 9748 }, { "epoch": 2.119946666666667, "grad_norm": 0.02684021388676348, "learning_rate": 0.0001, "loss": 0.9631, "step": 9749 }, { "epoch": 2.12, "grad_norm": 0.022982941124868844, "learning_rate": 0.0001, "loss": 0.9516, "step": 9750 }, { "epoch": 2.1200533333333333, "grad_norm": 0.024353126235754852, "learning_rate": 0.0001, "loss": 0.9747, "step": 9751 }, { "epoch": 2.1201066666666666, "grad_norm": 0.026831110937018107, "learning_rate": 0.0001, "loss": 1.03, "step": 9752 }, { "epoch": 2.12016, "grad_norm": 0.02678144301617128, "learning_rate": 0.0001, "loss": 1.0123, "step": 9753 }, { "epoch": 2.1202133333333335, "grad_norm": 0.025583682240725995, "learning_rate": 0.0001, "loss": 1.0124, "step": 9754 }, { "epoch": 2.1202666666666667, "grad_norm": 0.023762474722528255, "learning_rate": 0.0001, "loss": 0.9569, "step": 9755 }, { "epoch": 2.12032, "grad_norm": 0.02521010250023658, "learning_rate": 0.0001, "loss": 0.9445, "step": 9756 }, { "epoch": 2.120373333333333, "grad_norm": 0.02682390427829631, "learning_rate": 0.0001, "loss": 0.9628, "step": 9757 }, { "epoch": 2.1204266666666665, "grad_norm": 0.026097127793397554, "learning_rate": 0.0001, "loss": 0.9483, "step": 9758 }, { "epoch": 2.12048, "grad_norm": 0.02395481816204574, "learning_rate": 0.0001, "loss": 0.9789, "step": 9759 }, { "epoch": 2.1205333333333334, "grad_norm": 0.024237565448577195, "learning_rate": 0.0001, "loss": 1.0044, "step": 9760 }, { "epoch": 2.1205866666666666, "grad_norm": 0.02452550895165034, "learning_rate": 0.0001, "loss": 0.9683, "step": 9761 }, { "epoch": 2.12064, "grad_norm": 0.023789110031985704, "learning_rate": 0.0001, "loss": 1.0066, "step": 9762 }, { "epoch": 2.1206933333333335, "grad_norm": 0.023728573636910517, "learning_rate": 0.0001, "loss": 0.9854, "step": 9763 }, { "epoch": 2.120746666666667, "grad_norm": 0.02423618640139529, "learning_rate": 0.0001, "loss": 0.9887, "step": 9764 }, { "epoch": 2.1208, "grad_norm": 0.025419339600449398, "learning_rate": 0.0001, "loss": 0.9498, "step": 9765 }, { "epoch": 2.1208533333333333, "grad_norm": 0.02401457191178976, "learning_rate": 0.0001, "loss": 0.992, "step": 9766 }, { "epoch": 2.1209066666666665, "grad_norm": 0.026772835568067647, "learning_rate": 0.0001, "loss": 0.9124, "step": 9767 }, { "epoch": 2.12096, "grad_norm": 0.023008764163598438, "learning_rate": 0.0001, "loss": 0.9531, "step": 9768 }, { "epoch": 2.1210133333333334, "grad_norm": 0.02289077627171083, "learning_rate": 0.0001, "loss": 0.962, "step": 9769 }, { "epoch": 2.1210666666666667, "grad_norm": 0.023010640826092894, "learning_rate": 0.0001, "loss": 0.9422, "step": 9770 }, { "epoch": 2.12112, "grad_norm": 0.023619281159436255, "learning_rate": 0.0001, "loss": 0.9418, "step": 9771 }, { "epoch": 2.121173333333333, "grad_norm": 0.025385084582135068, "learning_rate": 0.0001, "loss": 0.9237, "step": 9772 }, { "epoch": 2.121226666666667, "grad_norm": 0.02327662819579241, "learning_rate": 0.0001, "loss": 0.9405, "step": 9773 }, { "epoch": 2.12128, "grad_norm": 0.024006868091288335, "learning_rate": 0.0001, "loss": 0.9162, "step": 9774 }, { "epoch": 2.1213333333333333, "grad_norm": 0.02965788931818144, "learning_rate": 0.0001, "loss": 0.9245, "step": 9775 }, { "epoch": 2.1213866666666665, "grad_norm": 0.024574167325293543, "learning_rate": 0.0001, "loss": 0.9231, "step": 9776 }, { "epoch": 2.12144, "grad_norm": 0.02220731810368228, "learning_rate": 0.0001, "loss": 0.9456, "step": 9777 }, { "epoch": 2.1214933333333335, "grad_norm": 0.02405829346133657, "learning_rate": 0.0001, "loss": 0.9263, "step": 9778 }, { "epoch": 2.1215466666666667, "grad_norm": 0.023408057528006107, "learning_rate": 0.0001, "loss": 0.9294, "step": 9779 }, { "epoch": 2.1216, "grad_norm": 0.025554928511048746, "learning_rate": 0.0001, "loss": 0.9448, "step": 9780 }, { "epoch": 2.121653333333333, "grad_norm": 0.023054793185986515, "learning_rate": 0.0001, "loss": 0.9833, "step": 9781 }, { "epoch": 2.121706666666667, "grad_norm": 0.02256384566788265, "learning_rate": 0.0001, "loss": 0.9842, "step": 9782 }, { "epoch": 2.12176, "grad_norm": 0.023256187087527434, "learning_rate": 0.0001, "loss": 0.9456, "step": 9783 }, { "epoch": 2.1218133333333333, "grad_norm": 0.02474502130567142, "learning_rate": 0.0001, "loss": 0.9398, "step": 9784 }, { "epoch": 2.1218666666666666, "grad_norm": 0.022616590064263586, "learning_rate": 0.0001, "loss": 1.0152, "step": 9785 }, { "epoch": 2.12192, "grad_norm": 0.023861170487568462, "learning_rate": 0.0001, "loss": 0.9845, "step": 9786 }, { "epoch": 2.1219733333333335, "grad_norm": 0.023948198369547445, "learning_rate": 0.0001, "loss": 1.0006, "step": 9787 }, { "epoch": 2.1220266666666667, "grad_norm": 0.02410135804916038, "learning_rate": 0.0001, "loss": 0.9746, "step": 9788 }, { "epoch": 2.12208, "grad_norm": 0.023143655648567157, "learning_rate": 0.0001, "loss": 0.9997, "step": 9789 }, { "epoch": 2.122133333333333, "grad_norm": 0.025235103431806963, "learning_rate": 0.0001, "loss": 0.9734, "step": 9790 }, { "epoch": 2.122186666666667, "grad_norm": 0.025169309301364594, "learning_rate": 0.0001, "loss": 0.9967, "step": 9791 }, { "epoch": 2.12224, "grad_norm": 0.023767814617486966, "learning_rate": 0.0001, "loss": 0.9147, "step": 9792 }, { "epoch": 2.1222933333333334, "grad_norm": 0.023771305711601767, "learning_rate": 0.0001, "loss": 0.9652, "step": 9793 }, { "epoch": 2.1223466666666666, "grad_norm": 0.025912816786276244, "learning_rate": 0.0001, "loss": 0.9457, "step": 9794 }, { "epoch": 2.1224, "grad_norm": 0.02410539062032174, "learning_rate": 0.0001, "loss": 0.9984, "step": 9795 }, { "epoch": 2.1224533333333335, "grad_norm": 0.02254631385668809, "learning_rate": 0.0001, "loss": 0.9785, "step": 9796 }, { "epoch": 2.1225066666666668, "grad_norm": 0.02199082020427589, "learning_rate": 0.0001, "loss": 0.969, "step": 9797 }, { "epoch": 2.12256, "grad_norm": 0.025394918442712227, "learning_rate": 0.0001, "loss": 0.9614, "step": 9798 }, { "epoch": 2.1226133333333332, "grad_norm": 0.023407697598098083, "learning_rate": 0.0001, "loss": 0.9266, "step": 9799 }, { "epoch": 2.1226666666666665, "grad_norm": 0.023177969806115178, "learning_rate": 0.0001, "loss": 1.0063, "step": 9800 }, { "epoch": 2.1226666666666665, "eval_accuracy": 0.6210363258245448, "eval_loss": 1.3494608402252197, "eval_runtime": 62.7963, "eval_samples_per_second": 15.925, "eval_steps_per_second": 0.51, "step": 9800 }, { "epoch": 2.12272, "grad_norm": 0.02449419105073747, "learning_rate": 0.0001, "loss": 0.9358, "step": 9801 }, { "epoch": 2.1227733333333334, "grad_norm": 0.023338629502281032, "learning_rate": 0.0001, "loss": 0.9883, "step": 9802 }, { "epoch": 2.1228266666666666, "grad_norm": 0.024046254953955452, "learning_rate": 0.0001, "loss": 0.9755, "step": 9803 }, { "epoch": 2.12288, "grad_norm": 0.02306809792425497, "learning_rate": 0.0001, "loss": 1.02, "step": 9804 }, { "epoch": 2.122933333333333, "grad_norm": 0.022616133496513292, "learning_rate": 0.0001, "loss": 0.9791, "step": 9805 }, { "epoch": 2.122986666666667, "grad_norm": 0.026409580496982457, "learning_rate": 0.0001, "loss": 0.9664, "step": 9806 }, { "epoch": 2.12304, "grad_norm": 0.02357198712366596, "learning_rate": 0.0001, "loss": 1.079, "step": 9807 }, { "epoch": 2.1230933333333333, "grad_norm": 0.023540029794974073, "learning_rate": 0.0001, "loss": 0.9507, "step": 9808 }, { "epoch": 2.1231466666666665, "grad_norm": 0.022291567873538563, "learning_rate": 0.0001, "loss": 0.9395, "step": 9809 }, { "epoch": 2.1232, "grad_norm": 0.024901116418349585, "learning_rate": 0.0001, "loss": 0.94, "step": 9810 }, { "epoch": 2.1232533333333334, "grad_norm": 0.02388975825258673, "learning_rate": 0.0001, "loss": 0.9858, "step": 9811 }, { "epoch": 2.1233066666666667, "grad_norm": 0.02461369939075909, "learning_rate": 0.0001, "loss": 1.007, "step": 9812 }, { "epoch": 2.12336, "grad_norm": 0.02384648120254766, "learning_rate": 0.0001, "loss": 0.9689, "step": 9813 }, { "epoch": 2.123413333333333, "grad_norm": 0.02535189277982303, "learning_rate": 0.0001, "loss": 0.9811, "step": 9814 }, { "epoch": 2.123466666666667, "grad_norm": 0.024889797733978234, "learning_rate": 0.0001, "loss": 1.0364, "step": 9815 }, { "epoch": 2.12352, "grad_norm": 0.024043969054958387, "learning_rate": 0.0001, "loss": 0.9864, "step": 9816 }, { "epoch": 2.1235733333333333, "grad_norm": 0.024169500534909273, "learning_rate": 0.0001, "loss": 0.9695, "step": 9817 }, { "epoch": 2.1236266666666666, "grad_norm": 0.02386387850266369, "learning_rate": 0.0001, "loss": 0.9923, "step": 9818 }, { "epoch": 2.12368, "grad_norm": 0.02504858200265635, "learning_rate": 0.0001, "loss": 1.0571, "step": 9819 }, { "epoch": 2.1237333333333335, "grad_norm": 0.024942996615440142, "learning_rate": 0.0001, "loss": 0.9766, "step": 9820 }, { "epoch": 2.1237866666666667, "grad_norm": 0.023868699103555838, "learning_rate": 0.0001, "loss": 0.9709, "step": 9821 }, { "epoch": 2.12384, "grad_norm": 0.025363943715521527, "learning_rate": 0.0001, "loss": 0.9868, "step": 9822 }, { "epoch": 2.123893333333333, "grad_norm": 0.02511901310568484, "learning_rate": 0.0001, "loss": 0.9458, "step": 9823 }, { "epoch": 2.123946666666667, "grad_norm": 0.023269361972897768, "learning_rate": 0.0001, "loss": 0.8999, "step": 9824 }, { "epoch": 2.124, "grad_norm": 0.024451878234680216, "learning_rate": 0.0001, "loss": 0.9786, "step": 9825 }, { "epoch": 2.1240533333333333, "grad_norm": 0.023636112878088634, "learning_rate": 0.0001, "loss": 1.0085, "step": 9826 }, { "epoch": 2.1241066666666666, "grad_norm": 0.022627162166966627, "learning_rate": 0.0001, "loss": 0.9345, "step": 9827 }, { "epoch": 2.12416, "grad_norm": 0.023952561972918722, "learning_rate": 0.0001, "loss": 1.0188, "step": 9828 }, { "epoch": 2.1242133333333335, "grad_norm": 0.02477739243285647, "learning_rate": 0.0001, "loss": 0.9686, "step": 9829 }, { "epoch": 2.1242666666666667, "grad_norm": 0.024681080324393576, "learning_rate": 0.0001, "loss": 0.9639, "step": 9830 }, { "epoch": 2.12432, "grad_norm": 0.023980233836672447, "learning_rate": 0.0001, "loss": 0.9619, "step": 9831 }, { "epoch": 2.1243733333333332, "grad_norm": 0.02307226113762788, "learning_rate": 0.0001, "loss": 1.0005, "step": 9832 }, { "epoch": 2.1244266666666665, "grad_norm": 0.02371889182260952, "learning_rate": 0.0001, "loss": 1.0009, "step": 9833 }, { "epoch": 2.12448, "grad_norm": 0.022749628145256655, "learning_rate": 0.0001, "loss": 0.9684, "step": 9834 }, { "epoch": 2.1245333333333334, "grad_norm": 0.023677328076786106, "learning_rate": 0.0001, "loss": 0.9487, "step": 9835 }, { "epoch": 2.1245866666666666, "grad_norm": 0.023926401307972127, "learning_rate": 0.0001, "loss": 0.8986, "step": 9836 }, { "epoch": 2.12464, "grad_norm": 0.025338415970142508, "learning_rate": 0.0001, "loss": 0.937, "step": 9837 }, { "epoch": 2.1246933333333335, "grad_norm": 0.023254462926710424, "learning_rate": 0.0001, "loss": 0.9843, "step": 9838 }, { "epoch": 2.124746666666667, "grad_norm": 0.02538154197202175, "learning_rate": 0.0001, "loss": 0.9067, "step": 9839 }, { "epoch": 2.1248, "grad_norm": 0.023495890431434248, "learning_rate": 0.0001, "loss": 0.9006, "step": 9840 }, { "epoch": 2.1248533333333333, "grad_norm": 0.024877206059151415, "learning_rate": 0.0001, "loss": 0.9272, "step": 9841 }, { "epoch": 2.1249066666666665, "grad_norm": 0.022660190883934776, "learning_rate": 0.0001, "loss": 0.9891, "step": 9842 }, { "epoch": 2.12496, "grad_norm": 0.02302387588039087, "learning_rate": 0.0001, "loss": 0.9412, "step": 9843 }, { "epoch": 2.1250133333333334, "grad_norm": 0.024062361011848225, "learning_rate": 0.0001, "loss": 1.0097, "step": 9844 }, { "epoch": 2.1250666666666667, "grad_norm": 0.02463210030570905, "learning_rate": 0.0001, "loss": 0.9859, "step": 9845 }, { "epoch": 2.12512, "grad_norm": 0.023873195050450165, "learning_rate": 0.0001, "loss": 0.941, "step": 9846 }, { "epoch": 2.125173333333333, "grad_norm": 0.024282534949311436, "learning_rate": 0.0001, "loss": 0.994, "step": 9847 }, { "epoch": 2.125226666666667, "grad_norm": 0.02568234799707927, "learning_rate": 0.0001, "loss": 0.9577, "step": 9848 }, { "epoch": 2.12528, "grad_norm": 0.022668184055029638, "learning_rate": 0.0001, "loss": 0.8861, "step": 9849 }, { "epoch": 2.1253333333333333, "grad_norm": 0.023013430260109557, "learning_rate": 0.0001, "loss": 0.9498, "step": 9850 }, { "epoch": 2.1253866666666665, "grad_norm": 0.02318020528723078, "learning_rate": 0.0001, "loss": 0.9041, "step": 9851 }, { "epoch": 2.12544, "grad_norm": 0.02341318192464049, "learning_rate": 0.0001, "loss": 0.9621, "step": 9852 }, { "epoch": 2.1254933333333335, "grad_norm": 0.023721403799660645, "learning_rate": 0.0001, "loss": 1.006, "step": 9853 }, { "epoch": 2.1255466666666667, "grad_norm": 0.02393198406337084, "learning_rate": 0.0001, "loss": 1.0301, "step": 9854 }, { "epoch": 2.1256, "grad_norm": 0.023126534104610554, "learning_rate": 0.0001, "loss": 0.9344, "step": 9855 }, { "epoch": 2.125653333333333, "grad_norm": 0.023025533308129127, "learning_rate": 0.0001, "loss": 0.9345, "step": 9856 }, { "epoch": 2.125706666666667, "grad_norm": 0.024251387190281422, "learning_rate": 0.0001, "loss": 0.9039, "step": 9857 }, { "epoch": 2.12576, "grad_norm": 0.02343247102226882, "learning_rate": 0.0001, "loss": 0.9453, "step": 9858 }, { "epoch": 2.1258133333333333, "grad_norm": 0.024630304657205074, "learning_rate": 0.0001, "loss": 0.9247, "step": 9859 }, { "epoch": 2.1258666666666666, "grad_norm": 0.023300798425973903, "learning_rate": 0.0001, "loss": 1.0372, "step": 9860 }, { "epoch": 2.12592, "grad_norm": 0.025296499962328117, "learning_rate": 0.0001, "loss": 0.9228, "step": 9861 }, { "epoch": 2.1259733333333335, "grad_norm": 0.026089417057782394, "learning_rate": 0.0001, "loss": 0.9475, "step": 9862 }, { "epoch": 2.1260266666666667, "grad_norm": 0.023869939916786778, "learning_rate": 0.0001, "loss": 0.9307, "step": 9863 }, { "epoch": 2.12608, "grad_norm": 0.023880906404000098, "learning_rate": 0.0001, "loss": 0.967, "step": 9864 }, { "epoch": 2.126133333333333, "grad_norm": 0.023909119464315814, "learning_rate": 0.0001, "loss": 0.9232, "step": 9865 }, { "epoch": 2.1261866666666664, "grad_norm": 0.024218037475285056, "learning_rate": 0.0001, "loss": 0.9405, "step": 9866 }, { "epoch": 2.12624, "grad_norm": 0.022868821304040523, "learning_rate": 0.0001, "loss": 0.9438, "step": 9867 }, { "epoch": 2.1262933333333334, "grad_norm": 0.024658770466725568, "learning_rate": 0.0001, "loss": 0.9082, "step": 9868 }, { "epoch": 2.1263466666666666, "grad_norm": 0.02473865668708195, "learning_rate": 0.0001, "loss": 0.8989, "step": 9869 }, { "epoch": 2.1264, "grad_norm": 0.0248789576043223, "learning_rate": 0.0001, "loss": 0.9849, "step": 9870 }, { "epoch": 2.1264533333333335, "grad_norm": 0.023593443837390354, "learning_rate": 0.0001, "loss": 0.9765, "step": 9871 }, { "epoch": 2.1265066666666668, "grad_norm": 0.0242630996591794, "learning_rate": 0.0001, "loss": 0.9274, "step": 9872 }, { "epoch": 2.12656, "grad_norm": 0.02379051156905776, "learning_rate": 0.0001, "loss": 0.9808, "step": 9873 }, { "epoch": 2.1266133333333332, "grad_norm": 0.024190591357134368, "learning_rate": 0.0001, "loss": 0.9674, "step": 9874 }, { "epoch": 2.1266666666666665, "grad_norm": 0.02302054356445863, "learning_rate": 0.0001, "loss": 0.9436, "step": 9875 }, { "epoch": 2.12672, "grad_norm": 0.025211671448825638, "learning_rate": 0.0001, "loss": 0.9977, "step": 9876 }, { "epoch": 2.1267733333333334, "grad_norm": 0.02470374186614638, "learning_rate": 0.0001, "loss": 1.0092, "step": 9877 }, { "epoch": 2.1268266666666666, "grad_norm": 0.02425147441263638, "learning_rate": 0.0001, "loss": 0.9779, "step": 9878 }, { "epoch": 2.12688, "grad_norm": 0.02422453863684807, "learning_rate": 0.0001, "loss": 0.9831, "step": 9879 }, { "epoch": 2.1269333333333336, "grad_norm": 0.02375179498862335, "learning_rate": 0.0001, "loss": 0.9606, "step": 9880 }, { "epoch": 2.126986666666667, "grad_norm": 0.023819376495008718, "learning_rate": 0.0001, "loss": 0.9707, "step": 9881 }, { "epoch": 2.12704, "grad_norm": 0.02336941790732215, "learning_rate": 0.0001, "loss": 0.9257, "step": 9882 }, { "epoch": 2.1270933333333333, "grad_norm": 0.0231386165404591, "learning_rate": 0.0001, "loss": 0.9414, "step": 9883 }, { "epoch": 2.1271466666666665, "grad_norm": 0.0235497861647861, "learning_rate": 0.0001, "loss": 0.9643, "step": 9884 }, { "epoch": 2.1272, "grad_norm": 0.02400476257429425, "learning_rate": 0.0001, "loss": 0.8918, "step": 9885 }, { "epoch": 2.1272533333333334, "grad_norm": 0.02510797875858962, "learning_rate": 0.0001, "loss": 0.9765, "step": 9886 }, { "epoch": 2.1273066666666667, "grad_norm": 0.02339854932257978, "learning_rate": 0.0001, "loss": 0.954, "step": 9887 }, { "epoch": 2.12736, "grad_norm": 0.02372053388949285, "learning_rate": 0.0001, "loss": 1.002, "step": 9888 }, { "epoch": 2.127413333333333, "grad_norm": 0.024244620762379775, "learning_rate": 0.0001, "loss": 0.9473, "step": 9889 }, { "epoch": 2.127466666666667, "grad_norm": 0.02326578209657165, "learning_rate": 0.0001, "loss": 1.072, "step": 9890 }, { "epoch": 2.12752, "grad_norm": 0.02491734125090313, "learning_rate": 0.0001, "loss": 0.9197, "step": 9891 }, { "epoch": 2.1275733333333333, "grad_norm": 0.026705169275157464, "learning_rate": 0.0001, "loss": 0.9717, "step": 9892 }, { "epoch": 2.1276266666666666, "grad_norm": 0.023957520235609618, "learning_rate": 0.0001, "loss": 0.9449, "step": 9893 }, { "epoch": 2.12768, "grad_norm": 0.02342011466903437, "learning_rate": 0.0001, "loss": 0.9865, "step": 9894 }, { "epoch": 2.1277333333333335, "grad_norm": 0.02440683271308908, "learning_rate": 0.0001, "loss": 0.9426, "step": 9895 }, { "epoch": 2.1277866666666667, "grad_norm": 0.02356604433229299, "learning_rate": 0.0001, "loss": 0.9987, "step": 9896 }, { "epoch": 2.12784, "grad_norm": 0.02456012104682992, "learning_rate": 0.0001, "loss": 1.0087, "step": 9897 }, { "epoch": 2.127893333333333, "grad_norm": 0.024612905237447715, "learning_rate": 0.0001, "loss": 0.9263, "step": 9898 }, { "epoch": 2.1279466666666664, "grad_norm": 0.024414624510047923, "learning_rate": 0.0001, "loss": 0.9852, "step": 9899 }, { "epoch": 2.128, "grad_norm": 0.021819617108314874, "learning_rate": 0.0001, "loss": 0.8973, "step": 9900 }, { "epoch": 2.1280533333333334, "grad_norm": 0.024477087281445476, "learning_rate": 0.0001, "loss": 0.9292, "step": 9901 }, { "epoch": 2.1281066666666666, "grad_norm": 0.022757662458223336, "learning_rate": 0.0001, "loss": 0.9963, "step": 9902 }, { "epoch": 2.12816, "grad_norm": 0.02397595135114989, "learning_rate": 0.0001, "loss": 0.9736, "step": 9903 }, { "epoch": 2.1282133333333335, "grad_norm": 0.02335184043154336, "learning_rate": 0.0001, "loss": 0.9279, "step": 9904 }, { "epoch": 2.1282666666666668, "grad_norm": 0.02278795509931126, "learning_rate": 0.0001, "loss": 0.9626, "step": 9905 }, { "epoch": 2.12832, "grad_norm": 0.02426520978051114, "learning_rate": 0.0001, "loss": 0.9712, "step": 9906 }, { "epoch": 2.1283733333333332, "grad_norm": 0.025144842036610722, "learning_rate": 0.0001, "loss": 0.9491, "step": 9907 }, { "epoch": 2.1284266666666665, "grad_norm": 0.02358578321074488, "learning_rate": 0.0001, "loss": 0.9887, "step": 9908 }, { "epoch": 2.12848, "grad_norm": 0.023573788160094287, "learning_rate": 0.0001, "loss": 0.9136, "step": 9909 }, { "epoch": 2.1285333333333334, "grad_norm": 0.02729231058270137, "learning_rate": 0.0001, "loss": 0.934, "step": 9910 }, { "epoch": 2.1285866666666666, "grad_norm": 0.023316542918024975, "learning_rate": 0.0001, "loss": 0.9302, "step": 9911 }, { "epoch": 2.12864, "grad_norm": 0.026077197676696307, "learning_rate": 0.0001, "loss": 0.9464, "step": 9912 }, { "epoch": 2.1286933333333335, "grad_norm": 0.024447378284749004, "learning_rate": 0.0001, "loss": 0.9843, "step": 9913 }, { "epoch": 2.128746666666667, "grad_norm": 0.024724686844163447, "learning_rate": 0.0001, "loss": 0.9496, "step": 9914 }, { "epoch": 2.1288, "grad_norm": 0.024568622281473523, "learning_rate": 0.0001, "loss": 0.9536, "step": 9915 }, { "epoch": 2.1288533333333333, "grad_norm": 0.024861810506531495, "learning_rate": 0.0001, "loss": 0.9356, "step": 9916 }, { "epoch": 2.1289066666666665, "grad_norm": 0.024910741183567876, "learning_rate": 0.0001, "loss": 0.9969, "step": 9917 }, { "epoch": 2.12896, "grad_norm": 0.02191564901349515, "learning_rate": 0.0001, "loss": 1.0065, "step": 9918 }, { "epoch": 2.1290133333333334, "grad_norm": 0.024165449510525717, "learning_rate": 0.0001, "loss": 0.9545, "step": 9919 }, { "epoch": 2.1290666666666667, "grad_norm": 0.024071772481053088, "learning_rate": 0.0001, "loss": 0.9564, "step": 9920 }, { "epoch": 2.12912, "grad_norm": 0.023613623676593653, "learning_rate": 0.0001, "loss": 0.9246, "step": 9921 }, { "epoch": 2.129173333333333, "grad_norm": 0.023405593093022006, "learning_rate": 0.0001, "loss": 0.9224, "step": 9922 }, { "epoch": 2.129226666666667, "grad_norm": 0.025014303827509767, "learning_rate": 0.0001, "loss": 0.9489, "step": 9923 }, { "epoch": 2.12928, "grad_norm": 0.025252493349467726, "learning_rate": 0.0001, "loss": 0.9512, "step": 9924 }, { "epoch": 2.1293333333333333, "grad_norm": 0.023317148324632473, "learning_rate": 0.0001, "loss": 0.9767, "step": 9925 }, { "epoch": 2.1293866666666665, "grad_norm": 0.023502859771561652, "learning_rate": 0.0001, "loss": 0.9529, "step": 9926 }, { "epoch": 2.1294399999999998, "grad_norm": 0.023731868361325646, "learning_rate": 0.0001, "loss": 0.9357, "step": 9927 }, { "epoch": 2.1294933333333335, "grad_norm": 0.02637260057064334, "learning_rate": 0.0001, "loss": 0.9174, "step": 9928 }, { "epoch": 2.1295466666666667, "grad_norm": 0.02391937620873924, "learning_rate": 0.0001, "loss": 1.0138, "step": 9929 }, { "epoch": 2.1296, "grad_norm": 0.02274812846716692, "learning_rate": 0.0001, "loss": 1.0004, "step": 9930 }, { "epoch": 2.129653333333333, "grad_norm": 0.022854225296102416, "learning_rate": 0.0001, "loss": 0.916, "step": 9931 }, { "epoch": 2.129706666666667, "grad_norm": 0.024945216835584524, "learning_rate": 0.0001, "loss": 0.9997, "step": 9932 }, { "epoch": 2.12976, "grad_norm": 0.025853789329470578, "learning_rate": 0.0001, "loss": 0.8834, "step": 9933 }, { "epoch": 2.1298133333333333, "grad_norm": 0.023806587711878015, "learning_rate": 0.0001, "loss": 0.9443, "step": 9934 }, { "epoch": 2.1298666666666666, "grad_norm": 0.023155227705634517, "learning_rate": 0.0001, "loss": 0.9298, "step": 9935 }, { "epoch": 2.12992, "grad_norm": 0.023189371700419154, "learning_rate": 0.0001, "loss": 0.915, "step": 9936 }, { "epoch": 2.1299733333333335, "grad_norm": 0.023653097823707718, "learning_rate": 0.0001, "loss": 0.9752, "step": 9937 }, { "epoch": 2.1300266666666667, "grad_norm": 0.023128738300234007, "learning_rate": 0.0001, "loss": 0.9471, "step": 9938 }, { "epoch": 2.13008, "grad_norm": 0.02286208766560143, "learning_rate": 0.0001, "loss": 0.8896, "step": 9939 }, { "epoch": 2.130133333333333, "grad_norm": 0.02389988288392258, "learning_rate": 0.0001, "loss": 0.9995, "step": 9940 }, { "epoch": 2.130186666666667, "grad_norm": 0.02374838854628771, "learning_rate": 0.0001, "loss": 0.9255, "step": 9941 }, { "epoch": 2.13024, "grad_norm": 0.028246483025503914, "learning_rate": 0.0001, "loss": 0.9368, "step": 9942 }, { "epoch": 2.1302933333333334, "grad_norm": 0.02629951607256805, "learning_rate": 0.0001, "loss": 0.939, "step": 9943 }, { "epoch": 2.1303466666666666, "grad_norm": 0.02525523136697994, "learning_rate": 0.0001, "loss": 0.9758, "step": 9944 }, { "epoch": 2.1304, "grad_norm": 0.02369907007921289, "learning_rate": 0.0001, "loss": 1.0023, "step": 9945 }, { "epoch": 2.1304533333333335, "grad_norm": 0.022341682044760204, "learning_rate": 0.0001, "loss": 0.9609, "step": 9946 }, { "epoch": 2.1305066666666668, "grad_norm": 0.023724149026588252, "learning_rate": 0.0001, "loss": 0.9503, "step": 9947 }, { "epoch": 2.13056, "grad_norm": 0.02518081494202175, "learning_rate": 0.0001, "loss": 0.9551, "step": 9948 }, { "epoch": 2.1306133333333332, "grad_norm": 0.024961042118960556, "learning_rate": 0.0001, "loss": 0.9497, "step": 9949 }, { "epoch": 2.1306666666666665, "grad_norm": 0.02428921810767605, "learning_rate": 0.0001, "loss": 0.9497, "step": 9950 }, { "epoch": 2.13072, "grad_norm": 0.025413260239408028, "learning_rate": 0.0001, "loss": 0.9958, "step": 9951 }, { "epoch": 2.1307733333333334, "grad_norm": 0.024494535724709176, "learning_rate": 0.0001, "loss": 0.946, "step": 9952 }, { "epoch": 2.1308266666666666, "grad_norm": 0.028757534562248326, "learning_rate": 0.0001, "loss": 0.9833, "step": 9953 }, { "epoch": 2.13088, "grad_norm": 0.0252474717417924, "learning_rate": 0.0001, "loss": 0.9715, "step": 9954 }, { "epoch": 2.130933333333333, "grad_norm": 0.022617630109325715, "learning_rate": 0.0001, "loss": 0.9776, "step": 9955 }, { "epoch": 2.130986666666667, "grad_norm": 0.026616245708034746, "learning_rate": 0.0001, "loss": 1.03, "step": 9956 }, { "epoch": 2.13104, "grad_norm": 0.02551220674025352, "learning_rate": 0.0001, "loss": 1.0082, "step": 9957 }, { "epoch": 2.1310933333333333, "grad_norm": 0.02256081764627935, "learning_rate": 0.0001, "loss": 0.966, "step": 9958 }, { "epoch": 2.1311466666666665, "grad_norm": 0.02481567008603959, "learning_rate": 0.0001, "loss": 0.9183, "step": 9959 }, { "epoch": 2.1312, "grad_norm": 0.02379683228203195, "learning_rate": 0.0001, "loss": 0.9419, "step": 9960 }, { "epoch": 2.1312533333333334, "grad_norm": 0.023176193522224737, "learning_rate": 0.0001, "loss": 0.9772, "step": 9961 }, { "epoch": 2.1313066666666667, "grad_norm": 0.02389960724600674, "learning_rate": 0.0001, "loss": 0.9807, "step": 9962 }, { "epoch": 2.13136, "grad_norm": 0.0251734257757099, "learning_rate": 0.0001, "loss": 0.953, "step": 9963 }, { "epoch": 2.131413333333333, "grad_norm": 0.02443723435379813, "learning_rate": 0.0001, "loss": 0.9357, "step": 9964 }, { "epoch": 2.131466666666667, "grad_norm": 0.024655748832832447, "learning_rate": 0.0001, "loss": 0.9606, "step": 9965 }, { "epoch": 2.13152, "grad_norm": 0.022540762121355695, "learning_rate": 0.0001, "loss": 0.9908, "step": 9966 }, { "epoch": 2.1315733333333333, "grad_norm": 0.02817138937210374, "learning_rate": 0.0001, "loss": 0.9984, "step": 9967 }, { "epoch": 2.1316266666666666, "grad_norm": 0.02367493473588227, "learning_rate": 0.0001, "loss": 0.9805, "step": 9968 }, { "epoch": 2.13168, "grad_norm": 0.024812444653707327, "learning_rate": 0.0001, "loss": 0.975, "step": 9969 }, { "epoch": 2.1317333333333335, "grad_norm": 0.02234854759893589, "learning_rate": 0.0001, "loss": 0.8991, "step": 9970 }, { "epoch": 2.1317866666666667, "grad_norm": 0.02297107018255144, "learning_rate": 0.0001, "loss": 0.9682, "step": 9971 }, { "epoch": 2.13184, "grad_norm": 0.02395439780725141, "learning_rate": 0.0001, "loss": 0.995, "step": 9972 }, { "epoch": 2.131893333333333, "grad_norm": 0.023442947661270183, "learning_rate": 0.0001, "loss": 0.9499, "step": 9973 }, { "epoch": 2.131946666666667, "grad_norm": 0.025760046704483883, "learning_rate": 0.0001, "loss": 0.9507, "step": 9974 }, { "epoch": 2.132, "grad_norm": 0.02306441592795346, "learning_rate": 0.0001, "loss": 0.944, "step": 9975 }, { "epoch": 2.1320533333333334, "grad_norm": 0.022617019265526877, "learning_rate": 0.0001, "loss": 0.9942, "step": 9976 }, { "epoch": 2.1321066666666666, "grad_norm": 0.023192784016914724, "learning_rate": 0.0001, "loss": 0.9843, "step": 9977 }, { "epoch": 2.13216, "grad_norm": 0.021963457983345543, "learning_rate": 0.0001, "loss": 0.8981, "step": 9978 }, { "epoch": 2.1322133333333335, "grad_norm": 0.022048438651209843, "learning_rate": 0.0001, "loss": 0.9762, "step": 9979 }, { "epoch": 2.1322666666666668, "grad_norm": 0.024266849635948714, "learning_rate": 0.0001, "loss": 0.9394, "step": 9980 }, { "epoch": 2.13232, "grad_norm": 0.025629378179256486, "learning_rate": 0.0001, "loss": 0.9614, "step": 9981 }, { "epoch": 2.1323733333333332, "grad_norm": 0.023846774850047856, "learning_rate": 0.0001, "loss": 0.9389, "step": 9982 }, { "epoch": 2.1324266666666665, "grad_norm": 0.025345236376977907, "learning_rate": 0.0001, "loss": 1.0078, "step": 9983 }, { "epoch": 2.13248, "grad_norm": 0.023389010400275936, "learning_rate": 0.0001, "loss": 0.9218, "step": 9984 }, { "epoch": 2.1325333333333334, "grad_norm": 0.024980986674934154, "learning_rate": 0.0001, "loss": 0.9554, "step": 9985 }, { "epoch": 2.1325866666666666, "grad_norm": 0.024235784438218777, "learning_rate": 0.0001, "loss": 1.0171, "step": 9986 }, { "epoch": 2.13264, "grad_norm": 0.022397086716912658, "learning_rate": 0.0001, "loss": 0.9428, "step": 9987 }, { "epoch": 2.132693333333333, "grad_norm": 0.02474476558946436, "learning_rate": 0.0001, "loss": 0.9928, "step": 9988 }, { "epoch": 2.132746666666667, "grad_norm": 0.024756499838956555, "learning_rate": 0.0001, "loss": 1.0093, "step": 9989 }, { "epoch": 2.1328, "grad_norm": 0.025090213931948185, "learning_rate": 0.0001, "loss": 0.927, "step": 9990 }, { "epoch": 2.1328533333333333, "grad_norm": 0.025123059067483827, "learning_rate": 0.0001, "loss": 0.9575, "step": 9991 }, { "epoch": 2.1329066666666665, "grad_norm": 0.02353536283145298, "learning_rate": 0.0001, "loss": 0.9571, "step": 9992 }, { "epoch": 2.13296, "grad_norm": 0.02253768955121066, "learning_rate": 0.0001, "loss": 1.0075, "step": 9993 }, { "epoch": 2.1330133333333334, "grad_norm": 0.025816941814022363, "learning_rate": 0.0001, "loss": 0.925, "step": 9994 }, { "epoch": 2.1330666666666667, "grad_norm": 0.02298359446159713, "learning_rate": 0.0001, "loss": 1.0011, "step": 9995 }, { "epoch": 2.13312, "grad_norm": 0.024672132692176607, "learning_rate": 0.0001, "loss": 0.9174, "step": 9996 }, { "epoch": 2.133173333333333, "grad_norm": 0.023535531530901932, "learning_rate": 0.0001, "loss": 0.9339, "step": 9997 }, { "epoch": 2.133226666666667, "grad_norm": 0.022344828420781886, "learning_rate": 0.0001, "loss": 0.9623, "step": 9998 }, { "epoch": 2.13328, "grad_norm": 0.025205661115455514, "learning_rate": 0.0001, "loss": 0.9465, "step": 9999 }, { "epoch": 2.1333333333333333, "grad_norm": 0.025395970437827115, "learning_rate": 0.0001, "loss": 0.9758, "step": 10000 }, { "epoch": 2.1333333333333333, "eval_accuracy": 0.6211668384948805, "eval_loss": 1.3488553762435913, "eval_runtime": 63.2266, "eval_samples_per_second": 15.816, "eval_steps_per_second": 0.506, "step": 10000 }, { "epoch": 2.1333866666666665, "grad_norm": 0.025535033416991555, "learning_rate": 0.0001, "loss": 1.0121, "step": 10001 }, { "epoch": 2.1334400000000002, "grad_norm": 0.022648869844646796, "learning_rate": 0.0001, "loss": 1.0127, "step": 10002 }, { "epoch": 2.1334933333333335, "grad_norm": 0.02404716958860301, "learning_rate": 0.0001, "loss": 1.0025, "step": 10003 }, { "epoch": 2.1335466666666667, "grad_norm": 0.02429757489819622, "learning_rate": 0.0001, "loss": 0.8928, "step": 10004 }, { "epoch": 2.1336, "grad_norm": 0.022357267090850366, "learning_rate": 0.0001, "loss": 0.9479, "step": 10005 }, { "epoch": 2.133653333333333, "grad_norm": 0.022839253422924352, "learning_rate": 0.0001, "loss": 0.9745, "step": 10006 }, { "epoch": 2.133706666666667, "grad_norm": 0.024064064910902707, "learning_rate": 0.0001, "loss": 0.9644, "step": 10007 }, { "epoch": 2.13376, "grad_norm": 0.023131555653487613, "learning_rate": 0.0001, "loss": 0.992, "step": 10008 }, { "epoch": 2.1338133333333333, "grad_norm": 0.023804523330620928, "learning_rate": 0.0001, "loss": 0.9284, "step": 10009 }, { "epoch": 2.1338666666666666, "grad_norm": 0.023125432638670552, "learning_rate": 0.0001, "loss": 0.9015, "step": 10010 }, { "epoch": 2.13392, "grad_norm": 0.022946147483460688, "learning_rate": 0.0001, "loss": 0.9389, "step": 10011 }, { "epoch": 2.1339733333333335, "grad_norm": 0.022895480228970505, "learning_rate": 0.0001, "loss": 0.9858, "step": 10012 }, { "epoch": 2.1340266666666667, "grad_norm": 0.023942326975608906, "learning_rate": 0.0001, "loss": 0.9598, "step": 10013 }, { "epoch": 2.13408, "grad_norm": 0.0247207648429355, "learning_rate": 0.0001, "loss": 1.0179, "step": 10014 }, { "epoch": 2.134133333333333, "grad_norm": 0.024217408711040292, "learning_rate": 0.0001, "loss": 0.9588, "step": 10015 }, { "epoch": 2.1341866666666665, "grad_norm": 0.022629399740867855, "learning_rate": 0.0001, "loss": 0.97, "step": 10016 }, { "epoch": 2.13424, "grad_norm": 0.024381171990853122, "learning_rate": 0.0001, "loss": 0.9114, "step": 10017 }, { "epoch": 2.1342933333333334, "grad_norm": 0.025772413826917955, "learning_rate": 0.0001, "loss": 0.9244, "step": 10018 }, { "epoch": 2.1343466666666666, "grad_norm": 0.02409029922345196, "learning_rate": 0.0001, "loss": 0.9551, "step": 10019 }, { "epoch": 2.1344, "grad_norm": 0.022917538805533634, "learning_rate": 0.0001, "loss": 0.9234, "step": 10020 }, { "epoch": 2.1344533333333335, "grad_norm": 0.022882057466768205, "learning_rate": 0.0001, "loss": 0.9089, "step": 10021 }, { "epoch": 2.1345066666666668, "grad_norm": 0.026541204986988035, "learning_rate": 0.0001, "loss": 1.0033, "step": 10022 }, { "epoch": 2.13456, "grad_norm": 0.02311308503988414, "learning_rate": 0.0001, "loss": 1.0041, "step": 10023 }, { "epoch": 2.1346133333333333, "grad_norm": 0.022926590064770665, "learning_rate": 0.0001, "loss": 0.9773, "step": 10024 }, { "epoch": 2.1346666666666665, "grad_norm": 0.022237892237434595, "learning_rate": 0.0001, "loss": 0.9702, "step": 10025 }, { "epoch": 2.13472, "grad_norm": 0.024177115815073213, "learning_rate": 0.0001, "loss": 0.9593, "step": 10026 }, { "epoch": 2.1347733333333334, "grad_norm": 0.026360153288924073, "learning_rate": 0.0001, "loss": 0.9562, "step": 10027 }, { "epoch": 2.1348266666666667, "grad_norm": 0.02313476382124696, "learning_rate": 0.0001, "loss": 0.9201, "step": 10028 }, { "epoch": 2.13488, "grad_norm": 0.02348111336136442, "learning_rate": 0.0001, "loss": 0.9934, "step": 10029 }, { "epoch": 2.134933333333333, "grad_norm": 0.02282653074277531, "learning_rate": 0.0001, "loss": 0.9816, "step": 10030 }, { "epoch": 2.134986666666667, "grad_norm": 0.024395412213488163, "learning_rate": 0.0001, "loss": 0.9331, "step": 10031 }, { "epoch": 2.13504, "grad_norm": 0.02444405804199922, "learning_rate": 0.0001, "loss": 0.9688, "step": 10032 }, { "epoch": 2.1350933333333333, "grad_norm": 0.023257354927160186, "learning_rate": 0.0001, "loss": 0.9334, "step": 10033 }, { "epoch": 2.1351466666666665, "grad_norm": 0.02463391567504066, "learning_rate": 0.0001, "loss": 0.9878, "step": 10034 }, { "epoch": 2.1352, "grad_norm": 0.0231573369545169, "learning_rate": 0.0001, "loss": 0.9458, "step": 10035 }, { "epoch": 2.1352533333333334, "grad_norm": 0.02250827297044125, "learning_rate": 0.0001, "loss": 0.9768, "step": 10036 }, { "epoch": 2.1353066666666667, "grad_norm": 0.023517679785674477, "learning_rate": 0.0001, "loss": 0.9494, "step": 10037 }, { "epoch": 2.13536, "grad_norm": 0.024773438889435336, "learning_rate": 0.0001, "loss": 0.9501, "step": 10038 }, { "epoch": 2.135413333333333, "grad_norm": 0.0225416680873728, "learning_rate": 0.0001, "loss": 0.9791, "step": 10039 }, { "epoch": 2.135466666666667, "grad_norm": 0.023298971606438016, "learning_rate": 0.0001, "loss": 0.9984, "step": 10040 }, { "epoch": 2.13552, "grad_norm": 0.025586789447802273, "learning_rate": 0.0001, "loss": 0.9476, "step": 10041 }, { "epoch": 2.1355733333333333, "grad_norm": 0.023922842283977407, "learning_rate": 0.0001, "loss": 0.9893, "step": 10042 }, { "epoch": 2.1356266666666666, "grad_norm": 0.024540494003494888, "learning_rate": 0.0001, "loss": 0.9314, "step": 10043 }, { "epoch": 2.13568, "grad_norm": 0.023560209971827326, "learning_rate": 0.0001, "loss": 0.9724, "step": 10044 }, { "epoch": 2.1357333333333335, "grad_norm": 0.023296144328609568, "learning_rate": 0.0001, "loss": 0.91, "step": 10045 }, { "epoch": 2.1357866666666667, "grad_norm": 0.02541843556022851, "learning_rate": 0.0001, "loss": 0.9628, "step": 10046 }, { "epoch": 2.13584, "grad_norm": 0.0253329528367038, "learning_rate": 0.0001, "loss": 1.0249, "step": 10047 }, { "epoch": 2.135893333333333, "grad_norm": 0.02323800198439594, "learning_rate": 0.0001, "loss": 0.9538, "step": 10048 }, { "epoch": 2.1359466666666664, "grad_norm": 0.023065669319996637, "learning_rate": 0.0001, "loss": 0.9533, "step": 10049 }, { "epoch": 2.136, "grad_norm": 0.02491223251615032, "learning_rate": 0.0001, "loss": 0.9526, "step": 10050 }, { "epoch": 2.1360533333333334, "grad_norm": 0.022948258440827998, "learning_rate": 0.0001, "loss": 1.0221, "step": 10051 }, { "epoch": 2.1361066666666666, "grad_norm": 0.02317925345106152, "learning_rate": 0.0001, "loss": 0.9268, "step": 10052 }, { "epoch": 2.13616, "grad_norm": 0.022826240595873504, "learning_rate": 0.0001, "loss": 0.9539, "step": 10053 }, { "epoch": 2.1362133333333335, "grad_norm": 0.02546437812395611, "learning_rate": 0.0001, "loss": 0.9176, "step": 10054 }, { "epoch": 2.1362666666666668, "grad_norm": 0.023762112003651855, "learning_rate": 0.0001, "loss": 0.9278, "step": 10055 }, { "epoch": 2.13632, "grad_norm": 0.024669548933840293, "learning_rate": 0.0001, "loss": 0.9462, "step": 10056 }, { "epoch": 2.1363733333333332, "grad_norm": 0.02487823772512136, "learning_rate": 0.0001, "loss": 0.9688, "step": 10057 }, { "epoch": 2.1364266666666665, "grad_norm": 0.023683382836746498, "learning_rate": 0.0001, "loss": 0.9585, "step": 10058 }, { "epoch": 2.13648, "grad_norm": 0.02341548483100478, "learning_rate": 0.0001, "loss": 0.9692, "step": 10059 }, { "epoch": 2.1365333333333334, "grad_norm": 0.0235589882188244, "learning_rate": 0.0001, "loss": 0.9685, "step": 10060 }, { "epoch": 2.1365866666666666, "grad_norm": 0.024072633313968375, "learning_rate": 0.0001, "loss": 0.9461, "step": 10061 }, { "epoch": 2.13664, "grad_norm": 0.025053789353847698, "learning_rate": 0.0001, "loss": 0.9214, "step": 10062 }, { "epoch": 2.1366933333333336, "grad_norm": 0.023708669766930323, "learning_rate": 0.0001, "loss": 0.9832, "step": 10063 }, { "epoch": 2.136746666666667, "grad_norm": 0.02544067554196484, "learning_rate": 0.0001, "loss": 0.9642, "step": 10064 }, { "epoch": 2.1368, "grad_norm": 0.02516726282826622, "learning_rate": 0.0001, "loss": 1.0226, "step": 10065 }, { "epoch": 2.1368533333333333, "grad_norm": 0.023674999459631384, "learning_rate": 0.0001, "loss": 0.9312, "step": 10066 }, { "epoch": 2.1369066666666665, "grad_norm": 0.02403094790583123, "learning_rate": 0.0001, "loss": 0.9926, "step": 10067 }, { "epoch": 2.13696, "grad_norm": 0.025454321032187918, "learning_rate": 0.0001, "loss": 0.9763, "step": 10068 }, { "epoch": 2.1370133333333334, "grad_norm": 0.023089002833062963, "learning_rate": 0.0001, "loss": 0.9978, "step": 10069 }, { "epoch": 2.1370666666666667, "grad_norm": 0.025004065625129246, "learning_rate": 0.0001, "loss": 0.9186, "step": 10070 }, { "epoch": 2.13712, "grad_norm": 0.024086520839184396, "learning_rate": 0.0001, "loss": 0.9172, "step": 10071 }, { "epoch": 2.137173333333333, "grad_norm": 0.022874556743363788, "learning_rate": 0.0001, "loss": 0.9934, "step": 10072 }, { "epoch": 2.137226666666667, "grad_norm": 0.025461977896244145, "learning_rate": 0.0001, "loss": 0.9792, "step": 10073 }, { "epoch": 2.13728, "grad_norm": 0.024681893568453846, "learning_rate": 0.0001, "loss": 0.9552, "step": 10074 }, { "epoch": 2.1373333333333333, "grad_norm": 0.022967543718709255, "learning_rate": 0.0001, "loss": 1.0169, "step": 10075 }, { "epoch": 2.1373866666666665, "grad_norm": 0.02625871280093816, "learning_rate": 0.0001, "loss": 0.9792, "step": 10076 }, { "epoch": 2.13744, "grad_norm": 0.024313244154723312, "learning_rate": 0.0001, "loss": 0.9768, "step": 10077 }, { "epoch": 2.1374933333333335, "grad_norm": 0.02496684024414466, "learning_rate": 0.0001, "loss": 0.934, "step": 10078 }, { "epoch": 2.1375466666666667, "grad_norm": 0.0237731601333391, "learning_rate": 0.0001, "loss": 0.9165, "step": 10079 }, { "epoch": 2.1376, "grad_norm": 0.022835191804782853, "learning_rate": 0.0001, "loss": 0.982, "step": 10080 }, { "epoch": 2.137653333333333, "grad_norm": 0.024095274743213293, "learning_rate": 0.0001, "loss": 1.0328, "step": 10081 }, { "epoch": 2.137706666666667, "grad_norm": 0.024596800409594277, "learning_rate": 0.0001, "loss": 0.9594, "step": 10082 }, { "epoch": 2.13776, "grad_norm": 0.02553917468803141, "learning_rate": 0.0001, "loss": 1.0069, "step": 10083 }, { "epoch": 2.1378133333333333, "grad_norm": 0.02226166381111202, "learning_rate": 0.0001, "loss": 0.9394, "step": 10084 }, { "epoch": 2.1378666666666666, "grad_norm": 0.023967077855167142, "learning_rate": 0.0001, "loss": 0.9779, "step": 10085 }, { "epoch": 2.13792, "grad_norm": 0.02332271313811308, "learning_rate": 0.0001, "loss": 0.9682, "step": 10086 }, { "epoch": 2.1379733333333335, "grad_norm": 0.023378452739938077, "learning_rate": 0.0001, "loss": 0.9769, "step": 10087 }, { "epoch": 2.1380266666666667, "grad_norm": 0.02262490127751747, "learning_rate": 0.0001, "loss": 0.9953, "step": 10088 }, { "epoch": 2.13808, "grad_norm": 0.02406301486475837, "learning_rate": 0.0001, "loss": 0.999, "step": 10089 }, { "epoch": 2.138133333333333, "grad_norm": 0.024136740212048695, "learning_rate": 0.0001, "loss": 1.0268, "step": 10090 }, { "epoch": 2.138186666666667, "grad_norm": 0.02439659297981149, "learning_rate": 0.0001, "loss": 0.9496, "step": 10091 }, { "epoch": 2.13824, "grad_norm": 0.022424948310235948, "learning_rate": 0.0001, "loss": 0.9342, "step": 10092 }, { "epoch": 2.1382933333333334, "grad_norm": 0.022147775775002907, "learning_rate": 0.0001, "loss": 0.952, "step": 10093 }, { "epoch": 2.1383466666666666, "grad_norm": 0.023705209031945985, "learning_rate": 0.0001, "loss": 0.9593, "step": 10094 }, { "epoch": 2.1384, "grad_norm": 0.021882658772664095, "learning_rate": 0.0001, "loss": 0.9292, "step": 10095 }, { "epoch": 2.1384533333333335, "grad_norm": 0.023332021438275233, "learning_rate": 0.0001, "loss": 1.0264, "step": 10096 }, { "epoch": 2.1385066666666668, "grad_norm": 0.024428423866695352, "learning_rate": 0.0001, "loss": 0.9628, "step": 10097 }, { "epoch": 2.13856, "grad_norm": 0.02376372102971266, "learning_rate": 0.0001, "loss": 1.0043, "step": 10098 }, { "epoch": 2.1386133333333333, "grad_norm": 0.0225742760185711, "learning_rate": 0.0001, "loss": 0.9516, "step": 10099 }, { "epoch": 2.1386666666666665, "grad_norm": 0.023442335814073564, "learning_rate": 0.0001, "loss": 0.9502, "step": 10100 }, { "epoch": 2.13872, "grad_norm": 0.023057982459724683, "learning_rate": 0.0001, "loss": 0.9686, "step": 10101 }, { "epoch": 2.1387733333333334, "grad_norm": 0.023886665111601202, "learning_rate": 0.0001, "loss": 0.9446, "step": 10102 }, { "epoch": 2.1388266666666667, "grad_norm": 0.024573664322582976, "learning_rate": 0.0001, "loss": 0.9747, "step": 10103 }, { "epoch": 2.13888, "grad_norm": 0.023030167368000835, "learning_rate": 0.0001, "loss": 0.949, "step": 10104 }, { "epoch": 2.138933333333333, "grad_norm": 0.022348300670371416, "learning_rate": 0.0001, "loss": 0.9502, "step": 10105 }, { "epoch": 2.138986666666667, "grad_norm": 0.023474341120321845, "learning_rate": 0.0001, "loss": 0.9285, "step": 10106 }, { "epoch": 2.13904, "grad_norm": 0.02377144872294054, "learning_rate": 0.0001, "loss": 0.9109, "step": 10107 }, { "epoch": 2.1390933333333333, "grad_norm": 0.023654770862246502, "learning_rate": 0.0001, "loss": 0.9608, "step": 10108 }, { "epoch": 2.1391466666666665, "grad_norm": 0.02300914323749226, "learning_rate": 0.0001, "loss": 0.9565, "step": 10109 }, { "epoch": 2.1391999999999998, "grad_norm": 0.023716511605191174, "learning_rate": 0.0001, "loss": 0.9968, "step": 10110 }, { "epoch": 2.1392533333333335, "grad_norm": 0.021929851625500277, "learning_rate": 0.0001, "loss": 0.9844, "step": 10111 }, { "epoch": 2.1393066666666667, "grad_norm": 0.02506318833623819, "learning_rate": 0.0001, "loss": 1.0069, "step": 10112 }, { "epoch": 2.13936, "grad_norm": 0.02561030886616965, "learning_rate": 0.0001, "loss": 0.9385, "step": 10113 }, { "epoch": 2.139413333333333, "grad_norm": 0.022921893316087457, "learning_rate": 0.0001, "loss": 0.9338, "step": 10114 }, { "epoch": 2.139466666666667, "grad_norm": 0.02450639632746901, "learning_rate": 0.0001, "loss": 0.9662, "step": 10115 }, { "epoch": 2.13952, "grad_norm": 0.024930456221289164, "learning_rate": 0.0001, "loss": 0.9392, "step": 10116 }, { "epoch": 2.1395733333333333, "grad_norm": 0.023773710990337073, "learning_rate": 0.0001, "loss": 0.9524, "step": 10117 }, { "epoch": 2.1396266666666666, "grad_norm": 0.030214191261244392, "learning_rate": 0.0001, "loss": 0.9573, "step": 10118 }, { "epoch": 2.13968, "grad_norm": 0.022310635305482083, "learning_rate": 0.0001, "loss": 0.9766, "step": 10119 }, { "epoch": 2.1397333333333335, "grad_norm": 0.024397083604262154, "learning_rate": 0.0001, "loss": 0.9345, "step": 10120 }, { "epoch": 2.1397866666666667, "grad_norm": 0.02489177441194842, "learning_rate": 0.0001, "loss": 0.9524, "step": 10121 }, { "epoch": 2.13984, "grad_norm": 0.023410510584858157, "learning_rate": 0.0001, "loss": 0.9403, "step": 10122 }, { "epoch": 2.139893333333333, "grad_norm": 0.023516030418940924, "learning_rate": 0.0001, "loss": 1.0347, "step": 10123 }, { "epoch": 2.139946666666667, "grad_norm": 0.024687025965385252, "learning_rate": 0.0001, "loss": 0.995, "step": 10124 }, { "epoch": 2.14, "grad_norm": 0.02465533949175129, "learning_rate": 0.0001, "loss": 0.937, "step": 10125 }, { "epoch": 2.1400533333333334, "grad_norm": 0.023986239812384947, "learning_rate": 0.0001, "loss": 0.939, "step": 10126 }, { "epoch": 2.1401066666666666, "grad_norm": 0.026155413042283387, "learning_rate": 0.0001, "loss": 1.0125, "step": 10127 }, { "epoch": 2.14016, "grad_norm": 0.023315542144357822, "learning_rate": 0.0001, "loss": 1.0041, "step": 10128 }, { "epoch": 2.1402133333333335, "grad_norm": 0.023817294945565576, "learning_rate": 0.0001, "loss": 0.8829, "step": 10129 }, { "epoch": 2.1402666666666668, "grad_norm": 0.024572685692594746, "learning_rate": 0.0001, "loss": 0.9637, "step": 10130 }, { "epoch": 2.14032, "grad_norm": 0.023539048085273805, "learning_rate": 0.0001, "loss": 0.9777, "step": 10131 }, { "epoch": 2.1403733333333332, "grad_norm": 0.02388190128049265, "learning_rate": 0.0001, "loss": 0.9874, "step": 10132 }, { "epoch": 2.1404266666666665, "grad_norm": 0.02306629610277777, "learning_rate": 0.0001, "loss": 1.0134, "step": 10133 }, { "epoch": 2.14048, "grad_norm": 0.02289004334955011, "learning_rate": 0.0001, "loss": 0.9426, "step": 10134 }, { "epoch": 2.1405333333333334, "grad_norm": 0.02378195314455538, "learning_rate": 0.0001, "loss": 0.981, "step": 10135 }, { "epoch": 2.1405866666666666, "grad_norm": 0.023324510356599763, "learning_rate": 0.0001, "loss": 0.9652, "step": 10136 }, { "epoch": 2.14064, "grad_norm": 0.024895696052489782, "learning_rate": 0.0001, "loss": 0.962, "step": 10137 }, { "epoch": 2.140693333333333, "grad_norm": 0.023070878252764805, "learning_rate": 0.0001, "loss": 0.9983, "step": 10138 }, { "epoch": 2.140746666666667, "grad_norm": 0.02271897919664065, "learning_rate": 0.0001, "loss": 0.9996, "step": 10139 }, { "epoch": 2.1408, "grad_norm": 0.02141651725917044, "learning_rate": 0.0001, "loss": 0.92, "step": 10140 }, { "epoch": 2.1408533333333333, "grad_norm": 0.02444699885574177, "learning_rate": 0.0001, "loss": 1.0416, "step": 10141 }, { "epoch": 2.1409066666666665, "grad_norm": 0.023347625344403735, "learning_rate": 0.0001, "loss": 0.9808, "step": 10142 }, { "epoch": 2.14096, "grad_norm": 0.023223604689722146, "learning_rate": 0.0001, "loss": 0.9232, "step": 10143 }, { "epoch": 2.1410133333333334, "grad_norm": 0.022756063810294033, "learning_rate": 0.0001, "loss": 0.9209, "step": 10144 }, { "epoch": 2.1410666666666667, "grad_norm": 0.0235603933717486, "learning_rate": 0.0001, "loss": 0.9637, "step": 10145 }, { "epoch": 2.14112, "grad_norm": 0.03406956086692379, "learning_rate": 0.0001, "loss": 0.9245, "step": 10146 }, { "epoch": 2.141173333333333, "grad_norm": 0.025800432509570804, "learning_rate": 0.0001, "loss": 0.9405, "step": 10147 }, { "epoch": 2.141226666666667, "grad_norm": 0.023451077108151204, "learning_rate": 0.0001, "loss": 0.9605, "step": 10148 }, { "epoch": 2.14128, "grad_norm": 0.023523482346342356, "learning_rate": 0.0001, "loss": 0.9354, "step": 10149 }, { "epoch": 2.1413333333333333, "grad_norm": 0.023959889401792164, "learning_rate": 0.0001, "loss": 0.9569, "step": 10150 }, { "epoch": 2.1413866666666665, "grad_norm": 0.023258653513123187, "learning_rate": 0.0001, "loss": 0.9553, "step": 10151 }, { "epoch": 2.1414400000000002, "grad_norm": 0.02546516567725732, "learning_rate": 0.0001, "loss": 0.9813, "step": 10152 }, { "epoch": 2.1414933333333335, "grad_norm": 0.023997488131976392, "learning_rate": 0.0001, "loss": 0.9815, "step": 10153 }, { "epoch": 2.1415466666666667, "grad_norm": 0.022899671334210538, "learning_rate": 0.0001, "loss": 0.961, "step": 10154 }, { "epoch": 2.1416, "grad_norm": 0.02604548936991041, "learning_rate": 0.0001, "loss": 0.9432, "step": 10155 }, { "epoch": 2.141653333333333, "grad_norm": 0.024309849437525573, "learning_rate": 0.0001, "loss": 0.9334, "step": 10156 }, { "epoch": 2.141706666666667, "grad_norm": 0.023217026009398952, "learning_rate": 0.0001, "loss": 0.9303, "step": 10157 }, { "epoch": 2.14176, "grad_norm": 0.02363661330275017, "learning_rate": 0.0001, "loss": 0.9386, "step": 10158 }, { "epoch": 2.1418133333333333, "grad_norm": 0.023578348194788355, "learning_rate": 0.0001, "loss": 1.0064, "step": 10159 }, { "epoch": 2.1418666666666666, "grad_norm": 0.02444729073515834, "learning_rate": 0.0001, "loss": 0.9452, "step": 10160 }, { "epoch": 2.14192, "grad_norm": 0.023848561686787825, "learning_rate": 0.0001, "loss": 0.9603, "step": 10161 }, { "epoch": 2.1419733333333335, "grad_norm": 0.02264310762760964, "learning_rate": 0.0001, "loss": 0.9279, "step": 10162 }, { "epoch": 2.1420266666666667, "grad_norm": 0.023367214066513133, "learning_rate": 0.0001, "loss": 0.9764, "step": 10163 }, { "epoch": 2.14208, "grad_norm": 0.0246186846197609, "learning_rate": 0.0001, "loss": 0.9255, "step": 10164 }, { "epoch": 2.1421333333333332, "grad_norm": 0.02292935899840984, "learning_rate": 0.0001, "loss": 0.9617, "step": 10165 }, { "epoch": 2.1421866666666665, "grad_norm": 0.022232373507805648, "learning_rate": 0.0001, "loss": 0.9553, "step": 10166 }, { "epoch": 2.14224, "grad_norm": 0.02454499543492885, "learning_rate": 0.0001, "loss": 0.9514, "step": 10167 }, { "epoch": 2.1422933333333334, "grad_norm": 0.02274934870492224, "learning_rate": 0.0001, "loss": 0.9606, "step": 10168 }, { "epoch": 2.1423466666666666, "grad_norm": 0.02362968505992439, "learning_rate": 0.0001, "loss": 0.9932, "step": 10169 }, { "epoch": 2.1424, "grad_norm": 0.02300740961562532, "learning_rate": 0.0001, "loss": 0.9907, "step": 10170 }, { "epoch": 2.142453333333333, "grad_norm": 0.02327663718474707, "learning_rate": 0.0001, "loss": 0.9664, "step": 10171 }, { "epoch": 2.142506666666667, "grad_norm": 0.022522731751295138, "learning_rate": 0.0001, "loss": 0.9865, "step": 10172 }, { "epoch": 2.14256, "grad_norm": 0.023381146976371028, "learning_rate": 0.0001, "loss": 0.9634, "step": 10173 }, { "epoch": 2.1426133333333333, "grad_norm": 0.02308851700143751, "learning_rate": 0.0001, "loss": 1.018, "step": 10174 }, { "epoch": 2.1426666666666665, "grad_norm": 0.025134135138583757, "learning_rate": 0.0001, "loss": 0.9201, "step": 10175 }, { "epoch": 2.14272, "grad_norm": 0.02404871855904263, "learning_rate": 0.0001, "loss": 0.9683, "step": 10176 }, { "epoch": 2.1427733333333334, "grad_norm": 0.025552098370465036, "learning_rate": 0.0001, "loss": 1.018, "step": 10177 }, { "epoch": 2.1428266666666667, "grad_norm": 0.023903829711296034, "learning_rate": 0.0001, "loss": 0.9998, "step": 10178 }, { "epoch": 2.14288, "grad_norm": 0.022846231563680642, "learning_rate": 0.0001, "loss": 0.9878, "step": 10179 }, { "epoch": 2.142933333333333, "grad_norm": 0.023743748235311356, "learning_rate": 0.0001, "loss": 0.9341, "step": 10180 }, { "epoch": 2.142986666666667, "grad_norm": 0.028194819238819755, "learning_rate": 0.0001, "loss": 0.9319, "step": 10181 }, { "epoch": 2.14304, "grad_norm": 0.023842773285894337, "learning_rate": 0.0001, "loss": 0.9072, "step": 10182 }, { "epoch": 2.1430933333333333, "grad_norm": 0.021966462748764015, "learning_rate": 0.0001, "loss": 0.9118, "step": 10183 }, { "epoch": 2.1431466666666665, "grad_norm": 0.0243368413880271, "learning_rate": 0.0001, "loss": 0.9753, "step": 10184 }, { "epoch": 2.1432, "grad_norm": 0.024402483607077724, "learning_rate": 0.0001, "loss": 0.9701, "step": 10185 }, { "epoch": 2.1432533333333335, "grad_norm": 0.0240445183524096, "learning_rate": 0.0001, "loss": 0.9732, "step": 10186 }, { "epoch": 2.1433066666666667, "grad_norm": 0.02323988771048596, "learning_rate": 0.0001, "loss": 0.9489, "step": 10187 }, { "epoch": 2.14336, "grad_norm": 0.024191336725551064, "learning_rate": 0.0001, "loss": 1.0043, "step": 10188 }, { "epoch": 2.143413333333333, "grad_norm": 0.024317722030778, "learning_rate": 0.0001, "loss": 1.0071, "step": 10189 }, { "epoch": 2.143466666666667, "grad_norm": 0.024757705425907404, "learning_rate": 0.0001, "loss": 0.9562, "step": 10190 }, { "epoch": 2.14352, "grad_norm": 0.02208971743838138, "learning_rate": 0.0001, "loss": 0.9702, "step": 10191 }, { "epoch": 2.1435733333333333, "grad_norm": 0.026446562957339576, "learning_rate": 0.0001, "loss": 0.9961, "step": 10192 }, { "epoch": 2.1436266666666666, "grad_norm": 0.02492844566798171, "learning_rate": 0.0001, "loss": 0.9732, "step": 10193 }, { "epoch": 2.14368, "grad_norm": 0.02210155687737749, "learning_rate": 0.0001, "loss": 0.9165, "step": 10194 }, { "epoch": 2.1437333333333335, "grad_norm": 0.02357830829181993, "learning_rate": 0.0001, "loss": 0.8748, "step": 10195 }, { "epoch": 2.1437866666666667, "grad_norm": 0.025329402554126062, "learning_rate": 0.0001, "loss": 0.9815, "step": 10196 }, { "epoch": 2.14384, "grad_norm": 0.02336920099714502, "learning_rate": 0.0001, "loss": 0.9259, "step": 10197 }, { "epoch": 2.143893333333333, "grad_norm": 0.02728363898200278, "learning_rate": 0.0001, "loss": 1.0049, "step": 10198 }, { "epoch": 2.1439466666666664, "grad_norm": 0.024399931222703636, "learning_rate": 0.0001, "loss": 0.978, "step": 10199 }, { "epoch": 2.144, "grad_norm": 0.023003344750125325, "learning_rate": 0.0001, "loss": 0.9563, "step": 10200 }, { "epoch": 2.144, "eval_accuracy": 0.6212050898863927, "eval_loss": 1.3484159708023071, "eval_runtime": 62.9222, "eval_samples_per_second": 15.893, "eval_steps_per_second": 0.509, "step": 10200 }, { "epoch": 2.1440533333333334, "grad_norm": 0.022872338050353765, "learning_rate": 0.0001, "loss": 0.9583, "step": 10201 }, { "epoch": 2.1441066666666666, "grad_norm": 0.02274588287498637, "learning_rate": 0.0001, "loss": 0.9142, "step": 10202 }, { "epoch": 2.14416, "grad_norm": 0.023140067632709545, "learning_rate": 0.0001, "loss": 1.0052, "step": 10203 }, { "epoch": 2.1442133333333335, "grad_norm": 0.024219708657198778, "learning_rate": 0.0001, "loss": 0.9175, "step": 10204 }, { "epoch": 2.1442666666666668, "grad_norm": 0.023609670159004458, "learning_rate": 0.0001, "loss": 0.9585, "step": 10205 }, { "epoch": 2.14432, "grad_norm": 0.02628986347329067, "learning_rate": 0.0001, "loss": 1.0385, "step": 10206 }, { "epoch": 2.1443733333333332, "grad_norm": 0.023780434633531616, "learning_rate": 0.0001, "loss": 0.9624, "step": 10207 }, { "epoch": 2.1444266666666665, "grad_norm": 0.02221518526075311, "learning_rate": 0.0001, "loss": 0.9711, "step": 10208 }, { "epoch": 2.14448, "grad_norm": 0.02325403788694417, "learning_rate": 0.0001, "loss": 0.9649, "step": 10209 }, { "epoch": 2.1445333333333334, "grad_norm": 0.024840593321601264, "learning_rate": 0.0001, "loss": 0.9918, "step": 10210 }, { "epoch": 2.1445866666666666, "grad_norm": 0.024442803336815932, "learning_rate": 0.0001, "loss": 0.9389, "step": 10211 }, { "epoch": 2.14464, "grad_norm": 0.023223863231038158, "learning_rate": 0.0001, "loss": 0.96, "step": 10212 }, { "epoch": 2.1446933333333336, "grad_norm": 0.02292679722496299, "learning_rate": 0.0001, "loss": 0.9678, "step": 10213 }, { "epoch": 2.144746666666667, "grad_norm": 0.026775851060821042, "learning_rate": 0.0001, "loss": 0.999, "step": 10214 }, { "epoch": 2.1448, "grad_norm": 0.022570008792952127, "learning_rate": 0.0001, "loss": 0.9382, "step": 10215 }, { "epoch": 2.1448533333333333, "grad_norm": 0.02325313353072854, "learning_rate": 0.0001, "loss": 0.9675, "step": 10216 }, { "epoch": 2.1449066666666665, "grad_norm": 0.023320002559557164, "learning_rate": 0.0001, "loss": 0.9761, "step": 10217 }, { "epoch": 2.14496, "grad_norm": 0.024361056732907314, "learning_rate": 0.0001, "loss": 0.9827, "step": 10218 }, { "epoch": 2.1450133333333334, "grad_norm": 0.022921395135763117, "learning_rate": 0.0001, "loss": 0.9017, "step": 10219 }, { "epoch": 2.1450666666666667, "grad_norm": 0.02293334659445168, "learning_rate": 0.0001, "loss": 0.9726, "step": 10220 }, { "epoch": 2.14512, "grad_norm": 0.024219550105349336, "learning_rate": 0.0001, "loss": 0.9864, "step": 10221 }, { "epoch": 2.145173333333333, "grad_norm": 0.023730349666563053, "learning_rate": 0.0001, "loss": 0.8691, "step": 10222 }, { "epoch": 2.145226666666667, "grad_norm": 0.02226388773162516, "learning_rate": 0.0001, "loss": 0.9188, "step": 10223 }, { "epoch": 2.14528, "grad_norm": 0.02444921999808021, "learning_rate": 0.0001, "loss": 0.9858, "step": 10224 }, { "epoch": 2.1453333333333333, "grad_norm": 0.024188672463447573, "learning_rate": 0.0001, "loss": 0.965, "step": 10225 }, { "epoch": 2.1453866666666666, "grad_norm": 0.023949493863388988, "learning_rate": 0.0001, "loss": 0.9897, "step": 10226 }, { "epoch": 2.14544, "grad_norm": 0.02430306846276712, "learning_rate": 0.0001, "loss": 0.9465, "step": 10227 }, { "epoch": 2.1454933333333335, "grad_norm": 0.02414103656701395, "learning_rate": 0.0001, "loss": 0.9019, "step": 10228 }, { "epoch": 2.1455466666666667, "grad_norm": 0.02523425978134207, "learning_rate": 0.0001, "loss": 0.9747, "step": 10229 }, { "epoch": 2.1456, "grad_norm": 0.025342443206328665, "learning_rate": 0.0001, "loss": 0.9839, "step": 10230 }, { "epoch": 2.145653333333333, "grad_norm": 0.021604320984670727, "learning_rate": 0.0001, "loss": 1.0035, "step": 10231 }, { "epoch": 2.145706666666667, "grad_norm": 0.023465567547573687, "learning_rate": 0.0001, "loss": 0.9372, "step": 10232 }, { "epoch": 2.14576, "grad_norm": 0.02312576857559384, "learning_rate": 0.0001, "loss": 0.9509, "step": 10233 }, { "epoch": 2.1458133333333334, "grad_norm": 0.023570664865600405, "learning_rate": 0.0001, "loss": 0.9853, "step": 10234 }, { "epoch": 2.1458666666666666, "grad_norm": 0.02325373569218935, "learning_rate": 0.0001, "loss": 0.9932, "step": 10235 }, { "epoch": 2.14592, "grad_norm": 0.022719078743799897, "learning_rate": 0.0001, "loss": 0.9421, "step": 10236 }, { "epoch": 2.1459733333333335, "grad_norm": 0.02405447120204081, "learning_rate": 0.0001, "loss": 0.9287, "step": 10237 }, { "epoch": 2.1460266666666667, "grad_norm": 0.023425172846228633, "learning_rate": 0.0001, "loss": 0.9772, "step": 10238 }, { "epoch": 2.14608, "grad_norm": 0.02420873859148293, "learning_rate": 0.0001, "loss": 0.9382, "step": 10239 }, { "epoch": 2.1461333333333332, "grad_norm": 0.02388835984107801, "learning_rate": 0.0001, "loss": 0.9475, "step": 10240 }, { "epoch": 2.1461866666666665, "grad_norm": 0.023752032545454653, "learning_rate": 0.0001, "loss": 0.9642, "step": 10241 }, { "epoch": 2.14624, "grad_norm": 0.023840312551643504, "learning_rate": 0.0001, "loss": 0.9724, "step": 10242 }, { "epoch": 2.1462933333333334, "grad_norm": 0.024128105386609817, "learning_rate": 0.0001, "loss": 1.0005, "step": 10243 }, { "epoch": 2.1463466666666666, "grad_norm": 0.023033530303917832, "learning_rate": 0.0001, "loss": 1.0413, "step": 10244 }, { "epoch": 2.1464, "grad_norm": 0.022935902961220986, "learning_rate": 0.0001, "loss": 0.9492, "step": 10245 }, { "epoch": 2.1464533333333335, "grad_norm": 0.023516189807932242, "learning_rate": 0.0001, "loss": 1.0076, "step": 10246 }, { "epoch": 2.146506666666667, "grad_norm": 0.025557335846360028, "learning_rate": 0.0001, "loss": 0.9966, "step": 10247 }, { "epoch": 2.14656, "grad_norm": 0.021864579767215044, "learning_rate": 0.0001, "loss": 0.9545, "step": 10248 }, { "epoch": 2.1466133333333333, "grad_norm": 0.025605497840787868, "learning_rate": 0.0001, "loss": 0.9558, "step": 10249 }, { "epoch": 2.1466666666666665, "grad_norm": 0.023867744392107072, "learning_rate": 0.0001, "loss": 0.9557, "step": 10250 }, { "epoch": 2.14672, "grad_norm": 0.02270936134933514, "learning_rate": 0.0001, "loss": 0.9741, "step": 10251 }, { "epoch": 2.1467733333333334, "grad_norm": 0.025652439333723902, "learning_rate": 0.0001, "loss": 0.9932, "step": 10252 }, { "epoch": 2.1468266666666667, "grad_norm": 0.022552240138836985, "learning_rate": 0.0001, "loss": 0.9449, "step": 10253 }, { "epoch": 2.14688, "grad_norm": 0.022497317461222896, "learning_rate": 0.0001, "loss": 0.9372, "step": 10254 }, { "epoch": 2.146933333333333, "grad_norm": 0.02620799075843105, "learning_rate": 0.0001, "loss": 0.9718, "step": 10255 }, { "epoch": 2.146986666666667, "grad_norm": 0.024015529373636, "learning_rate": 0.0001, "loss": 0.9941, "step": 10256 }, { "epoch": 2.14704, "grad_norm": 0.02357158463901129, "learning_rate": 0.0001, "loss": 1.0019, "step": 10257 }, { "epoch": 2.1470933333333333, "grad_norm": 0.024061688191031595, "learning_rate": 0.0001, "loss": 0.8947, "step": 10258 }, { "epoch": 2.1471466666666665, "grad_norm": 0.02292998687299849, "learning_rate": 0.0001, "loss": 0.9237, "step": 10259 }, { "epoch": 2.1471999999999998, "grad_norm": 0.025644556572072628, "learning_rate": 0.0001, "loss": 0.9337, "step": 10260 }, { "epoch": 2.1472533333333335, "grad_norm": 0.024299988817583256, "learning_rate": 0.0001, "loss": 0.9826, "step": 10261 }, { "epoch": 2.1473066666666667, "grad_norm": 0.02483317650884676, "learning_rate": 0.0001, "loss": 0.9384, "step": 10262 }, { "epoch": 2.14736, "grad_norm": 0.024417127243117426, "learning_rate": 0.0001, "loss": 0.9621, "step": 10263 }, { "epoch": 2.147413333333333, "grad_norm": 0.023586632214193888, "learning_rate": 0.0001, "loss": 0.9724, "step": 10264 }, { "epoch": 2.147466666666667, "grad_norm": 0.024436777839002683, "learning_rate": 0.0001, "loss": 0.8823, "step": 10265 }, { "epoch": 2.14752, "grad_norm": 0.024279889030049216, "learning_rate": 0.0001, "loss": 0.9814, "step": 10266 }, { "epoch": 2.1475733333333333, "grad_norm": 0.022917524721498776, "learning_rate": 0.0001, "loss": 0.9736, "step": 10267 }, { "epoch": 2.1476266666666666, "grad_norm": 0.021836829067339, "learning_rate": 0.0001, "loss": 0.9566, "step": 10268 }, { "epoch": 2.14768, "grad_norm": 0.024408955601629118, "learning_rate": 0.0001, "loss": 0.9698, "step": 10269 }, { "epoch": 2.1477333333333335, "grad_norm": 0.02373968538476411, "learning_rate": 0.0001, "loss": 0.9549, "step": 10270 }, { "epoch": 2.1477866666666667, "grad_norm": 0.02339615795743772, "learning_rate": 0.0001, "loss": 0.9748, "step": 10271 }, { "epoch": 2.14784, "grad_norm": 0.024031875104003907, "learning_rate": 0.0001, "loss": 0.948, "step": 10272 }, { "epoch": 2.147893333333333, "grad_norm": 0.022553281747983243, "learning_rate": 0.0001, "loss": 0.9328, "step": 10273 }, { "epoch": 2.147946666666667, "grad_norm": 0.026983864384780502, "learning_rate": 0.0001, "loss": 0.9831, "step": 10274 }, { "epoch": 2.148, "grad_norm": 0.022563507678736935, "learning_rate": 0.0001, "loss": 0.9349, "step": 10275 }, { "epoch": 2.1480533333333334, "grad_norm": 0.026091515284763906, "learning_rate": 0.0001, "loss": 0.9243, "step": 10276 }, { "epoch": 2.1481066666666666, "grad_norm": 0.023205414725552223, "learning_rate": 0.0001, "loss": 1.0214, "step": 10277 }, { "epoch": 2.14816, "grad_norm": 0.023515716853955853, "learning_rate": 0.0001, "loss": 0.9365, "step": 10278 }, { "epoch": 2.1482133333333335, "grad_norm": 0.024420769522805714, "learning_rate": 0.0001, "loss": 0.9262, "step": 10279 }, { "epoch": 2.1482666666666668, "grad_norm": 0.022617812294612297, "learning_rate": 0.0001, "loss": 0.9375, "step": 10280 }, { "epoch": 2.14832, "grad_norm": 0.02379588533410179, "learning_rate": 0.0001, "loss": 0.9072, "step": 10281 }, { "epoch": 2.1483733333333332, "grad_norm": 0.022455377415698977, "learning_rate": 0.0001, "loss": 0.9712, "step": 10282 }, { "epoch": 2.1484266666666665, "grad_norm": 0.022940804795022175, "learning_rate": 0.0001, "loss": 0.9646, "step": 10283 }, { "epoch": 2.14848, "grad_norm": 0.02470727607462752, "learning_rate": 0.0001, "loss": 0.9678, "step": 10284 }, { "epoch": 2.1485333333333334, "grad_norm": 0.025333007174225066, "learning_rate": 0.0001, "loss": 0.9453, "step": 10285 }, { "epoch": 2.1485866666666666, "grad_norm": 0.023424084160979415, "learning_rate": 0.0001, "loss": 0.9867, "step": 10286 }, { "epoch": 2.14864, "grad_norm": 0.023700764591998068, "learning_rate": 0.0001, "loss": 0.9979, "step": 10287 }, { "epoch": 2.148693333333333, "grad_norm": 0.022359725426705362, "learning_rate": 0.0001, "loss": 0.9476, "step": 10288 }, { "epoch": 2.148746666666667, "grad_norm": 0.022902101489626434, "learning_rate": 0.0001, "loss": 0.9608, "step": 10289 }, { "epoch": 2.1488, "grad_norm": 0.022469318826890416, "learning_rate": 0.0001, "loss": 0.9608, "step": 10290 }, { "epoch": 2.1488533333333333, "grad_norm": 0.02426991566258362, "learning_rate": 0.0001, "loss": 1.0399, "step": 10291 }, { "epoch": 2.1489066666666665, "grad_norm": 0.023490497051006237, "learning_rate": 0.0001, "loss": 0.9122, "step": 10292 }, { "epoch": 2.14896, "grad_norm": 0.02441143059702685, "learning_rate": 0.0001, "loss": 0.9585, "step": 10293 }, { "epoch": 2.1490133333333334, "grad_norm": 0.025126189555561614, "learning_rate": 0.0001, "loss": 0.9577, "step": 10294 }, { "epoch": 2.1490666666666667, "grad_norm": 0.0229404869965763, "learning_rate": 0.0001, "loss": 0.894, "step": 10295 }, { "epoch": 2.14912, "grad_norm": 0.02567921433613981, "learning_rate": 0.0001, "loss": 0.958, "step": 10296 }, { "epoch": 2.149173333333333, "grad_norm": 0.022954238623142147, "learning_rate": 0.0001, "loss": 0.9694, "step": 10297 }, { "epoch": 2.149226666666667, "grad_norm": 0.023677084040480068, "learning_rate": 0.0001, "loss": 0.9167, "step": 10298 }, { "epoch": 2.14928, "grad_norm": 0.024974766161483718, "learning_rate": 0.0001, "loss": 0.9632, "step": 10299 }, { "epoch": 2.1493333333333333, "grad_norm": 0.02356699804218174, "learning_rate": 0.0001, "loss": 0.9301, "step": 10300 }, { "epoch": 2.1493866666666666, "grad_norm": 0.024404767029092073, "learning_rate": 0.0001, "loss": 0.9025, "step": 10301 }, { "epoch": 2.14944, "grad_norm": 0.02440492142549004, "learning_rate": 0.0001, "loss": 0.9943, "step": 10302 }, { "epoch": 2.1494933333333335, "grad_norm": 0.02246659113202335, "learning_rate": 0.0001, "loss": 0.963, "step": 10303 }, { "epoch": 2.1495466666666667, "grad_norm": 0.02445292055265016, "learning_rate": 0.0001, "loss": 0.9922, "step": 10304 }, { "epoch": 2.1496, "grad_norm": 0.022260859613149615, "learning_rate": 0.0001, "loss": 0.9214, "step": 10305 }, { "epoch": 2.149653333333333, "grad_norm": 0.024856904012891874, "learning_rate": 0.0001, "loss": 0.9652, "step": 10306 }, { "epoch": 2.149706666666667, "grad_norm": 0.024424399021000246, "learning_rate": 0.0001, "loss": 0.955, "step": 10307 }, { "epoch": 2.14976, "grad_norm": 0.024637991359615388, "learning_rate": 0.0001, "loss": 0.9404, "step": 10308 }, { "epoch": 2.1498133333333334, "grad_norm": 0.02334365630999859, "learning_rate": 0.0001, "loss": 1.0199, "step": 10309 }, { "epoch": 2.1498666666666666, "grad_norm": 0.02457378168579028, "learning_rate": 0.0001, "loss": 0.9401, "step": 10310 }, { "epoch": 2.14992, "grad_norm": 0.023605360874501338, "learning_rate": 0.0001, "loss": 0.9582, "step": 10311 }, { "epoch": 2.1499733333333335, "grad_norm": 0.0259068662436706, "learning_rate": 0.0001, "loss": 0.9543, "step": 10312 }, { "epoch": 2.1500266666666668, "grad_norm": 0.02377362690266842, "learning_rate": 0.0001, "loss": 0.9702, "step": 10313 }, { "epoch": 2.15008, "grad_norm": 0.022975259574181676, "learning_rate": 0.0001, "loss": 0.9815, "step": 10314 }, { "epoch": 2.1501333333333332, "grad_norm": 0.024886331834231865, "learning_rate": 0.0001, "loss": 0.9758, "step": 10315 }, { "epoch": 2.1501866666666665, "grad_norm": 0.022837818112203263, "learning_rate": 0.0001, "loss": 0.9238, "step": 10316 }, { "epoch": 2.15024, "grad_norm": 0.024251139607728674, "learning_rate": 0.0001, "loss": 0.9651, "step": 10317 }, { "epoch": 2.1502933333333334, "grad_norm": 0.023163310685383492, "learning_rate": 0.0001, "loss": 0.9816, "step": 10318 }, { "epoch": 2.1503466666666666, "grad_norm": 0.024199009990002972, "learning_rate": 0.0001, "loss": 0.9571, "step": 10319 }, { "epoch": 2.1504, "grad_norm": 0.025582295934698965, "learning_rate": 0.0001, "loss": 1.002, "step": 10320 }, { "epoch": 2.150453333333333, "grad_norm": 0.025927682341845743, "learning_rate": 0.0001, "loss": 0.9594, "step": 10321 }, { "epoch": 2.150506666666667, "grad_norm": 0.023523824533528984, "learning_rate": 0.0001, "loss": 0.9267, "step": 10322 }, { "epoch": 2.15056, "grad_norm": 0.02468879268540713, "learning_rate": 0.0001, "loss": 0.913, "step": 10323 }, { "epoch": 2.1506133333333333, "grad_norm": 0.023740815393879067, "learning_rate": 0.0001, "loss": 1.0135, "step": 10324 }, { "epoch": 2.1506666666666665, "grad_norm": 0.023240850585308618, "learning_rate": 0.0001, "loss": 0.9231, "step": 10325 }, { "epoch": 2.15072, "grad_norm": 0.024831132787771697, "learning_rate": 0.0001, "loss": 0.9045, "step": 10326 }, { "epoch": 2.1507733333333334, "grad_norm": 0.021911606185799494, "learning_rate": 0.0001, "loss": 0.9529, "step": 10327 }, { "epoch": 2.1508266666666667, "grad_norm": 0.02319435426478841, "learning_rate": 0.0001, "loss": 0.9514, "step": 10328 }, { "epoch": 2.15088, "grad_norm": 0.024076545459602212, "learning_rate": 0.0001, "loss": 0.9656, "step": 10329 }, { "epoch": 2.150933333333333, "grad_norm": 0.02438374685111734, "learning_rate": 0.0001, "loss": 0.9457, "step": 10330 }, { "epoch": 2.150986666666667, "grad_norm": 0.024193710806792692, "learning_rate": 0.0001, "loss": 0.9445, "step": 10331 }, { "epoch": 2.15104, "grad_norm": 0.02494782601287086, "learning_rate": 0.0001, "loss": 0.926, "step": 10332 }, { "epoch": 2.1510933333333333, "grad_norm": 0.024190637404384204, "learning_rate": 0.0001, "loss": 0.9675, "step": 10333 }, { "epoch": 2.1511466666666665, "grad_norm": 0.02567000058193091, "learning_rate": 0.0001, "loss": 0.9578, "step": 10334 }, { "epoch": 2.1512000000000002, "grad_norm": 0.023170249189763983, "learning_rate": 0.0001, "loss": 0.9711, "step": 10335 }, { "epoch": 2.1512533333333335, "grad_norm": 0.025881818463750785, "learning_rate": 0.0001, "loss": 0.9302, "step": 10336 }, { "epoch": 2.1513066666666667, "grad_norm": 0.022007688491329207, "learning_rate": 0.0001, "loss": 0.9578, "step": 10337 }, { "epoch": 2.15136, "grad_norm": 0.024407422070568036, "learning_rate": 0.0001, "loss": 1.0062, "step": 10338 }, { "epoch": 2.151413333333333, "grad_norm": 0.02345332517909826, "learning_rate": 0.0001, "loss": 0.9606, "step": 10339 }, { "epoch": 2.151466666666667, "grad_norm": 0.02306941548777179, "learning_rate": 0.0001, "loss": 0.9385, "step": 10340 }, { "epoch": 2.15152, "grad_norm": 0.0220038591045273, "learning_rate": 0.0001, "loss": 0.9235, "step": 10341 }, { "epoch": 2.1515733333333333, "grad_norm": 0.02523700509921268, "learning_rate": 0.0001, "loss": 1.0125, "step": 10342 }, { "epoch": 2.1516266666666666, "grad_norm": 0.022271737613407075, "learning_rate": 0.0001, "loss": 0.9247, "step": 10343 }, { "epoch": 2.15168, "grad_norm": 0.023915886477478582, "learning_rate": 0.0001, "loss": 0.9597, "step": 10344 }, { "epoch": 2.1517333333333335, "grad_norm": 0.023783056276689214, "learning_rate": 0.0001, "loss": 0.9865, "step": 10345 }, { "epoch": 2.1517866666666667, "grad_norm": 0.023432632803632565, "learning_rate": 0.0001, "loss": 0.9071, "step": 10346 }, { "epoch": 2.15184, "grad_norm": 0.02518371553363897, "learning_rate": 0.0001, "loss": 0.9635, "step": 10347 }, { "epoch": 2.151893333333333, "grad_norm": 0.023053784672820096, "learning_rate": 0.0001, "loss": 0.947, "step": 10348 }, { "epoch": 2.1519466666666665, "grad_norm": 0.022547263731002805, "learning_rate": 0.0001, "loss": 0.9777, "step": 10349 }, { "epoch": 2.152, "grad_norm": 0.02453900396456068, "learning_rate": 0.0001, "loss": 0.9519, "step": 10350 }, { "epoch": 2.1520533333333334, "grad_norm": 0.02509817169750933, "learning_rate": 0.0001, "loss": 0.9598, "step": 10351 }, { "epoch": 2.1521066666666666, "grad_norm": 0.022199266648945344, "learning_rate": 0.0001, "loss": 0.9268, "step": 10352 }, { "epoch": 2.15216, "grad_norm": 0.023791675103967697, "learning_rate": 0.0001, "loss": 0.9512, "step": 10353 }, { "epoch": 2.1522133333333335, "grad_norm": 0.0246425152615935, "learning_rate": 0.0001, "loss": 1.0473, "step": 10354 }, { "epoch": 2.1522666666666668, "grad_norm": 0.022593362186075806, "learning_rate": 0.0001, "loss": 0.9622, "step": 10355 }, { "epoch": 2.15232, "grad_norm": 0.02378143317469388, "learning_rate": 0.0001, "loss": 0.9485, "step": 10356 }, { "epoch": 2.1523733333333332, "grad_norm": 0.026026827449254775, "learning_rate": 0.0001, "loss": 0.9368, "step": 10357 }, { "epoch": 2.1524266666666665, "grad_norm": 0.023495580836002002, "learning_rate": 0.0001, "loss": 0.9715, "step": 10358 }, { "epoch": 2.15248, "grad_norm": 0.021915470127331804, "learning_rate": 0.0001, "loss": 0.9487, "step": 10359 }, { "epoch": 2.1525333333333334, "grad_norm": 0.023629022399346996, "learning_rate": 0.0001, "loss": 0.9416, "step": 10360 }, { "epoch": 2.1525866666666666, "grad_norm": 0.022175513425788846, "learning_rate": 0.0001, "loss": 0.9997, "step": 10361 }, { "epoch": 2.15264, "grad_norm": 0.02348194450819735, "learning_rate": 0.0001, "loss": 0.9253, "step": 10362 }, { "epoch": 2.152693333333333, "grad_norm": 0.023718712988159158, "learning_rate": 0.0001, "loss": 1.0041, "step": 10363 }, { "epoch": 2.152746666666667, "grad_norm": 0.022851540839409375, "learning_rate": 0.0001, "loss": 0.9651, "step": 10364 }, { "epoch": 2.1528, "grad_norm": 0.02246684863239728, "learning_rate": 0.0001, "loss": 0.9485, "step": 10365 }, { "epoch": 2.1528533333333333, "grad_norm": 0.024146489141013933, "learning_rate": 0.0001, "loss": 0.9869, "step": 10366 }, { "epoch": 2.1529066666666665, "grad_norm": 0.022715323784983588, "learning_rate": 0.0001, "loss": 0.906, "step": 10367 }, { "epoch": 2.15296, "grad_norm": 0.02418309955702311, "learning_rate": 0.0001, "loss": 0.9351, "step": 10368 }, { "epoch": 2.1530133333333334, "grad_norm": 0.022336203291450776, "learning_rate": 0.0001, "loss": 1.0211, "step": 10369 }, { "epoch": 2.1530666666666667, "grad_norm": 0.02459580184249676, "learning_rate": 0.0001, "loss": 0.9909, "step": 10370 }, { "epoch": 2.15312, "grad_norm": 0.023141729121596375, "learning_rate": 0.0001, "loss": 0.9206, "step": 10371 }, { "epoch": 2.153173333333333, "grad_norm": 0.023664458885722082, "learning_rate": 0.0001, "loss": 0.9739, "step": 10372 }, { "epoch": 2.153226666666667, "grad_norm": 0.02338526327704501, "learning_rate": 0.0001, "loss": 0.8836, "step": 10373 }, { "epoch": 2.15328, "grad_norm": 0.02452571150879112, "learning_rate": 0.0001, "loss": 0.9677, "step": 10374 }, { "epoch": 2.1533333333333333, "grad_norm": 0.023385322639969744, "learning_rate": 0.0001, "loss": 0.9556, "step": 10375 }, { "epoch": 2.1533866666666666, "grad_norm": 0.023794660875047738, "learning_rate": 0.0001, "loss": 0.9232, "step": 10376 }, { "epoch": 2.15344, "grad_norm": 0.023911148566047494, "learning_rate": 0.0001, "loss": 0.9804, "step": 10377 }, { "epoch": 2.1534933333333335, "grad_norm": 0.02296760115430994, "learning_rate": 0.0001, "loss": 1.0315, "step": 10378 }, { "epoch": 2.1535466666666667, "grad_norm": 0.025537391512596663, "learning_rate": 0.0001, "loss": 0.9208, "step": 10379 }, { "epoch": 2.1536, "grad_norm": 0.02511329782963739, "learning_rate": 0.0001, "loss": 0.9434, "step": 10380 }, { "epoch": 2.153653333333333, "grad_norm": 0.024226776117673814, "learning_rate": 0.0001, "loss": 1.0035, "step": 10381 }, { "epoch": 2.1537066666666664, "grad_norm": 0.024721950246154877, "learning_rate": 0.0001, "loss": 0.9752, "step": 10382 }, { "epoch": 2.15376, "grad_norm": 0.025792690956845565, "learning_rate": 0.0001, "loss": 0.9778, "step": 10383 }, { "epoch": 2.1538133333333334, "grad_norm": 0.023419522550779986, "learning_rate": 0.0001, "loss": 0.9018, "step": 10384 }, { "epoch": 2.1538666666666666, "grad_norm": 0.024194593704269542, "learning_rate": 0.0001, "loss": 0.9946, "step": 10385 }, { "epoch": 2.15392, "grad_norm": 0.025280191404539125, "learning_rate": 0.0001, "loss": 0.9546, "step": 10386 }, { "epoch": 2.1539733333333335, "grad_norm": 0.025109210665681912, "learning_rate": 0.0001, "loss": 0.9869, "step": 10387 }, { "epoch": 2.1540266666666668, "grad_norm": 0.024354272369442712, "learning_rate": 0.0001, "loss": 0.9511, "step": 10388 }, { "epoch": 2.15408, "grad_norm": 0.025779842409425685, "learning_rate": 0.0001, "loss": 0.9408, "step": 10389 }, { "epoch": 2.1541333333333332, "grad_norm": 0.024894873551558276, "learning_rate": 0.0001, "loss": 0.9446, "step": 10390 }, { "epoch": 2.1541866666666665, "grad_norm": 0.022724148982553483, "learning_rate": 0.0001, "loss": 0.9627, "step": 10391 }, { "epoch": 2.15424, "grad_norm": 0.02395258661715906, "learning_rate": 0.0001, "loss": 0.9178, "step": 10392 }, { "epoch": 2.1542933333333334, "grad_norm": 0.024532818226904982, "learning_rate": 0.0001, "loss": 0.9753, "step": 10393 }, { "epoch": 2.1543466666666666, "grad_norm": 0.022980012571078665, "learning_rate": 0.0001, "loss": 0.9888, "step": 10394 }, { "epoch": 2.1544, "grad_norm": 0.023601367285994275, "learning_rate": 0.0001, "loss": 0.9357, "step": 10395 }, { "epoch": 2.1544533333333336, "grad_norm": 0.025922241195676498, "learning_rate": 0.0001, "loss": 1.0192, "step": 10396 }, { "epoch": 2.154506666666667, "grad_norm": 0.023875892820183552, "learning_rate": 0.0001, "loss": 0.9279, "step": 10397 }, { "epoch": 2.15456, "grad_norm": 0.025100528867534916, "learning_rate": 0.0001, "loss": 0.9559, "step": 10398 }, { "epoch": 2.1546133333333333, "grad_norm": 0.024041933633551026, "learning_rate": 0.0001, "loss": 0.9663, "step": 10399 }, { "epoch": 2.1546666666666665, "grad_norm": 0.025461258512596195, "learning_rate": 0.0001, "loss": 0.9697, "step": 10400 }, { "epoch": 2.1546666666666665, "eval_accuracy": 0.621354930284482, "eval_loss": 1.3477436304092407, "eval_runtime": 63.5083, "eval_samples_per_second": 15.746, "eval_steps_per_second": 0.504, "step": 10400 }, { "epoch": 2.15472, "grad_norm": 0.024416182443417374, "learning_rate": 0.0001, "loss": 0.9797, "step": 10401 }, { "epoch": 2.1547733333333334, "grad_norm": 0.026331877471497206, "learning_rate": 0.0001, "loss": 0.9096, "step": 10402 }, { "epoch": 2.1548266666666667, "grad_norm": 0.02369783084864029, "learning_rate": 0.0001, "loss": 0.986, "step": 10403 }, { "epoch": 2.15488, "grad_norm": 0.02360153253592384, "learning_rate": 0.0001, "loss": 0.9828, "step": 10404 }, { "epoch": 2.154933333333333, "grad_norm": 0.023051258419484726, "learning_rate": 0.0001, "loss": 0.9371, "step": 10405 }, { "epoch": 2.154986666666667, "grad_norm": 0.024291768453954234, "learning_rate": 0.0001, "loss": 0.9065, "step": 10406 }, { "epoch": 2.15504, "grad_norm": 0.025131526196731157, "learning_rate": 0.0001, "loss": 0.9629, "step": 10407 }, { "epoch": 2.1550933333333333, "grad_norm": 0.023136456433679984, "learning_rate": 0.0001, "loss": 0.9338, "step": 10408 }, { "epoch": 2.1551466666666665, "grad_norm": 0.024878929954947383, "learning_rate": 0.0001, "loss": 0.9407, "step": 10409 }, { "epoch": 2.1552, "grad_norm": 0.02426161352536333, "learning_rate": 0.0001, "loss": 0.9752, "step": 10410 }, { "epoch": 2.1552533333333335, "grad_norm": 0.025567770285928857, "learning_rate": 0.0001, "loss": 1.0128, "step": 10411 }, { "epoch": 2.1553066666666667, "grad_norm": 0.026454876805547364, "learning_rate": 0.0001, "loss": 0.9833, "step": 10412 }, { "epoch": 2.15536, "grad_norm": 0.024056378229767802, "learning_rate": 0.0001, "loss": 0.9286, "step": 10413 }, { "epoch": 2.155413333333333, "grad_norm": 0.023841026355303958, "learning_rate": 0.0001, "loss": 0.9594, "step": 10414 }, { "epoch": 2.155466666666667, "grad_norm": 0.023801219280344555, "learning_rate": 0.0001, "loss": 0.9204, "step": 10415 }, { "epoch": 2.15552, "grad_norm": 0.02311838723854802, "learning_rate": 0.0001, "loss": 0.9965, "step": 10416 }, { "epoch": 2.1555733333333333, "grad_norm": 0.02285501723221785, "learning_rate": 0.0001, "loss": 0.9727, "step": 10417 }, { "epoch": 2.1556266666666666, "grad_norm": 0.022079719989696277, "learning_rate": 0.0001, "loss": 0.924, "step": 10418 }, { "epoch": 2.15568, "grad_norm": 0.025148549419322222, "learning_rate": 0.0001, "loss": 0.8902, "step": 10419 }, { "epoch": 2.1557333333333335, "grad_norm": 0.024896230603717536, "learning_rate": 0.0001, "loss": 0.9309, "step": 10420 }, { "epoch": 2.1557866666666667, "grad_norm": 0.026895390507830453, "learning_rate": 0.0001, "loss": 0.9286, "step": 10421 }, { "epoch": 2.15584, "grad_norm": 0.023834387406448884, "learning_rate": 0.0001, "loss": 0.9626, "step": 10422 }, { "epoch": 2.155893333333333, "grad_norm": 0.024874474631804623, "learning_rate": 0.0001, "loss": 0.9747, "step": 10423 }, { "epoch": 2.155946666666667, "grad_norm": 0.02344334317857286, "learning_rate": 0.0001, "loss": 0.9795, "step": 10424 }, { "epoch": 2.156, "grad_norm": 0.02421953382854916, "learning_rate": 0.0001, "loss": 0.931, "step": 10425 }, { "epoch": 2.1560533333333334, "grad_norm": 0.024733755818544104, "learning_rate": 0.0001, "loss": 0.9001, "step": 10426 }, { "epoch": 2.1561066666666666, "grad_norm": 0.025509110859059988, "learning_rate": 0.0001, "loss": 0.8944, "step": 10427 }, { "epoch": 2.15616, "grad_norm": 0.023988147908925554, "learning_rate": 0.0001, "loss": 0.9451, "step": 10428 }, { "epoch": 2.1562133333333335, "grad_norm": 0.023528292179559623, "learning_rate": 0.0001, "loss": 1.0167, "step": 10429 }, { "epoch": 2.1562666666666668, "grad_norm": 0.024470650847032812, "learning_rate": 0.0001, "loss": 0.905, "step": 10430 }, { "epoch": 2.15632, "grad_norm": 0.025446000888636928, "learning_rate": 0.0001, "loss": 0.8916, "step": 10431 }, { "epoch": 2.1563733333333333, "grad_norm": 0.023242447075144734, "learning_rate": 0.0001, "loss": 0.9719, "step": 10432 }, { "epoch": 2.1564266666666665, "grad_norm": 0.022658896100478, "learning_rate": 0.0001, "loss": 0.9449, "step": 10433 }, { "epoch": 2.15648, "grad_norm": 0.024315538725815534, "learning_rate": 0.0001, "loss": 0.9584, "step": 10434 }, { "epoch": 2.1565333333333334, "grad_norm": 0.023938079307396384, "learning_rate": 0.0001, "loss": 0.9569, "step": 10435 }, { "epoch": 2.1565866666666667, "grad_norm": 0.023457087470066182, "learning_rate": 0.0001, "loss": 0.9993, "step": 10436 }, { "epoch": 2.15664, "grad_norm": 0.024359993992733683, "learning_rate": 0.0001, "loss": 0.9808, "step": 10437 }, { "epoch": 2.156693333333333, "grad_norm": 0.0265070041709453, "learning_rate": 0.0001, "loss": 1.0322, "step": 10438 }, { "epoch": 2.156746666666667, "grad_norm": 0.02622973374992315, "learning_rate": 0.0001, "loss": 1.0078, "step": 10439 }, { "epoch": 2.1568, "grad_norm": 0.025472895447301615, "learning_rate": 0.0001, "loss": 0.9859, "step": 10440 }, { "epoch": 2.1568533333333333, "grad_norm": 0.022724436234780328, "learning_rate": 0.0001, "loss": 0.9942, "step": 10441 }, { "epoch": 2.1569066666666665, "grad_norm": 0.022802358220090517, "learning_rate": 0.0001, "loss": 0.9447, "step": 10442 }, { "epoch": 2.1569599999999998, "grad_norm": 0.024226641949650546, "learning_rate": 0.0001, "loss": 0.9419, "step": 10443 }, { "epoch": 2.1570133333333334, "grad_norm": 0.022691833229432034, "learning_rate": 0.0001, "loss": 0.9553, "step": 10444 }, { "epoch": 2.1570666666666667, "grad_norm": 0.0222237061087729, "learning_rate": 0.0001, "loss": 0.9854, "step": 10445 }, { "epoch": 2.15712, "grad_norm": 0.02268237010377094, "learning_rate": 0.0001, "loss": 0.9222, "step": 10446 }, { "epoch": 2.157173333333333, "grad_norm": 0.024735126431221097, "learning_rate": 0.0001, "loss": 0.904, "step": 10447 }, { "epoch": 2.157226666666667, "grad_norm": 0.02565565740331536, "learning_rate": 0.0001, "loss": 0.9818, "step": 10448 }, { "epoch": 2.15728, "grad_norm": 0.02285095440042804, "learning_rate": 0.0001, "loss": 0.9164, "step": 10449 }, { "epoch": 2.1573333333333333, "grad_norm": 0.022504147865380467, "learning_rate": 0.0001, "loss": 0.9743, "step": 10450 }, { "epoch": 2.1573866666666666, "grad_norm": 0.023657991143404795, "learning_rate": 0.0001, "loss": 0.9989, "step": 10451 }, { "epoch": 2.15744, "grad_norm": 0.02501482033109765, "learning_rate": 0.0001, "loss": 0.9986, "step": 10452 }, { "epoch": 2.1574933333333335, "grad_norm": 0.023671717398566248, "learning_rate": 0.0001, "loss": 0.9691, "step": 10453 }, { "epoch": 2.1575466666666667, "grad_norm": 0.022619992909616957, "learning_rate": 0.0001, "loss": 0.958, "step": 10454 }, { "epoch": 2.1576, "grad_norm": 0.022482510599866425, "learning_rate": 0.0001, "loss": 0.9567, "step": 10455 }, { "epoch": 2.157653333333333, "grad_norm": 0.023275897595268998, "learning_rate": 0.0001, "loss": 1.0033, "step": 10456 }, { "epoch": 2.157706666666667, "grad_norm": 0.021842377503463916, "learning_rate": 0.0001, "loss": 0.9391, "step": 10457 }, { "epoch": 2.15776, "grad_norm": 0.022660167756040565, "learning_rate": 0.0001, "loss": 0.9729, "step": 10458 }, { "epoch": 2.1578133333333334, "grad_norm": 0.021715732097919285, "learning_rate": 0.0001, "loss": 0.955, "step": 10459 }, { "epoch": 2.1578666666666666, "grad_norm": 0.023419754621546423, "learning_rate": 0.0001, "loss": 0.9594, "step": 10460 }, { "epoch": 2.15792, "grad_norm": 0.024060237412236698, "learning_rate": 0.0001, "loss": 0.9413, "step": 10461 }, { "epoch": 2.1579733333333335, "grad_norm": 0.022449459751172074, "learning_rate": 0.0001, "loss": 0.9599, "step": 10462 }, { "epoch": 2.1580266666666668, "grad_norm": 0.024081646785929743, "learning_rate": 0.0001, "loss": 0.9845, "step": 10463 }, { "epoch": 2.15808, "grad_norm": 0.024592725607619586, "learning_rate": 0.0001, "loss": 0.9648, "step": 10464 }, { "epoch": 2.1581333333333332, "grad_norm": 0.02349274429657769, "learning_rate": 0.0001, "loss": 0.9913, "step": 10465 }, { "epoch": 2.1581866666666665, "grad_norm": 0.022881583286246208, "learning_rate": 0.0001, "loss": 0.9999, "step": 10466 }, { "epoch": 2.15824, "grad_norm": 0.023650011819513105, "learning_rate": 0.0001, "loss": 0.9395, "step": 10467 }, { "epoch": 2.1582933333333334, "grad_norm": 0.023523557075748266, "learning_rate": 0.0001, "loss": 0.965, "step": 10468 }, { "epoch": 2.1583466666666666, "grad_norm": 0.024037955296188043, "learning_rate": 0.0001, "loss": 0.9263, "step": 10469 }, { "epoch": 2.1584, "grad_norm": 0.023125182677477634, "learning_rate": 0.0001, "loss": 1.0469, "step": 10470 }, { "epoch": 2.158453333333333, "grad_norm": 0.023620755847660175, "learning_rate": 0.0001, "loss": 0.9837, "step": 10471 }, { "epoch": 2.158506666666667, "grad_norm": 0.023459923015095415, "learning_rate": 0.0001, "loss": 1.0994, "step": 10472 }, { "epoch": 2.15856, "grad_norm": 0.02292787926962657, "learning_rate": 0.0001, "loss": 0.9704, "step": 10473 }, { "epoch": 2.1586133333333333, "grad_norm": 0.02261547211636085, "learning_rate": 0.0001, "loss": 0.9717, "step": 10474 }, { "epoch": 2.1586666666666665, "grad_norm": 0.023061308802530527, "learning_rate": 0.0001, "loss": 0.945, "step": 10475 }, { "epoch": 2.15872, "grad_norm": 0.022408113684622782, "learning_rate": 0.0001, "loss": 0.9239, "step": 10476 }, { "epoch": 2.1587733333333334, "grad_norm": 0.022601427695050694, "learning_rate": 0.0001, "loss": 0.8985, "step": 10477 }, { "epoch": 2.1588266666666667, "grad_norm": 0.02285152852791847, "learning_rate": 0.0001, "loss": 1.0292, "step": 10478 }, { "epoch": 2.15888, "grad_norm": 0.024674944517485507, "learning_rate": 0.0001, "loss": 0.942, "step": 10479 }, { "epoch": 2.158933333333333, "grad_norm": 0.022976831095237054, "learning_rate": 0.0001, "loss": 0.9651, "step": 10480 }, { "epoch": 2.158986666666667, "grad_norm": 0.02381428262397581, "learning_rate": 0.0001, "loss": 0.9501, "step": 10481 }, { "epoch": 2.15904, "grad_norm": 0.02348485922579144, "learning_rate": 0.0001, "loss": 0.9663, "step": 10482 }, { "epoch": 2.1590933333333333, "grad_norm": 0.024371377363176218, "learning_rate": 0.0001, "loss": 0.9622, "step": 10483 }, { "epoch": 2.1591466666666665, "grad_norm": 0.022760736662757564, "learning_rate": 0.0001, "loss": 0.9593, "step": 10484 }, { "epoch": 2.1592000000000002, "grad_norm": 0.025403050227382158, "learning_rate": 0.0001, "loss": 0.9617, "step": 10485 }, { "epoch": 2.1592533333333335, "grad_norm": 0.024650711009534247, "learning_rate": 0.0001, "loss": 0.9045, "step": 10486 }, { "epoch": 2.1593066666666667, "grad_norm": 0.022941002422711222, "learning_rate": 0.0001, "loss": 0.9185, "step": 10487 }, { "epoch": 2.15936, "grad_norm": 0.023302248843375974, "learning_rate": 0.0001, "loss": 1.0204, "step": 10488 }, { "epoch": 2.159413333333333, "grad_norm": 0.024002941121849808, "learning_rate": 0.0001, "loss": 0.942, "step": 10489 }, { "epoch": 2.159466666666667, "grad_norm": 0.02412113877632323, "learning_rate": 0.0001, "loss": 0.9789, "step": 10490 }, { "epoch": 2.15952, "grad_norm": 0.02256660816223891, "learning_rate": 0.0001, "loss": 0.9052, "step": 10491 }, { "epoch": 2.1595733333333333, "grad_norm": 0.024126985798789722, "learning_rate": 0.0001, "loss": 0.9961, "step": 10492 }, { "epoch": 2.1596266666666666, "grad_norm": 0.024535224646272, "learning_rate": 0.0001, "loss": 0.8993, "step": 10493 }, { "epoch": 2.15968, "grad_norm": 0.02303694430150172, "learning_rate": 0.0001, "loss": 0.9234, "step": 10494 }, { "epoch": 2.1597333333333335, "grad_norm": 0.022750082098002482, "learning_rate": 0.0001, "loss": 0.9723, "step": 10495 }, { "epoch": 2.1597866666666667, "grad_norm": 0.024718129244025625, "learning_rate": 0.0001, "loss": 0.9501, "step": 10496 }, { "epoch": 2.15984, "grad_norm": 0.024279983654231976, "learning_rate": 0.0001, "loss": 0.9261, "step": 10497 }, { "epoch": 2.159893333333333, "grad_norm": 0.024066726580016316, "learning_rate": 0.0001, "loss": 0.9957, "step": 10498 }, { "epoch": 2.1599466666666665, "grad_norm": 0.025611122939937395, "learning_rate": 0.0001, "loss": 1.017, "step": 10499 }, { "epoch": 2.16, "grad_norm": 0.023101698179971465, "learning_rate": 0.0001, "loss": 0.9304, "step": 10500 }, { "epoch": 2.1600533333333334, "grad_norm": 0.023992291886705798, "learning_rate": 0.0001, "loss": 1.0062, "step": 10501 }, { "epoch": 2.1601066666666666, "grad_norm": 0.022567376734004326, "learning_rate": 0.0001, "loss": 0.9429, "step": 10502 }, { "epoch": 2.16016, "grad_norm": 0.024791706238913427, "learning_rate": 0.0001, "loss": 0.9595, "step": 10503 }, { "epoch": 2.1602133333333335, "grad_norm": 0.02478808679638289, "learning_rate": 0.0001, "loss": 0.8923, "step": 10504 }, { "epoch": 2.160266666666667, "grad_norm": 0.022891437266631794, "learning_rate": 0.0001, "loss": 0.939, "step": 10505 }, { "epoch": 2.16032, "grad_norm": 0.023062544596267033, "learning_rate": 0.0001, "loss": 0.9246, "step": 10506 }, { "epoch": 2.1603733333333333, "grad_norm": 0.022466707190084718, "learning_rate": 0.0001, "loss": 0.9748, "step": 10507 }, { "epoch": 2.1604266666666665, "grad_norm": 0.023615179978376644, "learning_rate": 0.0001, "loss": 1.0289, "step": 10508 }, { "epoch": 2.16048, "grad_norm": 0.0247526029885558, "learning_rate": 0.0001, "loss": 1.0115, "step": 10509 }, { "epoch": 2.1605333333333334, "grad_norm": 0.024209068164714055, "learning_rate": 0.0001, "loss": 0.9728, "step": 10510 }, { "epoch": 2.1605866666666667, "grad_norm": 0.023204970443639464, "learning_rate": 0.0001, "loss": 0.934, "step": 10511 }, { "epoch": 2.16064, "grad_norm": 0.025906045093515184, "learning_rate": 0.0001, "loss": 0.9873, "step": 10512 }, { "epoch": 2.160693333333333, "grad_norm": 0.021694963550634005, "learning_rate": 0.0001, "loss": 0.9773, "step": 10513 }, { "epoch": 2.160746666666667, "grad_norm": 0.023620872533102966, "learning_rate": 0.0001, "loss": 0.968, "step": 10514 }, { "epoch": 2.1608, "grad_norm": 0.023469373423546255, "learning_rate": 0.0001, "loss": 0.9613, "step": 10515 }, { "epoch": 2.1608533333333333, "grad_norm": 0.02222640447149753, "learning_rate": 0.0001, "loss": 0.9321, "step": 10516 }, { "epoch": 2.1609066666666665, "grad_norm": 0.0239478351556069, "learning_rate": 0.0001, "loss": 0.9938, "step": 10517 }, { "epoch": 2.16096, "grad_norm": 0.023156681535550422, "learning_rate": 0.0001, "loss": 0.9407, "step": 10518 }, { "epoch": 2.1610133333333335, "grad_norm": 0.0231852700053728, "learning_rate": 0.0001, "loss": 0.9676, "step": 10519 }, { "epoch": 2.1610666666666667, "grad_norm": 0.02179608994107293, "learning_rate": 0.0001, "loss": 0.9473, "step": 10520 }, { "epoch": 2.16112, "grad_norm": 0.024839393863867514, "learning_rate": 0.0001, "loss": 0.9568, "step": 10521 }, { "epoch": 2.161173333333333, "grad_norm": 0.024651727213476908, "learning_rate": 0.0001, "loss": 0.9361, "step": 10522 }, { "epoch": 2.161226666666667, "grad_norm": 0.02259986897119828, "learning_rate": 0.0001, "loss": 0.9261, "step": 10523 }, { "epoch": 2.16128, "grad_norm": 0.0239109059613428, "learning_rate": 0.0001, "loss": 0.9143, "step": 10524 }, { "epoch": 2.1613333333333333, "grad_norm": 0.02235767380106699, "learning_rate": 0.0001, "loss": 0.9546, "step": 10525 }, { "epoch": 2.1613866666666666, "grad_norm": 0.024307266170711175, "learning_rate": 0.0001, "loss": 0.9897, "step": 10526 }, { "epoch": 2.16144, "grad_norm": 0.02346663719985036, "learning_rate": 0.0001, "loss": 0.9512, "step": 10527 }, { "epoch": 2.1614933333333335, "grad_norm": 0.023862887646917037, "learning_rate": 0.0001, "loss": 1.048, "step": 10528 }, { "epoch": 2.1615466666666667, "grad_norm": 0.02234327573936608, "learning_rate": 0.0001, "loss": 0.9279, "step": 10529 }, { "epoch": 2.1616, "grad_norm": 0.02367111645064373, "learning_rate": 0.0001, "loss": 0.9951, "step": 10530 }, { "epoch": 2.161653333333333, "grad_norm": 0.0231022061965111, "learning_rate": 0.0001, "loss": 0.9616, "step": 10531 }, { "epoch": 2.1617066666666664, "grad_norm": 0.021168876205357002, "learning_rate": 0.0001, "loss": 0.9239, "step": 10532 }, { "epoch": 2.16176, "grad_norm": 0.02294070945480302, "learning_rate": 0.0001, "loss": 0.9437, "step": 10533 }, { "epoch": 2.1618133333333334, "grad_norm": 0.02372482841974153, "learning_rate": 0.0001, "loss": 0.9725, "step": 10534 }, { "epoch": 2.1618666666666666, "grad_norm": 0.021144564758687857, "learning_rate": 0.0001, "loss": 0.9221, "step": 10535 }, { "epoch": 2.16192, "grad_norm": 0.023884101658871087, "learning_rate": 0.0001, "loss": 0.9566, "step": 10536 }, { "epoch": 2.1619733333333335, "grad_norm": 0.02431052872154831, "learning_rate": 0.0001, "loss": 0.9404, "step": 10537 }, { "epoch": 2.1620266666666668, "grad_norm": 0.02349255321688229, "learning_rate": 0.0001, "loss": 0.9302, "step": 10538 }, { "epoch": 2.16208, "grad_norm": 0.022701755319253128, "learning_rate": 0.0001, "loss": 0.9062, "step": 10539 }, { "epoch": 2.1621333333333332, "grad_norm": 0.023138818350710504, "learning_rate": 0.0001, "loss": 0.9747, "step": 10540 }, { "epoch": 2.1621866666666665, "grad_norm": 0.022435447707739455, "learning_rate": 0.0001, "loss": 0.9756, "step": 10541 }, { "epoch": 2.16224, "grad_norm": 0.025348327762185253, "learning_rate": 0.0001, "loss": 0.9523, "step": 10542 }, { "epoch": 2.1622933333333334, "grad_norm": 0.024776678002401045, "learning_rate": 0.0001, "loss": 0.9724, "step": 10543 }, { "epoch": 2.1623466666666666, "grad_norm": 0.022194466093952543, "learning_rate": 0.0001, "loss": 0.9494, "step": 10544 }, { "epoch": 2.1624, "grad_norm": 0.02357644996896044, "learning_rate": 0.0001, "loss": 0.9562, "step": 10545 }, { "epoch": 2.1624533333333336, "grad_norm": 0.025118382319554475, "learning_rate": 0.0001, "loss": 1.0146, "step": 10546 }, { "epoch": 2.162506666666667, "grad_norm": 0.02422572074339995, "learning_rate": 0.0001, "loss": 0.9446, "step": 10547 }, { "epoch": 2.16256, "grad_norm": 0.024209584045139735, "learning_rate": 0.0001, "loss": 1.0068, "step": 10548 }, { "epoch": 2.1626133333333333, "grad_norm": 0.02385248964043557, "learning_rate": 0.0001, "loss": 0.9417, "step": 10549 }, { "epoch": 2.1626666666666665, "grad_norm": 0.0229020354408648, "learning_rate": 0.0001, "loss": 0.9528, "step": 10550 }, { "epoch": 2.16272, "grad_norm": 0.02190003716577537, "learning_rate": 0.0001, "loss": 0.9071, "step": 10551 }, { "epoch": 2.1627733333333334, "grad_norm": 0.02415388211936743, "learning_rate": 0.0001, "loss": 1.0293, "step": 10552 }, { "epoch": 2.1628266666666667, "grad_norm": 0.02315308501592758, "learning_rate": 0.0001, "loss": 0.966, "step": 10553 }, { "epoch": 2.16288, "grad_norm": 0.02388119947036359, "learning_rate": 0.0001, "loss": 0.9676, "step": 10554 }, { "epoch": 2.162933333333333, "grad_norm": 0.02298046943868777, "learning_rate": 0.0001, "loss": 0.9441, "step": 10555 }, { "epoch": 2.162986666666667, "grad_norm": 0.024120959330150547, "learning_rate": 0.0001, "loss": 0.9512, "step": 10556 }, { "epoch": 2.16304, "grad_norm": 0.02707407648715165, "learning_rate": 0.0001, "loss": 0.9769, "step": 10557 }, { "epoch": 2.1630933333333333, "grad_norm": 0.024439378834692042, "learning_rate": 0.0001, "loss": 0.9597, "step": 10558 }, { "epoch": 2.1631466666666666, "grad_norm": 0.022974790593185555, "learning_rate": 0.0001, "loss": 1.0214, "step": 10559 }, { "epoch": 2.1632, "grad_norm": 0.02354585992697766, "learning_rate": 0.0001, "loss": 0.9547, "step": 10560 }, { "epoch": 2.1632533333333335, "grad_norm": 0.022147435657511046, "learning_rate": 0.0001, "loss": 0.976, "step": 10561 }, { "epoch": 2.1633066666666667, "grad_norm": 0.02297193739537221, "learning_rate": 0.0001, "loss": 1.0105, "step": 10562 }, { "epoch": 2.16336, "grad_norm": 0.02474267439095634, "learning_rate": 0.0001, "loss": 0.9917, "step": 10563 }, { "epoch": 2.163413333333333, "grad_norm": 0.022580524753675484, "learning_rate": 0.0001, "loss": 0.9558, "step": 10564 }, { "epoch": 2.163466666666667, "grad_norm": 0.021545919061708784, "learning_rate": 0.0001, "loss": 0.9331, "step": 10565 }, { "epoch": 2.16352, "grad_norm": 0.026568573161494292, "learning_rate": 0.0001, "loss": 1.0029, "step": 10566 }, { "epoch": 2.1635733333333333, "grad_norm": 0.02370293941663343, "learning_rate": 0.0001, "loss": 0.9996, "step": 10567 }, { "epoch": 2.1636266666666666, "grad_norm": 0.022639187124067546, "learning_rate": 0.0001, "loss": 0.9808, "step": 10568 }, { "epoch": 2.16368, "grad_norm": 0.029238984771295235, "learning_rate": 0.0001, "loss": 1.0125, "step": 10569 }, { "epoch": 2.1637333333333335, "grad_norm": 0.023254054269675424, "learning_rate": 0.0001, "loss": 0.9472, "step": 10570 }, { "epoch": 2.1637866666666667, "grad_norm": 0.024442596357173083, "learning_rate": 0.0001, "loss": 1.0248, "step": 10571 }, { "epoch": 2.16384, "grad_norm": 0.024032546820046463, "learning_rate": 0.0001, "loss": 0.9977, "step": 10572 }, { "epoch": 2.1638933333333332, "grad_norm": 0.025071116030322662, "learning_rate": 0.0001, "loss": 0.9444, "step": 10573 }, { "epoch": 2.1639466666666665, "grad_norm": 0.02296466428238958, "learning_rate": 0.0001, "loss": 0.9964, "step": 10574 }, { "epoch": 2.164, "grad_norm": 0.02806762317730998, "learning_rate": 0.0001, "loss": 1.0135, "step": 10575 }, { "epoch": 2.1640533333333334, "grad_norm": 0.023444329684639935, "learning_rate": 0.0001, "loss": 0.8828, "step": 10576 }, { "epoch": 2.1641066666666666, "grad_norm": 0.02331016963251937, "learning_rate": 0.0001, "loss": 0.944, "step": 10577 }, { "epoch": 2.16416, "grad_norm": 0.025097628495408152, "learning_rate": 0.0001, "loss": 0.972, "step": 10578 }, { "epoch": 2.1642133333333335, "grad_norm": 0.023555562680892175, "learning_rate": 0.0001, "loss": 0.9918, "step": 10579 }, { "epoch": 2.164266666666667, "grad_norm": 0.023427006858693734, "learning_rate": 0.0001, "loss": 0.9535, "step": 10580 }, { "epoch": 2.16432, "grad_norm": 0.022917245628009154, "learning_rate": 0.0001, "loss": 1.0093, "step": 10581 }, { "epoch": 2.1643733333333333, "grad_norm": 0.026384080627050315, "learning_rate": 0.0001, "loss": 0.9895, "step": 10582 }, { "epoch": 2.1644266666666665, "grad_norm": 0.02428495954064154, "learning_rate": 0.0001, "loss": 0.989, "step": 10583 }, { "epoch": 2.16448, "grad_norm": 0.025243155894815024, "learning_rate": 0.0001, "loss": 0.9558, "step": 10584 }, { "epoch": 2.1645333333333334, "grad_norm": 0.02476575830652335, "learning_rate": 0.0001, "loss": 0.9007, "step": 10585 }, { "epoch": 2.1645866666666667, "grad_norm": 0.022998501479984387, "learning_rate": 0.0001, "loss": 0.9739, "step": 10586 }, { "epoch": 2.16464, "grad_norm": 0.024329268802711492, "learning_rate": 0.0001, "loss": 0.9374, "step": 10587 }, { "epoch": 2.164693333333333, "grad_norm": 0.023894524171372063, "learning_rate": 0.0001, "loss": 0.9398, "step": 10588 }, { "epoch": 2.164746666666667, "grad_norm": 0.0220889304302231, "learning_rate": 0.0001, "loss": 0.9604, "step": 10589 }, { "epoch": 2.1648, "grad_norm": 0.023964897239945365, "learning_rate": 0.0001, "loss": 0.94, "step": 10590 }, { "epoch": 2.1648533333333333, "grad_norm": 0.022878555665885168, "learning_rate": 0.0001, "loss": 0.9894, "step": 10591 }, { "epoch": 2.1649066666666665, "grad_norm": 0.022239964192901446, "learning_rate": 0.0001, "loss": 0.9857, "step": 10592 }, { "epoch": 2.1649599999999998, "grad_norm": 0.023549653258660343, "learning_rate": 0.0001, "loss": 0.9274, "step": 10593 }, { "epoch": 2.1650133333333335, "grad_norm": 0.02623892453023, "learning_rate": 0.0001, "loss": 0.9036, "step": 10594 }, { "epoch": 2.1650666666666667, "grad_norm": 0.02370716872035044, "learning_rate": 0.0001, "loss": 0.9966, "step": 10595 }, { "epoch": 2.16512, "grad_norm": 0.023762716892986206, "learning_rate": 0.0001, "loss": 0.9449, "step": 10596 }, { "epoch": 2.165173333333333, "grad_norm": 0.023868012816248535, "learning_rate": 0.0001, "loss": 0.9604, "step": 10597 }, { "epoch": 2.165226666666667, "grad_norm": 0.022610569440157203, "learning_rate": 0.0001, "loss": 0.9737, "step": 10598 }, { "epoch": 2.16528, "grad_norm": 0.022902752876153232, "learning_rate": 0.0001, "loss": 0.9504, "step": 10599 }, { "epoch": 2.1653333333333333, "grad_norm": 0.024119026554880126, "learning_rate": 0.0001, "loss": 0.953, "step": 10600 }, { "epoch": 2.1653333333333333, "eval_accuracy": 0.621481806378864, "eval_loss": 1.347088098526001, "eval_runtime": 62.9515, "eval_samples_per_second": 15.885, "eval_steps_per_second": 0.508, "step": 10600 }, { "epoch": 2.1653866666666666, "grad_norm": 0.022002326211602117, "learning_rate": 0.0001, "loss": 0.9446, "step": 10601 }, { "epoch": 2.16544, "grad_norm": 0.02651708052563921, "learning_rate": 0.0001, "loss": 0.9136, "step": 10602 }, { "epoch": 2.1654933333333335, "grad_norm": 0.023253630174085084, "learning_rate": 0.0001, "loss": 0.9992, "step": 10603 }, { "epoch": 2.1655466666666667, "grad_norm": 0.02670887640506785, "learning_rate": 0.0001, "loss": 0.9442, "step": 10604 }, { "epoch": 2.1656, "grad_norm": 0.0246465792282661, "learning_rate": 0.0001, "loss": 0.953, "step": 10605 }, { "epoch": 2.165653333333333, "grad_norm": 0.022609217466018884, "learning_rate": 0.0001, "loss": 0.9548, "step": 10606 }, { "epoch": 2.165706666666667, "grad_norm": 0.023842838641060963, "learning_rate": 0.0001, "loss": 0.9542, "step": 10607 }, { "epoch": 2.16576, "grad_norm": 0.022941496174482327, "learning_rate": 0.0001, "loss": 0.9525, "step": 10608 }, { "epoch": 2.1658133333333334, "grad_norm": 0.026266276883565077, "learning_rate": 0.0001, "loss": 0.9734, "step": 10609 }, { "epoch": 2.1658666666666666, "grad_norm": 0.025993705153410047, "learning_rate": 0.0001, "loss": 0.9881, "step": 10610 }, { "epoch": 2.16592, "grad_norm": 0.025884564078132933, "learning_rate": 0.0001, "loss": 0.9862, "step": 10611 }, { "epoch": 2.1659733333333335, "grad_norm": 0.023876294237215673, "learning_rate": 0.0001, "loss": 0.9687, "step": 10612 }, { "epoch": 2.1660266666666668, "grad_norm": 0.023675836420340456, "learning_rate": 0.0001, "loss": 0.9281, "step": 10613 }, { "epoch": 2.16608, "grad_norm": 0.0242375029912147, "learning_rate": 0.0001, "loss": 0.9456, "step": 10614 }, { "epoch": 2.1661333333333332, "grad_norm": 0.02526476405748467, "learning_rate": 0.0001, "loss": 0.9916, "step": 10615 }, { "epoch": 2.1661866666666665, "grad_norm": 0.0237841492194618, "learning_rate": 0.0001, "loss": 0.9355, "step": 10616 }, { "epoch": 2.16624, "grad_norm": 0.022351236452084786, "learning_rate": 0.0001, "loss": 0.9323, "step": 10617 }, { "epoch": 2.1662933333333334, "grad_norm": 0.025998660111562433, "learning_rate": 0.0001, "loss": 0.9545, "step": 10618 }, { "epoch": 2.1663466666666666, "grad_norm": 0.022660860313607298, "learning_rate": 0.0001, "loss": 0.9152, "step": 10619 }, { "epoch": 2.1664, "grad_norm": 0.022778210322585517, "learning_rate": 0.0001, "loss": 0.9045, "step": 10620 }, { "epoch": 2.166453333333333, "grad_norm": 0.021915241190070555, "learning_rate": 0.0001, "loss": 0.921, "step": 10621 }, { "epoch": 2.166506666666667, "grad_norm": 0.022251788538718047, "learning_rate": 0.0001, "loss": 0.9515, "step": 10622 }, { "epoch": 2.16656, "grad_norm": 0.02469751569912556, "learning_rate": 0.0001, "loss": 1.0473, "step": 10623 }, { "epoch": 2.1666133333333333, "grad_norm": 0.023198789464080112, "learning_rate": 0.0001, "loss": 0.953, "step": 10624 }, { "epoch": 2.1666666666666665, "grad_norm": 0.022607603115160312, "learning_rate": 0.0001, "loss": 0.9781, "step": 10625 }, { "epoch": 2.16672, "grad_norm": 0.02668230858356216, "learning_rate": 0.0001, "loss": 0.932, "step": 10626 }, { "epoch": 2.1667733333333334, "grad_norm": 0.024153001593258706, "learning_rate": 0.0001, "loss": 0.9785, "step": 10627 }, { "epoch": 2.1668266666666667, "grad_norm": 0.023873807939892334, "learning_rate": 0.0001, "loss": 0.9606, "step": 10628 }, { "epoch": 2.16688, "grad_norm": 0.023141791876714907, "learning_rate": 0.0001, "loss": 0.8879, "step": 10629 }, { "epoch": 2.166933333333333, "grad_norm": 0.023752789025989745, "learning_rate": 0.0001, "loss": 0.9718, "step": 10630 }, { "epoch": 2.166986666666667, "grad_norm": 0.02363000659230983, "learning_rate": 0.0001, "loss": 1.0244, "step": 10631 }, { "epoch": 2.16704, "grad_norm": 0.02323472265449553, "learning_rate": 0.0001, "loss": 0.9319, "step": 10632 }, { "epoch": 2.1670933333333333, "grad_norm": 0.023261707060109764, "learning_rate": 0.0001, "loss": 0.9433, "step": 10633 }, { "epoch": 2.1671466666666666, "grad_norm": 0.023783003010996576, "learning_rate": 0.0001, "loss": 0.9565, "step": 10634 }, { "epoch": 2.1672, "grad_norm": 0.023767486062055147, "learning_rate": 0.0001, "loss": 0.9832, "step": 10635 }, { "epoch": 2.1672533333333335, "grad_norm": 0.02536943852981537, "learning_rate": 0.0001, "loss": 0.8743, "step": 10636 }, { "epoch": 2.1673066666666667, "grad_norm": 0.02400508283361586, "learning_rate": 0.0001, "loss": 0.9865, "step": 10637 }, { "epoch": 2.16736, "grad_norm": 0.021975858857057783, "learning_rate": 0.0001, "loss": 0.9423, "step": 10638 }, { "epoch": 2.167413333333333, "grad_norm": 0.024231451281972766, "learning_rate": 0.0001, "loss": 0.9485, "step": 10639 }, { "epoch": 2.167466666666667, "grad_norm": 0.02348308025643559, "learning_rate": 0.0001, "loss": 0.987, "step": 10640 }, { "epoch": 2.16752, "grad_norm": 0.02578964381157, "learning_rate": 0.0001, "loss": 0.9141, "step": 10641 }, { "epoch": 2.1675733333333334, "grad_norm": 0.02343141258472021, "learning_rate": 0.0001, "loss": 0.9999, "step": 10642 }, { "epoch": 2.1676266666666666, "grad_norm": 0.025477657088856413, "learning_rate": 0.0001, "loss": 0.9866, "step": 10643 }, { "epoch": 2.16768, "grad_norm": 0.023191189019802702, "learning_rate": 0.0001, "loss": 0.9517, "step": 10644 }, { "epoch": 2.1677333333333335, "grad_norm": 0.025383334959568824, "learning_rate": 0.0001, "loss": 0.9472, "step": 10645 }, { "epoch": 2.1677866666666668, "grad_norm": 0.026325293958730313, "learning_rate": 0.0001, "loss": 0.9443, "step": 10646 }, { "epoch": 2.16784, "grad_norm": 0.0235760342246853, "learning_rate": 0.0001, "loss": 0.9546, "step": 10647 }, { "epoch": 2.1678933333333332, "grad_norm": 0.022926741942073062, "learning_rate": 0.0001, "loss": 0.9558, "step": 10648 }, { "epoch": 2.1679466666666665, "grad_norm": 0.02346685873912634, "learning_rate": 0.0001, "loss": 0.958, "step": 10649 }, { "epoch": 2.168, "grad_norm": 0.023104204201304785, "learning_rate": 0.0001, "loss": 0.9412, "step": 10650 }, { "epoch": 2.1680533333333334, "grad_norm": 0.023772197156733416, "learning_rate": 0.0001, "loss": 0.9282, "step": 10651 }, { "epoch": 2.1681066666666666, "grad_norm": 0.024754587878822887, "learning_rate": 0.0001, "loss": 0.9581, "step": 10652 }, { "epoch": 2.16816, "grad_norm": 0.02409580963375454, "learning_rate": 0.0001, "loss": 0.9374, "step": 10653 }, { "epoch": 2.168213333333333, "grad_norm": 0.023772820945627618, "learning_rate": 0.0001, "loss": 0.959, "step": 10654 }, { "epoch": 2.168266666666667, "grad_norm": 0.022059657750654136, "learning_rate": 0.0001, "loss": 0.9701, "step": 10655 }, { "epoch": 2.16832, "grad_norm": 0.024673589014753496, "learning_rate": 0.0001, "loss": 0.942, "step": 10656 }, { "epoch": 2.1683733333333333, "grad_norm": 0.023256185325403682, "learning_rate": 0.0001, "loss": 1.0182, "step": 10657 }, { "epoch": 2.1684266666666665, "grad_norm": 0.023994472138689826, "learning_rate": 0.0001, "loss": 0.9208, "step": 10658 }, { "epoch": 2.16848, "grad_norm": 0.023936432584185697, "learning_rate": 0.0001, "loss": 0.9563, "step": 10659 }, { "epoch": 2.1685333333333334, "grad_norm": 0.025789856657234295, "learning_rate": 0.0001, "loss": 0.9853, "step": 10660 }, { "epoch": 2.1685866666666667, "grad_norm": 0.02606567035887779, "learning_rate": 0.0001, "loss": 0.9981, "step": 10661 }, { "epoch": 2.16864, "grad_norm": 0.023476255215829966, "learning_rate": 0.0001, "loss": 0.9791, "step": 10662 }, { "epoch": 2.168693333333333, "grad_norm": 0.02260292971097644, "learning_rate": 0.0001, "loss": 0.9675, "step": 10663 }, { "epoch": 2.168746666666667, "grad_norm": 0.025393645322573426, "learning_rate": 0.0001, "loss": 0.9879, "step": 10664 }, { "epoch": 2.1688, "grad_norm": 0.02388274443878815, "learning_rate": 0.0001, "loss": 0.9794, "step": 10665 }, { "epoch": 2.1688533333333333, "grad_norm": 0.02516585538295852, "learning_rate": 0.0001, "loss": 0.9371, "step": 10666 }, { "epoch": 2.1689066666666665, "grad_norm": 0.022958647386627735, "learning_rate": 0.0001, "loss": 0.9457, "step": 10667 }, { "epoch": 2.16896, "grad_norm": 0.026004521705479205, "learning_rate": 0.0001, "loss": 0.8664, "step": 10668 }, { "epoch": 2.1690133333333335, "grad_norm": 0.02702809898358779, "learning_rate": 0.0001, "loss": 0.9694, "step": 10669 }, { "epoch": 2.1690666666666667, "grad_norm": 0.023832146252133354, "learning_rate": 0.0001, "loss": 0.998, "step": 10670 }, { "epoch": 2.16912, "grad_norm": 0.023696728095223073, "learning_rate": 0.0001, "loss": 0.9884, "step": 10671 }, { "epoch": 2.169173333333333, "grad_norm": 0.02519311083060641, "learning_rate": 0.0001, "loss": 0.9256, "step": 10672 }, { "epoch": 2.169226666666667, "grad_norm": 0.0229991990831968, "learning_rate": 0.0001, "loss": 0.9733, "step": 10673 }, { "epoch": 2.16928, "grad_norm": 0.024437876103604435, "learning_rate": 0.0001, "loss": 1.0092, "step": 10674 }, { "epoch": 2.1693333333333333, "grad_norm": 0.024640630319532324, "learning_rate": 0.0001, "loss": 0.977, "step": 10675 }, { "epoch": 2.1693866666666666, "grad_norm": 0.02428576949118294, "learning_rate": 0.0001, "loss": 0.8893, "step": 10676 }, { "epoch": 2.16944, "grad_norm": 0.026058564248666115, "learning_rate": 0.0001, "loss": 0.9302, "step": 10677 }, { "epoch": 2.1694933333333335, "grad_norm": 0.023382449889734085, "learning_rate": 0.0001, "loss": 1.0221, "step": 10678 }, { "epoch": 2.1695466666666667, "grad_norm": 0.02264238758954798, "learning_rate": 0.0001, "loss": 0.9054, "step": 10679 }, { "epoch": 2.1696, "grad_norm": 0.027224658755227824, "learning_rate": 0.0001, "loss": 0.9233, "step": 10680 }, { "epoch": 2.169653333333333, "grad_norm": 0.023682963835297364, "learning_rate": 0.0001, "loss": 0.9345, "step": 10681 }, { "epoch": 2.1697066666666665, "grad_norm": 0.023159333361622337, "learning_rate": 0.0001, "loss": 0.9519, "step": 10682 }, { "epoch": 2.16976, "grad_norm": 0.025326136415674928, "learning_rate": 0.0001, "loss": 0.9936, "step": 10683 }, { "epoch": 2.1698133333333334, "grad_norm": 0.024216557837549637, "learning_rate": 0.0001, "loss": 0.9578, "step": 10684 }, { "epoch": 2.1698666666666666, "grad_norm": 0.024202693577411987, "learning_rate": 0.0001, "loss": 0.9791, "step": 10685 }, { "epoch": 2.16992, "grad_norm": 0.025848642463082886, "learning_rate": 0.0001, "loss": 1.0432, "step": 10686 }, { "epoch": 2.1699733333333335, "grad_norm": 0.024850060446417847, "learning_rate": 0.0001, "loss": 0.9202, "step": 10687 }, { "epoch": 2.1700266666666668, "grad_norm": 0.02350600170550292, "learning_rate": 0.0001, "loss": 0.9366, "step": 10688 }, { "epoch": 2.17008, "grad_norm": 0.023999010317436564, "learning_rate": 0.0001, "loss": 0.9463, "step": 10689 }, { "epoch": 2.1701333333333332, "grad_norm": 0.023115247136214937, "learning_rate": 0.0001, "loss": 0.9261, "step": 10690 }, { "epoch": 2.1701866666666665, "grad_norm": 0.023138192591718725, "learning_rate": 0.0001, "loss": 0.8792, "step": 10691 }, { "epoch": 2.17024, "grad_norm": 0.021887216471006943, "learning_rate": 0.0001, "loss": 0.9846, "step": 10692 }, { "epoch": 2.1702933333333334, "grad_norm": 0.02624345271563381, "learning_rate": 0.0001, "loss": 1.0159, "step": 10693 }, { "epoch": 2.1703466666666666, "grad_norm": 0.02429299485528346, "learning_rate": 0.0001, "loss": 0.946, "step": 10694 }, { "epoch": 2.1704, "grad_norm": 0.02332580118670564, "learning_rate": 0.0001, "loss": 0.9688, "step": 10695 }, { "epoch": 2.1704533333333336, "grad_norm": 0.03336457357236194, "learning_rate": 0.0001, "loss": 0.9785, "step": 10696 }, { "epoch": 2.170506666666667, "grad_norm": 0.023620920288559454, "learning_rate": 0.0001, "loss": 0.9753, "step": 10697 }, { "epoch": 2.17056, "grad_norm": 0.023510070081720708, "learning_rate": 0.0001, "loss": 0.9759, "step": 10698 }, { "epoch": 2.1706133333333333, "grad_norm": 0.025254600719700822, "learning_rate": 0.0001, "loss": 1.0498, "step": 10699 }, { "epoch": 2.1706666666666665, "grad_norm": 0.02495446259301269, "learning_rate": 0.0001, "loss": 1.0141, "step": 10700 }, { "epoch": 2.17072, "grad_norm": 0.02242399091851339, "learning_rate": 0.0001, "loss": 0.9558, "step": 10701 }, { "epoch": 2.1707733333333334, "grad_norm": 0.02297680956195023, "learning_rate": 0.0001, "loss": 0.9837, "step": 10702 }, { "epoch": 2.1708266666666667, "grad_norm": 0.024818802014573874, "learning_rate": 0.0001, "loss": 0.9559, "step": 10703 }, { "epoch": 2.17088, "grad_norm": 0.02438945419425821, "learning_rate": 0.0001, "loss": 0.9764, "step": 10704 }, { "epoch": 2.170933333333333, "grad_norm": 0.025083804977643485, "learning_rate": 0.0001, "loss": 0.9202, "step": 10705 }, { "epoch": 2.170986666666667, "grad_norm": 0.023146352676008897, "learning_rate": 0.0001, "loss": 0.9277, "step": 10706 }, { "epoch": 2.17104, "grad_norm": 0.02281781454818983, "learning_rate": 0.0001, "loss": 0.9886, "step": 10707 }, { "epoch": 2.1710933333333333, "grad_norm": 0.023880172358624985, "learning_rate": 0.0001, "loss": 0.961, "step": 10708 }, { "epoch": 2.1711466666666666, "grad_norm": 0.02301088173841997, "learning_rate": 0.0001, "loss": 0.9399, "step": 10709 }, { "epoch": 2.1712, "grad_norm": 0.022380319262582854, "learning_rate": 0.0001, "loss": 0.9442, "step": 10710 }, { "epoch": 2.1712533333333335, "grad_norm": 0.024875407293295747, "learning_rate": 0.0001, "loss": 0.9103, "step": 10711 }, { "epoch": 2.1713066666666667, "grad_norm": 0.02454952451578767, "learning_rate": 0.0001, "loss": 0.9998, "step": 10712 }, { "epoch": 2.17136, "grad_norm": 0.0234694667674266, "learning_rate": 0.0001, "loss": 0.9382, "step": 10713 }, { "epoch": 2.171413333333333, "grad_norm": 0.02281644599099656, "learning_rate": 0.0001, "loss": 1.0245, "step": 10714 }, { "epoch": 2.1714666666666664, "grad_norm": 0.02214414468018354, "learning_rate": 0.0001, "loss": 0.9519, "step": 10715 }, { "epoch": 2.17152, "grad_norm": 0.025073680268542287, "learning_rate": 0.0001, "loss": 0.9996, "step": 10716 }, { "epoch": 2.1715733333333334, "grad_norm": 0.02461007501453314, "learning_rate": 0.0001, "loss": 0.939, "step": 10717 }, { "epoch": 2.1716266666666666, "grad_norm": 0.02348613174029276, "learning_rate": 0.0001, "loss": 0.9683, "step": 10718 }, { "epoch": 2.17168, "grad_norm": 0.022856869635617384, "learning_rate": 0.0001, "loss": 1.0115, "step": 10719 }, { "epoch": 2.1717333333333335, "grad_norm": 0.023169112862550828, "learning_rate": 0.0001, "loss": 0.9961, "step": 10720 }, { "epoch": 2.1717866666666668, "grad_norm": 0.02367754383941535, "learning_rate": 0.0001, "loss": 0.9444, "step": 10721 }, { "epoch": 2.17184, "grad_norm": 0.02159119193463245, "learning_rate": 0.0001, "loss": 0.9826, "step": 10722 }, { "epoch": 2.1718933333333332, "grad_norm": 0.022961233975897298, "learning_rate": 0.0001, "loss": 1.0061, "step": 10723 }, { "epoch": 2.1719466666666665, "grad_norm": 0.02418420772615409, "learning_rate": 0.0001, "loss": 0.9426, "step": 10724 }, { "epoch": 2.172, "grad_norm": 0.02288450792029338, "learning_rate": 0.0001, "loss": 0.9467, "step": 10725 }, { "epoch": 2.1720533333333334, "grad_norm": 0.023586726534581052, "learning_rate": 0.0001, "loss": 1.0382, "step": 10726 }, { "epoch": 2.1721066666666666, "grad_norm": 0.023664736587122346, "learning_rate": 0.0001, "loss": 0.9103, "step": 10727 }, { "epoch": 2.17216, "grad_norm": 0.02485490769064434, "learning_rate": 0.0001, "loss": 0.954, "step": 10728 }, { "epoch": 2.1722133333333336, "grad_norm": 0.023727998065477873, "learning_rate": 0.0001, "loss": 1.0032, "step": 10729 }, { "epoch": 2.172266666666667, "grad_norm": 0.023307933468459337, "learning_rate": 0.0001, "loss": 0.9364, "step": 10730 }, { "epoch": 2.17232, "grad_norm": 0.02436203650501642, "learning_rate": 0.0001, "loss": 0.9735, "step": 10731 }, { "epoch": 2.1723733333333333, "grad_norm": 0.02455519089147858, "learning_rate": 0.0001, "loss": 1.0112, "step": 10732 }, { "epoch": 2.1724266666666665, "grad_norm": 0.02273709575780497, "learning_rate": 0.0001, "loss": 0.9195, "step": 10733 }, { "epoch": 2.17248, "grad_norm": 0.0234881026703684, "learning_rate": 0.0001, "loss": 1.0143, "step": 10734 }, { "epoch": 2.1725333333333334, "grad_norm": 0.02261069938174135, "learning_rate": 0.0001, "loss": 0.957, "step": 10735 }, { "epoch": 2.1725866666666667, "grad_norm": 0.023013123984328674, "learning_rate": 0.0001, "loss": 0.9723, "step": 10736 }, { "epoch": 2.17264, "grad_norm": 0.022150447744184083, "learning_rate": 0.0001, "loss": 0.9766, "step": 10737 }, { "epoch": 2.172693333333333, "grad_norm": 0.023643647162431152, "learning_rate": 0.0001, "loss": 0.8732, "step": 10738 }, { "epoch": 2.172746666666667, "grad_norm": 0.02508672974343647, "learning_rate": 0.0001, "loss": 1.0332, "step": 10739 }, { "epoch": 2.1728, "grad_norm": 0.023628464544548103, "learning_rate": 0.0001, "loss": 1.0004, "step": 10740 }, { "epoch": 2.1728533333333333, "grad_norm": 0.023618559743425277, "learning_rate": 0.0001, "loss": 1.0022, "step": 10741 }, { "epoch": 2.1729066666666665, "grad_norm": 0.023877984275693594, "learning_rate": 0.0001, "loss": 0.9867, "step": 10742 }, { "epoch": 2.17296, "grad_norm": 0.02468297327054712, "learning_rate": 0.0001, "loss": 0.9144, "step": 10743 }, { "epoch": 2.1730133333333335, "grad_norm": 0.02541762584668996, "learning_rate": 0.0001, "loss": 0.9162, "step": 10744 }, { "epoch": 2.1730666666666667, "grad_norm": 0.025388086621202777, "learning_rate": 0.0001, "loss": 0.9456, "step": 10745 }, { "epoch": 2.17312, "grad_norm": 0.023652494195966895, "learning_rate": 0.0001, "loss": 0.9502, "step": 10746 }, { "epoch": 2.173173333333333, "grad_norm": 0.023453104927992043, "learning_rate": 0.0001, "loss": 0.9911, "step": 10747 }, { "epoch": 2.173226666666667, "grad_norm": 0.0235548795764103, "learning_rate": 0.0001, "loss": 0.9917, "step": 10748 }, { "epoch": 2.17328, "grad_norm": 0.024191211285353727, "learning_rate": 0.0001, "loss": 0.9845, "step": 10749 }, { "epoch": 2.1733333333333333, "grad_norm": 0.023691221180155826, "learning_rate": 0.0001, "loss": 0.9456, "step": 10750 }, { "epoch": 2.1733866666666666, "grad_norm": 0.024053642243589884, "learning_rate": 0.0001, "loss": 0.9683, "step": 10751 }, { "epoch": 2.17344, "grad_norm": 0.024872963475244293, "learning_rate": 0.0001, "loss": 0.9417, "step": 10752 }, { "epoch": 2.1734933333333335, "grad_norm": 0.02435216928605842, "learning_rate": 0.0001, "loss": 1.0417, "step": 10753 }, { "epoch": 2.1735466666666667, "grad_norm": 0.023974633705249663, "learning_rate": 0.0001, "loss": 0.9505, "step": 10754 }, { "epoch": 2.1736, "grad_norm": 0.023888119856528712, "learning_rate": 0.0001, "loss": 0.9697, "step": 10755 }, { "epoch": 2.173653333333333, "grad_norm": 0.023322881396744384, "learning_rate": 0.0001, "loss": 0.9128, "step": 10756 }, { "epoch": 2.173706666666667, "grad_norm": 0.022803793062953007, "learning_rate": 0.0001, "loss": 0.8814, "step": 10757 }, { "epoch": 2.17376, "grad_norm": 0.02307193828101871, "learning_rate": 0.0001, "loss": 0.9219, "step": 10758 }, { "epoch": 2.1738133333333334, "grad_norm": 0.024058520086743636, "learning_rate": 0.0001, "loss": 0.9538, "step": 10759 }, { "epoch": 2.1738666666666666, "grad_norm": 0.023329899459212, "learning_rate": 0.0001, "loss": 0.8993, "step": 10760 }, { "epoch": 2.17392, "grad_norm": 0.023447968580716048, "learning_rate": 0.0001, "loss": 1.0136, "step": 10761 }, { "epoch": 2.1739733333333335, "grad_norm": 0.02381893486897342, "learning_rate": 0.0001, "loss": 0.9471, "step": 10762 }, { "epoch": 2.1740266666666668, "grad_norm": 0.02299258279069518, "learning_rate": 0.0001, "loss": 0.9225, "step": 10763 }, { "epoch": 2.17408, "grad_norm": 0.023167574425725736, "learning_rate": 0.0001, "loss": 0.9616, "step": 10764 }, { "epoch": 2.1741333333333333, "grad_norm": 0.022484843020858986, "learning_rate": 0.0001, "loss": 0.9218, "step": 10765 }, { "epoch": 2.1741866666666665, "grad_norm": 0.02228306048417553, "learning_rate": 0.0001, "loss": 0.9632, "step": 10766 }, { "epoch": 2.17424, "grad_norm": 0.02358977613911397, "learning_rate": 0.0001, "loss": 0.9435, "step": 10767 }, { "epoch": 2.1742933333333334, "grad_norm": 0.027200380818774406, "learning_rate": 0.0001, "loss": 0.9427, "step": 10768 }, { "epoch": 2.1743466666666666, "grad_norm": 0.023131346277225098, "learning_rate": 0.0001, "loss": 1.0344, "step": 10769 }, { "epoch": 2.1744, "grad_norm": 0.024376071623311082, "learning_rate": 0.0001, "loss": 0.9597, "step": 10770 }, { "epoch": 2.174453333333333, "grad_norm": 0.023407915126373625, "learning_rate": 0.0001, "loss": 0.9913, "step": 10771 }, { "epoch": 2.174506666666667, "grad_norm": 0.023522749624731387, "learning_rate": 0.0001, "loss": 1.0119, "step": 10772 }, { "epoch": 2.17456, "grad_norm": 0.02325829581742589, "learning_rate": 0.0001, "loss": 0.9605, "step": 10773 }, { "epoch": 2.1746133333333333, "grad_norm": 0.025091690752028124, "learning_rate": 0.0001, "loss": 0.8983, "step": 10774 }, { "epoch": 2.1746666666666665, "grad_norm": 0.023322155402102078, "learning_rate": 0.0001, "loss": 0.9391, "step": 10775 }, { "epoch": 2.1747199999999998, "grad_norm": 0.024380375280645333, "learning_rate": 0.0001, "loss": 0.9542, "step": 10776 }, { "epoch": 2.1747733333333334, "grad_norm": 0.023376278986848572, "learning_rate": 0.0001, "loss": 0.9664, "step": 10777 }, { "epoch": 2.1748266666666667, "grad_norm": 0.024643002554099364, "learning_rate": 0.0001, "loss": 0.969, "step": 10778 }, { "epoch": 2.17488, "grad_norm": 0.023438020314182975, "learning_rate": 0.0001, "loss": 0.9597, "step": 10779 }, { "epoch": 2.174933333333333, "grad_norm": 0.02357434931035952, "learning_rate": 0.0001, "loss": 0.9681, "step": 10780 }, { "epoch": 2.174986666666667, "grad_norm": 0.02425006780445687, "learning_rate": 0.0001, "loss": 0.9373, "step": 10781 }, { "epoch": 2.17504, "grad_norm": 0.023172240691782194, "learning_rate": 0.0001, "loss": 0.9487, "step": 10782 }, { "epoch": 2.1750933333333333, "grad_norm": 0.023645733724531087, "learning_rate": 0.0001, "loss": 0.9674, "step": 10783 }, { "epoch": 2.1751466666666666, "grad_norm": 0.025254729448140886, "learning_rate": 0.0001, "loss": 1.0101, "step": 10784 }, { "epoch": 2.1752, "grad_norm": 0.024289426920456225, "learning_rate": 0.0001, "loss": 0.9923, "step": 10785 }, { "epoch": 2.1752533333333335, "grad_norm": 0.022541321270110007, "learning_rate": 0.0001, "loss": 0.9921, "step": 10786 }, { "epoch": 2.1753066666666667, "grad_norm": 0.02275176856690146, "learning_rate": 0.0001, "loss": 0.9719, "step": 10787 }, { "epoch": 2.17536, "grad_norm": 0.02298426697558266, "learning_rate": 0.0001, "loss": 0.95, "step": 10788 }, { "epoch": 2.175413333333333, "grad_norm": 0.0235714768984576, "learning_rate": 0.0001, "loss": 0.9818, "step": 10789 }, { "epoch": 2.175466666666667, "grad_norm": 0.024600344063852204, "learning_rate": 0.0001, "loss": 0.9784, "step": 10790 }, { "epoch": 2.17552, "grad_norm": 0.02469819915270216, "learning_rate": 0.0001, "loss": 0.9448, "step": 10791 }, { "epoch": 2.1755733333333334, "grad_norm": 0.023149093903022788, "learning_rate": 0.0001, "loss": 0.962, "step": 10792 }, { "epoch": 2.1756266666666666, "grad_norm": 0.022523934785078005, "learning_rate": 0.0001, "loss": 0.9359, "step": 10793 }, { "epoch": 2.17568, "grad_norm": 0.025502201680658355, "learning_rate": 0.0001, "loss": 0.9185, "step": 10794 }, { "epoch": 2.1757333333333335, "grad_norm": 0.023257689362733786, "learning_rate": 0.0001, "loss": 0.9633, "step": 10795 }, { "epoch": 2.1757866666666668, "grad_norm": 0.025087443603517386, "learning_rate": 0.0001, "loss": 0.9935, "step": 10796 }, { "epoch": 2.17584, "grad_norm": 0.021521985391818318, "learning_rate": 0.0001, "loss": 0.8679, "step": 10797 }, { "epoch": 2.1758933333333332, "grad_norm": 0.02427900387296362, "learning_rate": 0.0001, "loss": 1.0007, "step": 10798 }, { "epoch": 2.1759466666666665, "grad_norm": 0.02308247048257351, "learning_rate": 0.0001, "loss": 0.9291, "step": 10799 }, { "epoch": 2.176, "grad_norm": 0.023713799073480216, "learning_rate": 0.0001, "loss": 0.986, "step": 10800 }, { "epoch": 2.176, "eval_accuracy": 0.6215559521219185, "eval_loss": 1.3465375900268555, "eval_runtime": 62.4368, "eval_samples_per_second": 16.016, "eval_steps_per_second": 0.513, "step": 10800 }, { "epoch": 2.1760533333333334, "grad_norm": 0.024197833736797087, "learning_rate": 0.0001, "loss": 0.9549, "step": 10801 }, { "epoch": 2.1761066666666666, "grad_norm": 0.02405106841045461, "learning_rate": 0.0001, "loss": 0.9906, "step": 10802 }, { "epoch": 2.17616, "grad_norm": 0.0232498138139618, "learning_rate": 0.0001, "loss": 0.9633, "step": 10803 }, { "epoch": 2.176213333333333, "grad_norm": 0.024087398012575718, "learning_rate": 0.0001, "loss": 0.9598, "step": 10804 }, { "epoch": 2.176266666666667, "grad_norm": 0.026592902625284243, "learning_rate": 0.0001, "loss": 0.9705, "step": 10805 }, { "epoch": 2.17632, "grad_norm": 0.023613287267783358, "learning_rate": 0.0001, "loss": 0.958, "step": 10806 }, { "epoch": 2.1763733333333333, "grad_norm": 0.024280583769525486, "learning_rate": 0.0001, "loss": 0.9705, "step": 10807 }, { "epoch": 2.1764266666666665, "grad_norm": 0.024703702092641208, "learning_rate": 0.0001, "loss": 0.9658, "step": 10808 }, { "epoch": 2.17648, "grad_norm": 0.024182219927453546, "learning_rate": 0.0001, "loss": 0.9585, "step": 10809 }, { "epoch": 2.1765333333333334, "grad_norm": 0.02371600902745891, "learning_rate": 0.0001, "loss": 0.9639, "step": 10810 }, { "epoch": 2.1765866666666667, "grad_norm": 0.022066932066322004, "learning_rate": 0.0001, "loss": 0.9728, "step": 10811 }, { "epoch": 2.17664, "grad_norm": 0.0240920690375087, "learning_rate": 0.0001, "loss": 0.9525, "step": 10812 }, { "epoch": 2.176693333333333, "grad_norm": 0.022985548326311462, "learning_rate": 0.0001, "loss": 0.9378, "step": 10813 }, { "epoch": 2.176746666666667, "grad_norm": 0.021996134736566152, "learning_rate": 0.0001, "loss": 0.9539, "step": 10814 }, { "epoch": 2.1768, "grad_norm": 0.02204030590673641, "learning_rate": 0.0001, "loss": 0.9553, "step": 10815 }, { "epoch": 2.1768533333333333, "grad_norm": 0.02803458692697237, "learning_rate": 0.0001, "loss": 0.9761, "step": 10816 }, { "epoch": 2.1769066666666665, "grad_norm": 0.023019019465536094, "learning_rate": 0.0001, "loss": 0.9737, "step": 10817 }, { "epoch": 2.1769600000000002, "grad_norm": 0.025034042889547758, "learning_rate": 0.0001, "loss": 0.9594, "step": 10818 }, { "epoch": 2.1770133333333335, "grad_norm": 0.02317274873618337, "learning_rate": 0.0001, "loss": 0.9367, "step": 10819 }, { "epoch": 2.1770666666666667, "grad_norm": 0.0222373437023283, "learning_rate": 0.0001, "loss": 0.9863, "step": 10820 }, { "epoch": 2.17712, "grad_norm": 0.023997986220912263, "learning_rate": 0.0001, "loss": 0.9953, "step": 10821 }, { "epoch": 2.177173333333333, "grad_norm": 0.02346303086203983, "learning_rate": 0.0001, "loss": 0.9332, "step": 10822 }, { "epoch": 2.177226666666667, "grad_norm": 0.023030126191478425, "learning_rate": 0.0001, "loss": 0.9541, "step": 10823 }, { "epoch": 2.17728, "grad_norm": 0.02318961559818216, "learning_rate": 0.0001, "loss": 0.9707, "step": 10824 }, { "epoch": 2.1773333333333333, "grad_norm": 0.02321401549533503, "learning_rate": 0.0001, "loss": 0.9254, "step": 10825 }, { "epoch": 2.1773866666666666, "grad_norm": 0.024788699735163292, "learning_rate": 0.0001, "loss": 0.9742, "step": 10826 }, { "epoch": 2.17744, "grad_norm": 0.023477936705536714, "learning_rate": 0.0001, "loss": 0.9823, "step": 10827 }, { "epoch": 2.1774933333333335, "grad_norm": 0.02457676538579832, "learning_rate": 0.0001, "loss": 0.9597, "step": 10828 }, { "epoch": 2.1775466666666667, "grad_norm": 0.022842547006974814, "learning_rate": 0.0001, "loss": 0.971, "step": 10829 }, { "epoch": 2.1776, "grad_norm": 0.02274843361086117, "learning_rate": 0.0001, "loss": 0.9447, "step": 10830 }, { "epoch": 2.177653333333333, "grad_norm": 0.02239283415785569, "learning_rate": 0.0001, "loss": 1.0111, "step": 10831 }, { "epoch": 2.1777066666666665, "grad_norm": 0.022407498631822405, "learning_rate": 0.0001, "loss": 0.9568, "step": 10832 }, { "epoch": 2.17776, "grad_norm": 0.023405390234097247, "learning_rate": 0.0001, "loss": 0.9273, "step": 10833 }, { "epoch": 2.1778133333333334, "grad_norm": 0.02207903520536174, "learning_rate": 0.0001, "loss": 0.9378, "step": 10834 }, { "epoch": 2.1778666666666666, "grad_norm": 0.022903542970836868, "learning_rate": 0.0001, "loss": 0.9954, "step": 10835 }, { "epoch": 2.17792, "grad_norm": 0.023177829399997952, "learning_rate": 0.0001, "loss": 0.9539, "step": 10836 }, { "epoch": 2.1779733333333335, "grad_norm": 0.023479935038333163, "learning_rate": 0.0001, "loss": 0.868, "step": 10837 }, { "epoch": 2.1780266666666668, "grad_norm": 0.024069665498875716, "learning_rate": 0.0001, "loss": 0.9606, "step": 10838 }, { "epoch": 2.17808, "grad_norm": 0.03098388008417561, "learning_rate": 0.0001, "loss": 0.9595, "step": 10839 }, { "epoch": 2.1781333333333333, "grad_norm": 0.024453903962340817, "learning_rate": 0.0001, "loss": 1.0169, "step": 10840 }, { "epoch": 2.1781866666666665, "grad_norm": 0.024689411336662442, "learning_rate": 0.0001, "loss": 0.9198, "step": 10841 }, { "epoch": 2.17824, "grad_norm": 0.023195716244533014, "learning_rate": 0.0001, "loss": 0.9464, "step": 10842 }, { "epoch": 2.1782933333333334, "grad_norm": 0.0234705769941161, "learning_rate": 0.0001, "loss": 0.9797, "step": 10843 }, { "epoch": 2.1783466666666667, "grad_norm": 0.027386121227121512, "learning_rate": 0.0001, "loss": 0.958, "step": 10844 }, { "epoch": 2.1784, "grad_norm": 0.02402231184518301, "learning_rate": 0.0001, "loss": 0.9957, "step": 10845 }, { "epoch": 2.178453333333333, "grad_norm": 0.02418101263992456, "learning_rate": 0.0001, "loss": 0.9735, "step": 10846 }, { "epoch": 2.178506666666667, "grad_norm": 0.024669179820865306, "learning_rate": 0.0001, "loss": 0.9791, "step": 10847 }, { "epoch": 2.17856, "grad_norm": 0.023359342429053014, "learning_rate": 0.0001, "loss": 0.9333, "step": 10848 }, { "epoch": 2.1786133333333333, "grad_norm": 0.023405385576664675, "learning_rate": 0.0001, "loss": 0.973, "step": 10849 }, { "epoch": 2.1786666666666665, "grad_norm": 0.023670746726811267, "learning_rate": 0.0001, "loss": 0.9554, "step": 10850 }, { "epoch": 2.17872, "grad_norm": 0.024320598292024136, "learning_rate": 0.0001, "loss": 0.9878, "step": 10851 }, { "epoch": 2.1787733333333335, "grad_norm": 0.02434271005604994, "learning_rate": 0.0001, "loss": 0.9532, "step": 10852 }, { "epoch": 2.1788266666666667, "grad_norm": 0.024475942003298577, "learning_rate": 0.0001, "loss": 0.9318, "step": 10853 }, { "epoch": 2.17888, "grad_norm": 0.02453018446301607, "learning_rate": 0.0001, "loss": 0.9681, "step": 10854 }, { "epoch": 2.178933333333333, "grad_norm": 0.024202037937660913, "learning_rate": 0.0001, "loss": 0.9264, "step": 10855 }, { "epoch": 2.178986666666667, "grad_norm": 0.02613125025729098, "learning_rate": 0.0001, "loss": 0.9721, "step": 10856 }, { "epoch": 2.17904, "grad_norm": 0.0235604181261239, "learning_rate": 0.0001, "loss": 0.9848, "step": 10857 }, { "epoch": 2.1790933333333333, "grad_norm": 0.02386159129188224, "learning_rate": 0.0001, "loss": 0.993, "step": 10858 }, { "epoch": 2.1791466666666666, "grad_norm": 0.02414896669892628, "learning_rate": 0.0001, "loss": 0.9357, "step": 10859 }, { "epoch": 2.1792, "grad_norm": 0.023773879776035164, "learning_rate": 0.0001, "loss": 0.9651, "step": 10860 }, { "epoch": 2.1792533333333335, "grad_norm": 0.025351125150849526, "learning_rate": 0.0001, "loss": 0.9857, "step": 10861 }, { "epoch": 2.1793066666666667, "grad_norm": 0.02374841083276072, "learning_rate": 0.0001, "loss": 0.9549, "step": 10862 }, { "epoch": 2.17936, "grad_norm": 0.02432151684591873, "learning_rate": 0.0001, "loss": 0.9436, "step": 10863 }, { "epoch": 2.179413333333333, "grad_norm": 0.023936457688835067, "learning_rate": 0.0001, "loss": 0.9859, "step": 10864 }, { "epoch": 2.1794666666666664, "grad_norm": 0.024615531183740224, "learning_rate": 0.0001, "loss": 0.9504, "step": 10865 }, { "epoch": 2.17952, "grad_norm": 0.023831898682813758, "learning_rate": 0.0001, "loss": 0.9501, "step": 10866 }, { "epoch": 2.1795733333333334, "grad_norm": 0.024841053732009566, "learning_rate": 0.0001, "loss": 0.9444, "step": 10867 }, { "epoch": 2.1796266666666666, "grad_norm": 0.023953394475140773, "learning_rate": 0.0001, "loss": 0.957, "step": 10868 }, { "epoch": 2.17968, "grad_norm": 0.02287020211694277, "learning_rate": 0.0001, "loss": 0.9314, "step": 10869 }, { "epoch": 2.1797333333333335, "grad_norm": 0.023534255084307093, "learning_rate": 0.0001, "loss": 0.9234, "step": 10870 }, { "epoch": 2.1797866666666668, "grad_norm": 0.02543016083536098, "learning_rate": 0.0001, "loss": 0.9798, "step": 10871 }, { "epoch": 2.17984, "grad_norm": 0.02368098937757466, "learning_rate": 0.0001, "loss": 0.9631, "step": 10872 }, { "epoch": 2.1798933333333332, "grad_norm": 0.024145512043013097, "learning_rate": 0.0001, "loss": 0.9429, "step": 10873 }, { "epoch": 2.1799466666666665, "grad_norm": 0.023266178919793597, "learning_rate": 0.0001, "loss": 0.9536, "step": 10874 }, { "epoch": 2.18, "grad_norm": 0.025151788065996, "learning_rate": 0.0001, "loss": 0.9762, "step": 10875 }, { "epoch": 2.1800533333333334, "grad_norm": 0.028997347641348308, "learning_rate": 0.0001, "loss": 0.9414, "step": 10876 }, { "epoch": 2.1801066666666666, "grad_norm": 0.023236824856143427, "learning_rate": 0.0001, "loss": 0.9725, "step": 10877 }, { "epoch": 2.18016, "grad_norm": 0.025795715068953468, "learning_rate": 0.0001, "loss": 0.9211, "step": 10878 }, { "epoch": 2.1802133333333336, "grad_norm": 0.023741298664584593, "learning_rate": 0.0001, "loss": 0.9948, "step": 10879 }, { "epoch": 2.180266666666667, "grad_norm": 0.0249754503836372, "learning_rate": 0.0001, "loss": 0.9391, "step": 10880 }, { "epoch": 2.18032, "grad_norm": 0.026528062380280198, "learning_rate": 0.0001, "loss": 1.0207, "step": 10881 }, { "epoch": 2.1803733333333333, "grad_norm": 0.024598290603412357, "learning_rate": 0.0001, "loss": 0.9671, "step": 10882 }, { "epoch": 2.1804266666666665, "grad_norm": 0.02306513309897243, "learning_rate": 0.0001, "loss": 0.9832, "step": 10883 }, { "epoch": 2.18048, "grad_norm": 0.02431646943414027, "learning_rate": 0.0001, "loss": 0.9444, "step": 10884 }, { "epoch": 2.1805333333333334, "grad_norm": 0.023315539743259853, "learning_rate": 0.0001, "loss": 0.9227, "step": 10885 }, { "epoch": 2.1805866666666667, "grad_norm": 0.02297504685065717, "learning_rate": 0.0001, "loss": 0.9071, "step": 10886 }, { "epoch": 2.18064, "grad_norm": 0.023045345612063055, "learning_rate": 0.0001, "loss": 0.9291, "step": 10887 }, { "epoch": 2.180693333333333, "grad_norm": 0.023364366701450565, "learning_rate": 0.0001, "loss": 0.9836, "step": 10888 }, { "epoch": 2.180746666666667, "grad_norm": 0.023473996029719703, "learning_rate": 0.0001, "loss": 0.941, "step": 10889 }, { "epoch": 2.1808, "grad_norm": 0.024437566851643385, "learning_rate": 0.0001, "loss": 0.9654, "step": 10890 }, { "epoch": 2.1808533333333333, "grad_norm": 0.024302655081039005, "learning_rate": 0.0001, "loss": 0.9573, "step": 10891 }, { "epoch": 2.1809066666666665, "grad_norm": 0.024502952808794623, "learning_rate": 0.0001, "loss": 0.9452, "step": 10892 }, { "epoch": 2.18096, "grad_norm": 0.023387196839011897, "learning_rate": 0.0001, "loss": 1.0016, "step": 10893 }, { "epoch": 2.1810133333333335, "grad_norm": 0.024420593454186887, "learning_rate": 0.0001, "loss": 0.9834, "step": 10894 }, { "epoch": 2.1810666666666667, "grad_norm": 0.02414037512565086, "learning_rate": 0.0001, "loss": 0.9774, "step": 10895 }, { "epoch": 2.18112, "grad_norm": 0.024367485938819045, "learning_rate": 0.0001, "loss": 0.9109, "step": 10896 }, { "epoch": 2.181173333333333, "grad_norm": 0.024572045216658442, "learning_rate": 0.0001, "loss": 0.9532, "step": 10897 }, { "epoch": 2.181226666666667, "grad_norm": 0.022481633716925666, "learning_rate": 0.0001, "loss": 0.9652, "step": 10898 }, { "epoch": 2.18128, "grad_norm": 0.02196842060726842, "learning_rate": 0.0001, "loss": 0.9846, "step": 10899 }, { "epoch": 2.1813333333333333, "grad_norm": 0.02364122977258706, "learning_rate": 0.0001, "loss": 0.8855, "step": 10900 }, { "epoch": 2.1813866666666666, "grad_norm": 0.024661541216190384, "learning_rate": 0.0001, "loss": 0.9931, "step": 10901 }, { "epoch": 2.18144, "grad_norm": 0.025335448001376694, "learning_rate": 0.0001, "loss": 0.921, "step": 10902 }, { "epoch": 2.1814933333333335, "grad_norm": 0.0232258201838485, "learning_rate": 0.0001, "loss": 0.9304, "step": 10903 }, { "epoch": 2.1815466666666667, "grad_norm": 0.02458642903450984, "learning_rate": 0.0001, "loss": 0.9696, "step": 10904 }, { "epoch": 2.1816, "grad_norm": 0.02392316414931056, "learning_rate": 0.0001, "loss": 0.9744, "step": 10905 }, { "epoch": 2.1816533333333332, "grad_norm": 0.0242269870925452, "learning_rate": 0.0001, "loss": 0.9248, "step": 10906 }, { "epoch": 2.1817066666666665, "grad_norm": 0.023162875805650792, "learning_rate": 0.0001, "loss": 0.9576, "step": 10907 }, { "epoch": 2.18176, "grad_norm": 0.02213240068215879, "learning_rate": 0.0001, "loss": 0.8449, "step": 10908 }, { "epoch": 2.1818133333333334, "grad_norm": 0.0266031687528713, "learning_rate": 0.0001, "loss": 0.8836, "step": 10909 }, { "epoch": 2.1818666666666666, "grad_norm": 0.02320819738401564, "learning_rate": 0.0001, "loss": 0.9477, "step": 10910 }, { "epoch": 2.18192, "grad_norm": 0.023719854101163625, "learning_rate": 0.0001, "loss": 0.9358, "step": 10911 }, { "epoch": 2.1819733333333335, "grad_norm": 0.023687033814221485, "learning_rate": 0.0001, "loss": 0.9778, "step": 10912 }, { "epoch": 2.182026666666667, "grad_norm": 0.022650934236770132, "learning_rate": 0.0001, "loss": 0.9726, "step": 10913 }, { "epoch": 2.18208, "grad_norm": 0.02441770347355172, "learning_rate": 0.0001, "loss": 1.0141, "step": 10914 }, { "epoch": 2.1821333333333333, "grad_norm": 0.02295869619197927, "learning_rate": 0.0001, "loss": 0.9661, "step": 10915 }, { "epoch": 2.1821866666666665, "grad_norm": 0.021916421769344323, "learning_rate": 0.0001, "loss": 0.9126, "step": 10916 }, { "epoch": 2.18224, "grad_norm": 0.02211199459698367, "learning_rate": 0.0001, "loss": 0.9359, "step": 10917 }, { "epoch": 2.1822933333333334, "grad_norm": 0.023166222980504126, "learning_rate": 0.0001, "loss": 0.9146, "step": 10918 }, { "epoch": 2.1823466666666667, "grad_norm": 0.022883899940052913, "learning_rate": 0.0001, "loss": 1.0097, "step": 10919 }, { "epoch": 2.1824, "grad_norm": 0.023807262037462213, "learning_rate": 0.0001, "loss": 1.0045, "step": 10920 }, { "epoch": 2.182453333333333, "grad_norm": 0.02202180267766476, "learning_rate": 0.0001, "loss": 0.9332, "step": 10921 }, { "epoch": 2.182506666666667, "grad_norm": 0.02301804959671449, "learning_rate": 0.0001, "loss": 0.944, "step": 10922 }, { "epoch": 2.18256, "grad_norm": 0.026397905754796152, "learning_rate": 0.0001, "loss": 0.9743, "step": 10923 }, { "epoch": 2.1826133333333333, "grad_norm": 0.022115850485491962, "learning_rate": 0.0001, "loss": 0.9785, "step": 10924 }, { "epoch": 2.1826666666666665, "grad_norm": 0.024022687561581584, "learning_rate": 0.0001, "loss": 0.9313, "step": 10925 }, { "epoch": 2.1827199999999998, "grad_norm": 0.025065978447593378, "learning_rate": 0.0001, "loss": 0.9936, "step": 10926 }, { "epoch": 2.1827733333333335, "grad_norm": 0.0239787431861891, "learning_rate": 0.0001, "loss": 1.044, "step": 10927 }, { "epoch": 2.1828266666666667, "grad_norm": 0.02705696337352819, "learning_rate": 0.0001, "loss": 0.9496, "step": 10928 }, { "epoch": 2.18288, "grad_norm": 0.02423010388970518, "learning_rate": 0.0001, "loss": 0.9369, "step": 10929 }, { "epoch": 2.182933333333333, "grad_norm": 0.02406718113571912, "learning_rate": 0.0001, "loss": 0.9361, "step": 10930 }, { "epoch": 2.182986666666667, "grad_norm": 0.025637531747833446, "learning_rate": 0.0001, "loss": 0.968, "step": 10931 }, { "epoch": 2.18304, "grad_norm": 0.024022494486263424, "learning_rate": 0.0001, "loss": 0.99, "step": 10932 }, { "epoch": 2.1830933333333333, "grad_norm": 0.039337129223519146, "learning_rate": 0.0001, "loss": 1.0595, "step": 10933 }, { "epoch": 2.1831466666666666, "grad_norm": 0.02634389105455781, "learning_rate": 0.0001, "loss": 0.9561, "step": 10934 }, { "epoch": 2.1832, "grad_norm": 0.02479657069556935, "learning_rate": 0.0001, "loss": 0.929, "step": 10935 }, { "epoch": 2.1832533333333335, "grad_norm": 0.024189871409361477, "learning_rate": 0.0001, "loss": 0.944, "step": 10936 }, { "epoch": 2.1833066666666667, "grad_norm": 0.025949216335069122, "learning_rate": 0.0001, "loss": 1.0173, "step": 10937 }, { "epoch": 2.18336, "grad_norm": 0.023721697566161364, "learning_rate": 0.0001, "loss": 0.9612, "step": 10938 }, { "epoch": 2.183413333333333, "grad_norm": 0.025427111088749163, "learning_rate": 0.0001, "loss": 0.9133, "step": 10939 }, { "epoch": 2.183466666666667, "grad_norm": 0.02705900833829476, "learning_rate": 0.0001, "loss": 0.9696, "step": 10940 }, { "epoch": 2.18352, "grad_norm": 0.02386899402227621, "learning_rate": 0.0001, "loss": 0.9664, "step": 10941 }, { "epoch": 2.1835733333333334, "grad_norm": 0.02368839915751477, "learning_rate": 0.0001, "loss": 0.9836, "step": 10942 }, { "epoch": 2.1836266666666666, "grad_norm": 0.022057953540252927, "learning_rate": 0.0001, "loss": 0.9197, "step": 10943 }, { "epoch": 2.18368, "grad_norm": 0.02315584027751196, "learning_rate": 0.0001, "loss": 0.9702, "step": 10944 }, { "epoch": 2.1837333333333335, "grad_norm": 0.022407162580763373, "learning_rate": 0.0001, "loss": 0.911, "step": 10945 }, { "epoch": 2.1837866666666668, "grad_norm": 0.023247960722700887, "learning_rate": 0.0001, "loss": 0.9808, "step": 10946 }, { "epoch": 2.18384, "grad_norm": 0.022427746355693664, "learning_rate": 0.0001, "loss": 0.9051, "step": 10947 }, { "epoch": 2.1838933333333332, "grad_norm": 0.024830601947207268, "learning_rate": 0.0001, "loss": 0.9447, "step": 10948 }, { "epoch": 2.1839466666666665, "grad_norm": 0.025523624863494878, "learning_rate": 0.0001, "loss": 1.007, "step": 10949 }, { "epoch": 2.184, "grad_norm": 0.023907129822638002, "learning_rate": 0.0001, "loss": 0.9766, "step": 10950 }, { "epoch": 2.1840533333333334, "grad_norm": 0.024868514470412002, "learning_rate": 0.0001, "loss": 0.9448, "step": 10951 }, { "epoch": 2.1841066666666666, "grad_norm": 0.02402355799889388, "learning_rate": 0.0001, "loss": 0.9687, "step": 10952 }, { "epoch": 2.18416, "grad_norm": 0.024533456761640003, "learning_rate": 0.0001, "loss": 0.9461, "step": 10953 }, { "epoch": 2.184213333333333, "grad_norm": 0.02414436886734191, "learning_rate": 0.0001, "loss": 0.9653, "step": 10954 }, { "epoch": 2.184266666666667, "grad_norm": 0.02633720094208322, "learning_rate": 0.0001, "loss": 0.9519, "step": 10955 }, { "epoch": 2.18432, "grad_norm": 0.023764531186198343, "learning_rate": 0.0001, "loss": 0.9411, "step": 10956 }, { "epoch": 2.1843733333333333, "grad_norm": 0.022182146180286206, "learning_rate": 0.0001, "loss": 0.9359, "step": 10957 }, { "epoch": 2.1844266666666665, "grad_norm": 0.023975402036369636, "learning_rate": 0.0001, "loss": 0.9401, "step": 10958 }, { "epoch": 2.18448, "grad_norm": 0.024372392963707464, "learning_rate": 0.0001, "loss": 0.9959, "step": 10959 }, { "epoch": 2.1845333333333334, "grad_norm": 0.024537113553372535, "learning_rate": 0.0001, "loss": 0.9179, "step": 10960 }, { "epoch": 2.1845866666666667, "grad_norm": 0.022594765750029118, "learning_rate": 0.0001, "loss": 0.949, "step": 10961 }, { "epoch": 2.18464, "grad_norm": 0.025813049066033506, "learning_rate": 0.0001, "loss": 0.94, "step": 10962 }, { "epoch": 2.184693333333333, "grad_norm": 0.023571117586607862, "learning_rate": 0.0001, "loss": 0.9656, "step": 10963 }, { "epoch": 2.184746666666667, "grad_norm": 0.022384792072821263, "learning_rate": 0.0001, "loss": 0.9313, "step": 10964 }, { "epoch": 2.1848, "grad_norm": 0.022802847117568206, "learning_rate": 0.0001, "loss": 0.9891, "step": 10965 }, { "epoch": 2.1848533333333333, "grad_norm": 0.024226052260216912, "learning_rate": 0.0001, "loss": 0.9559, "step": 10966 }, { "epoch": 2.1849066666666666, "grad_norm": 0.025058043171030685, "learning_rate": 0.0001, "loss": 0.924, "step": 10967 }, { "epoch": 2.1849600000000002, "grad_norm": 0.02518214063160444, "learning_rate": 0.0001, "loss": 0.963, "step": 10968 }, { "epoch": 2.1850133333333335, "grad_norm": 0.023006923414547735, "learning_rate": 0.0001, "loss": 0.9985, "step": 10969 }, { "epoch": 2.1850666666666667, "grad_norm": 0.02437213880240971, "learning_rate": 0.0001, "loss": 0.977, "step": 10970 }, { "epoch": 2.18512, "grad_norm": 0.02615848934892346, "learning_rate": 0.0001, "loss": 1.0103, "step": 10971 }, { "epoch": 2.185173333333333, "grad_norm": 0.02418907728385686, "learning_rate": 0.0001, "loss": 1.0029, "step": 10972 }, { "epoch": 2.185226666666667, "grad_norm": 0.023112503028580922, "learning_rate": 0.0001, "loss": 0.9589, "step": 10973 }, { "epoch": 2.18528, "grad_norm": 0.02296878244185698, "learning_rate": 0.0001, "loss": 1.0162, "step": 10974 }, { "epoch": 2.1853333333333333, "grad_norm": 0.023102923380288812, "learning_rate": 0.0001, "loss": 0.9819, "step": 10975 }, { "epoch": 2.1853866666666666, "grad_norm": 0.025585769702908264, "learning_rate": 0.0001, "loss": 0.955, "step": 10976 }, { "epoch": 2.18544, "grad_norm": 0.024286282371494845, "learning_rate": 0.0001, "loss": 0.9511, "step": 10977 }, { "epoch": 2.1854933333333335, "grad_norm": 0.026248688013596873, "learning_rate": 0.0001, "loss": 0.9212, "step": 10978 }, { "epoch": 2.1855466666666667, "grad_norm": 0.03021993849613148, "learning_rate": 0.0001, "loss": 0.9931, "step": 10979 }, { "epoch": 2.1856, "grad_norm": 0.024310265940763964, "learning_rate": 0.0001, "loss": 0.9894, "step": 10980 }, { "epoch": 2.1856533333333332, "grad_norm": 0.02496436580098116, "learning_rate": 0.0001, "loss": 1.0076, "step": 10981 }, { "epoch": 2.1857066666666665, "grad_norm": 0.023219198108083483, "learning_rate": 0.0001, "loss": 0.9176, "step": 10982 }, { "epoch": 2.18576, "grad_norm": 0.02366761481357965, "learning_rate": 0.0001, "loss": 0.9855, "step": 10983 }, { "epoch": 2.1858133333333334, "grad_norm": 0.024380486293730706, "learning_rate": 0.0001, "loss": 0.9189, "step": 10984 }, { "epoch": 2.1858666666666666, "grad_norm": 0.02409962086276912, "learning_rate": 0.0001, "loss": 0.9703, "step": 10985 }, { "epoch": 2.18592, "grad_norm": 0.024891069862909492, "learning_rate": 0.0001, "loss": 0.9997, "step": 10986 }, { "epoch": 2.185973333333333, "grad_norm": 0.02620976032487956, "learning_rate": 0.0001, "loss": 0.939, "step": 10987 }, { "epoch": 2.186026666666667, "grad_norm": 0.025873176186481238, "learning_rate": 0.0001, "loss": 1.0125, "step": 10988 }, { "epoch": 2.18608, "grad_norm": 0.024667080313366074, "learning_rate": 0.0001, "loss": 0.9507, "step": 10989 }, { "epoch": 2.1861333333333333, "grad_norm": 0.022945091760462628, "learning_rate": 0.0001, "loss": 0.9555, "step": 10990 }, { "epoch": 2.1861866666666665, "grad_norm": 0.02357190237904671, "learning_rate": 0.0001, "loss": 0.987, "step": 10991 }, { "epoch": 2.18624, "grad_norm": 0.022853000854062264, "learning_rate": 0.0001, "loss": 0.9393, "step": 10992 }, { "epoch": 2.1862933333333334, "grad_norm": 0.02454717586206049, "learning_rate": 0.0001, "loss": 0.9742, "step": 10993 }, { "epoch": 2.1863466666666667, "grad_norm": 0.02229091611472342, "learning_rate": 0.0001, "loss": 0.9421, "step": 10994 }, { "epoch": 2.1864, "grad_norm": 0.02428641239491554, "learning_rate": 0.0001, "loss": 1.0511, "step": 10995 }, { "epoch": 2.186453333333333, "grad_norm": 0.02448617824979535, "learning_rate": 0.0001, "loss": 0.9185, "step": 10996 }, { "epoch": 2.186506666666667, "grad_norm": 0.023650425634715366, "learning_rate": 0.0001, "loss": 0.9592, "step": 10997 }, { "epoch": 2.18656, "grad_norm": 0.023911060855865803, "learning_rate": 0.0001, "loss": 0.9298, "step": 10998 }, { "epoch": 2.1866133333333333, "grad_norm": 0.022493634090229243, "learning_rate": 0.0001, "loss": 0.9965, "step": 10999 }, { "epoch": 2.1866666666666665, "grad_norm": 0.025687351780349806, "learning_rate": 0.0001, "loss": 0.9411, "step": 11000 }, { "epoch": 2.1866666666666665, "eval_accuracy": 0.6216488194967342, "eval_loss": 1.3462148904800415, "eval_runtime": 62.9894, "eval_samples_per_second": 15.876, "eval_steps_per_second": 0.508, "step": 11000 }, { "epoch": 2.18672, "grad_norm": 0.024032960150055255, "learning_rate": 0.0001, "loss": 0.8793, "step": 11001 }, { "epoch": 2.1867733333333335, "grad_norm": 0.026318164546802896, "learning_rate": 0.0001, "loss": 0.9507, "step": 11002 }, { "epoch": 2.1868266666666667, "grad_norm": 0.02231576423874507, "learning_rate": 0.0001, "loss": 1.0179, "step": 11003 }, { "epoch": 2.18688, "grad_norm": 0.023789131123652604, "learning_rate": 0.0001, "loss": 1.0424, "step": 11004 }, { "epoch": 2.186933333333333, "grad_norm": 0.02530385490435649, "learning_rate": 0.0001, "loss": 1.0097, "step": 11005 }, { "epoch": 2.186986666666667, "grad_norm": 0.024308347325786475, "learning_rate": 0.0001, "loss": 0.9641, "step": 11006 }, { "epoch": 2.18704, "grad_norm": 0.022469774254374304, "learning_rate": 0.0001, "loss": 0.8978, "step": 11007 }, { "epoch": 2.1870933333333333, "grad_norm": 0.02261494063009662, "learning_rate": 0.0001, "loss": 0.9264, "step": 11008 }, { "epoch": 2.1871466666666666, "grad_norm": 0.02441923382901018, "learning_rate": 0.0001, "loss": 0.9591, "step": 11009 }, { "epoch": 2.1872, "grad_norm": 0.025486598908015013, "learning_rate": 0.0001, "loss": 0.9083, "step": 11010 }, { "epoch": 2.1872533333333335, "grad_norm": 0.022975636186957395, "learning_rate": 0.0001, "loss": 0.9409, "step": 11011 }, { "epoch": 2.1873066666666667, "grad_norm": 0.022646585043953497, "learning_rate": 0.0001, "loss": 0.9276, "step": 11012 }, { "epoch": 2.18736, "grad_norm": 0.02289879897291538, "learning_rate": 0.0001, "loss": 0.9629, "step": 11013 }, { "epoch": 2.187413333333333, "grad_norm": 0.024970986646608483, "learning_rate": 0.0001, "loss": 0.9796, "step": 11014 }, { "epoch": 2.1874666666666664, "grad_norm": 0.024361116627106095, "learning_rate": 0.0001, "loss": 0.9547, "step": 11015 }, { "epoch": 2.18752, "grad_norm": 0.025338175568020264, "learning_rate": 0.0001, "loss": 1.0231, "step": 11016 }, { "epoch": 2.1875733333333334, "grad_norm": 0.023339906925181526, "learning_rate": 0.0001, "loss": 0.9509, "step": 11017 }, { "epoch": 2.1876266666666666, "grad_norm": 0.023319234668764365, "learning_rate": 0.0001, "loss": 0.9786, "step": 11018 }, { "epoch": 2.18768, "grad_norm": 0.02351902204885309, "learning_rate": 0.0001, "loss": 0.9007, "step": 11019 }, { "epoch": 2.1877333333333335, "grad_norm": 0.023587363775926483, "learning_rate": 0.0001, "loss": 0.9546, "step": 11020 }, { "epoch": 2.1877866666666668, "grad_norm": 0.023662390491778908, "learning_rate": 0.0001, "loss": 0.9704, "step": 11021 }, { "epoch": 2.18784, "grad_norm": 0.022313788352445085, "learning_rate": 0.0001, "loss": 0.9614, "step": 11022 }, { "epoch": 2.1878933333333332, "grad_norm": 0.023970435327774143, "learning_rate": 0.0001, "loss": 0.9742, "step": 11023 }, { "epoch": 2.1879466666666665, "grad_norm": 0.023440012462649495, "learning_rate": 0.0001, "loss": 0.9955, "step": 11024 }, { "epoch": 2.188, "grad_norm": 0.0242670507152745, "learning_rate": 0.0001, "loss": 0.9575, "step": 11025 }, { "epoch": 2.1880533333333334, "grad_norm": 0.022499591077298223, "learning_rate": 0.0001, "loss": 0.9897, "step": 11026 }, { "epoch": 2.1881066666666666, "grad_norm": 0.024144087467295527, "learning_rate": 0.0001, "loss": 0.9448, "step": 11027 }, { "epoch": 2.18816, "grad_norm": 0.023771510693752034, "learning_rate": 0.0001, "loss": 0.9645, "step": 11028 }, { "epoch": 2.1882133333333336, "grad_norm": 0.0224167676698852, "learning_rate": 0.0001, "loss": 0.9947, "step": 11029 }, { "epoch": 2.188266666666667, "grad_norm": 0.02316405547406939, "learning_rate": 0.0001, "loss": 0.9999, "step": 11030 }, { "epoch": 2.18832, "grad_norm": 0.024404633344739263, "learning_rate": 0.0001, "loss": 0.9527, "step": 11031 }, { "epoch": 2.1883733333333333, "grad_norm": 0.02527345024662974, "learning_rate": 0.0001, "loss": 0.9661, "step": 11032 }, { "epoch": 2.1884266666666665, "grad_norm": 0.022628971740799086, "learning_rate": 0.0001, "loss": 0.9671, "step": 11033 }, { "epoch": 2.18848, "grad_norm": 0.022955044881215112, "learning_rate": 0.0001, "loss": 0.9478, "step": 11034 }, { "epoch": 2.1885333333333334, "grad_norm": 0.022712618743014584, "learning_rate": 0.0001, "loss": 0.9656, "step": 11035 }, { "epoch": 2.1885866666666667, "grad_norm": 0.02276554631152148, "learning_rate": 0.0001, "loss": 0.9661, "step": 11036 }, { "epoch": 2.18864, "grad_norm": 0.024743194013959562, "learning_rate": 0.0001, "loss": 0.9196, "step": 11037 }, { "epoch": 2.188693333333333, "grad_norm": 0.021435761134870956, "learning_rate": 0.0001, "loss": 0.9717, "step": 11038 }, { "epoch": 2.188746666666667, "grad_norm": 0.026588135531209825, "learning_rate": 0.0001, "loss": 1.0199, "step": 11039 }, { "epoch": 2.1888, "grad_norm": 0.02564260947425272, "learning_rate": 0.0001, "loss": 0.9747, "step": 11040 }, { "epoch": 2.1888533333333333, "grad_norm": 0.024731202732235003, "learning_rate": 0.0001, "loss": 0.9708, "step": 11041 }, { "epoch": 2.1889066666666666, "grad_norm": 0.024264920050648356, "learning_rate": 0.0001, "loss": 0.9606, "step": 11042 }, { "epoch": 2.18896, "grad_norm": 0.024757966044636967, "learning_rate": 0.0001, "loss": 0.9746, "step": 11043 }, { "epoch": 2.1890133333333335, "grad_norm": 0.023245926330669527, "learning_rate": 0.0001, "loss": 1.0103, "step": 11044 }, { "epoch": 2.1890666666666667, "grad_norm": 0.024079986667201646, "learning_rate": 0.0001, "loss": 0.9733, "step": 11045 }, { "epoch": 2.18912, "grad_norm": 0.02348930370836062, "learning_rate": 0.0001, "loss": 0.9538, "step": 11046 }, { "epoch": 2.189173333333333, "grad_norm": 0.023967491523139154, "learning_rate": 0.0001, "loss": 0.9861, "step": 11047 }, { "epoch": 2.1892266666666664, "grad_norm": 0.025465958866572345, "learning_rate": 0.0001, "loss": 0.9833, "step": 11048 }, { "epoch": 2.18928, "grad_norm": 0.02266740213432823, "learning_rate": 0.0001, "loss": 0.9772, "step": 11049 }, { "epoch": 2.1893333333333334, "grad_norm": 0.022118877297309145, "learning_rate": 0.0001, "loss": 0.9852, "step": 11050 }, { "epoch": 2.1893866666666666, "grad_norm": 0.022825750580330574, "learning_rate": 0.0001, "loss": 0.9552, "step": 11051 }, { "epoch": 2.18944, "grad_norm": 0.023233802933113123, "learning_rate": 0.0001, "loss": 0.9924, "step": 11052 }, { "epoch": 2.1894933333333335, "grad_norm": 0.02415846364394578, "learning_rate": 0.0001, "loss": 0.9368, "step": 11053 }, { "epoch": 2.1895466666666668, "grad_norm": 0.021824004570171248, "learning_rate": 0.0001, "loss": 0.9577, "step": 11054 }, { "epoch": 2.1896, "grad_norm": 0.02407404434390423, "learning_rate": 0.0001, "loss": 0.9438, "step": 11055 }, { "epoch": 2.1896533333333332, "grad_norm": 0.023253859616997895, "learning_rate": 0.0001, "loss": 0.9723, "step": 11056 }, { "epoch": 2.1897066666666665, "grad_norm": 0.023208341839639265, "learning_rate": 0.0001, "loss": 1.013, "step": 11057 }, { "epoch": 2.18976, "grad_norm": 0.02401774880753716, "learning_rate": 0.0001, "loss": 0.968, "step": 11058 }, { "epoch": 2.1898133333333334, "grad_norm": 0.026725403677992105, "learning_rate": 0.0001, "loss": 0.9284, "step": 11059 }, { "epoch": 2.1898666666666666, "grad_norm": 0.02738328679752215, "learning_rate": 0.0001, "loss": 0.932, "step": 11060 }, { "epoch": 2.18992, "grad_norm": 0.023183589269812965, "learning_rate": 0.0001, "loss": 0.9348, "step": 11061 }, { "epoch": 2.1899733333333335, "grad_norm": 0.02392185408221179, "learning_rate": 0.0001, "loss": 0.9803, "step": 11062 }, { "epoch": 2.190026666666667, "grad_norm": 0.02352865350468075, "learning_rate": 0.0001, "loss": 0.9794, "step": 11063 }, { "epoch": 2.19008, "grad_norm": 0.0241407922810184, "learning_rate": 0.0001, "loss": 0.932, "step": 11064 }, { "epoch": 2.1901333333333333, "grad_norm": 0.02653630406606149, "learning_rate": 0.0001, "loss": 0.9428, "step": 11065 }, { "epoch": 2.1901866666666665, "grad_norm": 0.025229396915958692, "learning_rate": 0.0001, "loss": 0.9829, "step": 11066 }, { "epoch": 2.19024, "grad_norm": 0.0237466015657457, "learning_rate": 0.0001, "loss": 0.9777, "step": 11067 }, { "epoch": 2.1902933333333334, "grad_norm": 0.023592939662669548, "learning_rate": 0.0001, "loss": 0.9424, "step": 11068 }, { "epoch": 2.1903466666666667, "grad_norm": 0.023289742070400576, "learning_rate": 0.0001, "loss": 0.9977, "step": 11069 }, { "epoch": 2.1904, "grad_norm": 0.023338679243400322, "learning_rate": 0.0001, "loss": 0.9312, "step": 11070 }, { "epoch": 2.190453333333333, "grad_norm": 0.023609163503685363, "learning_rate": 0.0001, "loss": 0.9815, "step": 11071 }, { "epoch": 2.190506666666667, "grad_norm": 0.02355522008180941, "learning_rate": 0.0001, "loss": 0.9583, "step": 11072 }, { "epoch": 2.19056, "grad_norm": 0.025320938329445042, "learning_rate": 0.0001, "loss": 0.9583, "step": 11073 }, { "epoch": 2.1906133333333333, "grad_norm": 0.023001049526849025, "learning_rate": 0.0001, "loss": 0.9606, "step": 11074 }, { "epoch": 2.1906666666666665, "grad_norm": 0.025606200835532493, "learning_rate": 0.0001, "loss": 0.9899, "step": 11075 }, { "epoch": 2.19072, "grad_norm": 0.0242823886836441, "learning_rate": 0.0001, "loss": 0.9313, "step": 11076 }, { "epoch": 2.1907733333333335, "grad_norm": 0.025721809181610173, "learning_rate": 0.0001, "loss": 0.9322, "step": 11077 }, { "epoch": 2.1908266666666667, "grad_norm": 0.02418137394374964, "learning_rate": 0.0001, "loss": 0.913, "step": 11078 }, { "epoch": 2.19088, "grad_norm": 0.0240669909390504, "learning_rate": 0.0001, "loss": 0.9654, "step": 11079 }, { "epoch": 2.190933333333333, "grad_norm": 0.024075309691482496, "learning_rate": 0.0001, "loss": 0.9503, "step": 11080 }, { "epoch": 2.190986666666667, "grad_norm": 0.02286821353208466, "learning_rate": 0.0001, "loss": 0.9239, "step": 11081 }, { "epoch": 2.19104, "grad_norm": 0.02407266122134266, "learning_rate": 0.0001, "loss": 0.9444, "step": 11082 }, { "epoch": 2.1910933333333333, "grad_norm": 0.0289590739750532, "learning_rate": 0.0001, "loss": 0.9773, "step": 11083 }, { "epoch": 2.1911466666666666, "grad_norm": 0.022224233915267597, "learning_rate": 0.0001, "loss": 0.9884, "step": 11084 }, { "epoch": 2.1912, "grad_norm": 0.023274374902466748, "learning_rate": 0.0001, "loss": 0.981, "step": 11085 }, { "epoch": 2.1912533333333335, "grad_norm": 0.023869502218358974, "learning_rate": 0.0001, "loss": 0.9684, "step": 11086 }, { "epoch": 2.1913066666666667, "grad_norm": 0.022938979330364373, "learning_rate": 0.0001, "loss": 0.8935, "step": 11087 }, { "epoch": 2.19136, "grad_norm": 0.0224464507117579, "learning_rate": 0.0001, "loss": 1.0036, "step": 11088 }, { "epoch": 2.191413333333333, "grad_norm": 0.02316474917727474, "learning_rate": 0.0001, "loss": 0.96, "step": 11089 }, { "epoch": 2.191466666666667, "grad_norm": 0.023162344176122084, "learning_rate": 0.0001, "loss": 0.9735, "step": 11090 }, { "epoch": 2.19152, "grad_norm": 0.026300099739616573, "learning_rate": 0.0001, "loss": 0.8918, "step": 11091 }, { "epoch": 2.1915733333333334, "grad_norm": 0.02356154000534962, "learning_rate": 0.0001, "loss": 1.0159, "step": 11092 }, { "epoch": 2.1916266666666666, "grad_norm": 0.025780946843287536, "learning_rate": 0.0001, "loss": 0.9442, "step": 11093 }, { "epoch": 2.19168, "grad_norm": 0.02346485932868439, "learning_rate": 0.0001, "loss": 0.9937, "step": 11094 }, { "epoch": 2.1917333333333335, "grad_norm": 0.023241325551345317, "learning_rate": 0.0001, "loss": 0.9835, "step": 11095 }, { "epoch": 2.1917866666666668, "grad_norm": 0.02351488789538145, "learning_rate": 0.0001, "loss": 0.9794, "step": 11096 }, { "epoch": 2.19184, "grad_norm": 0.025528637609043947, "learning_rate": 0.0001, "loss": 0.963, "step": 11097 }, { "epoch": 2.1918933333333332, "grad_norm": 0.021973125594060373, "learning_rate": 0.0001, "loss": 0.9262, "step": 11098 }, { "epoch": 2.1919466666666665, "grad_norm": 0.02295430480348483, "learning_rate": 0.0001, "loss": 0.9591, "step": 11099 }, { "epoch": 2.192, "grad_norm": 0.024214453056102783, "learning_rate": 0.0001, "loss": 0.9611, "step": 11100 }, { "epoch": 2.1920533333333334, "grad_norm": 0.0236893855242438, "learning_rate": 0.0001, "loss": 0.8992, "step": 11101 }, { "epoch": 2.1921066666666666, "grad_norm": 0.023983898838387557, "learning_rate": 0.0001, "loss": 0.9754, "step": 11102 }, { "epoch": 2.19216, "grad_norm": 0.024441871083413665, "learning_rate": 0.0001, "loss": 0.9737, "step": 11103 }, { "epoch": 2.192213333333333, "grad_norm": 0.022675039501667268, "learning_rate": 0.0001, "loss": 1.0033, "step": 11104 }, { "epoch": 2.192266666666667, "grad_norm": 0.023580465769148077, "learning_rate": 0.0001, "loss": 0.962, "step": 11105 }, { "epoch": 2.19232, "grad_norm": 0.02378622766705038, "learning_rate": 0.0001, "loss": 0.9555, "step": 11106 }, { "epoch": 2.1923733333333333, "grad_norm": 0.023767237901681136, "learning_rate": 0.0001, "loss": 0.9575, "step": 11107 }, { "epoch": 2.1924266666666665, "grad_norm": 0.02339573748493221, "learning_rate": 0.0001, "loss": 0.9942, "step": 11108 }, { "epoch": 2.19248, "grad_norm": 0.027259725836312504, "learning_rate": 0.0001, "loss": 0.9214, "step": 11109 }, { "epoch": 2.1925333333333334, "grad_norm": 0.022574794481019733, "learning_rate": 0.0001, "loss": 0.9723, "step": 11110 }, { "epoch": 2.1925866666666667, "grad_norm": 0.023141162224594745, "learning_rate": 0.0001, "loss": 1.0198, "step": 11111 }, { "epoch": 2.19264, "grad_norm": 0.02447768914434938, "learning_rate": 0.0001, "loss": 0.946, "step": 11112 }, { "epoch": 2.192693333333333, "grad_norm": 0.02519304973065764, "learning_rate": 0.0001, "loss": 0.9441, "step": 11113 }, { "epoch": 2.192746666666667, "grad_norm": 0.023960321144853355, "learning_rate": 0.0001, "loss": 0.9746, "step": 11114 }, { "epoch": 2.1928, "grad_norm": 0.02574161123143111, "learning_rate": 0.0001, "loss": 0.9593, "step": 11115 }, { "epoch": 2.1928533333333333, "grad_norm": 0.023581177620397, "learning_rate": 0.0001, "loss": 0.9337, "step": 11116 }, { "epoch": 2.1929066666666666, "grad_norm": 0.025180680830443065, "learning_rate": 0.0001, "loss": 0.9759, "step": 11117 }, { "epoch": 2.19296, "grad_norm": 0.02309661955979911, "learning_rate": 0.0001, "loss": 0.9471, "step": 11118 }, { "epoch": 2.1930133333333335, "grad_norm": 0.02409947984975993, "learning_rate": 0.0001, "loss": 0.9303, "step": 11119 }, { "epoch": 2.1930666666666667, "grad_norm": 0.024797460045265316, "learning_rate": 0.0001, "loss": 1.0327, "step": 11120 }, { "epoch": 2.19312, "grad_norm": 0.022858342976699524, "learning_rate": 0.0001, "loss": 0.9581, "step": 11121 }, { "epoch": 2.193173333333333, "grad_norm": 0.024926957178090695, "learning_rate": 0.0001, "loss": 0.989, "step": 11122 }, { "epoch": 2.193226666666667, "grad_norm": 0.024408574075956913, "learning_rate": 0.0001, "loss": 0.9643, "step": 11123 }, { "epoch": 2.19328, "grad_norm": 0.02345881793081776, "learning_rate": 0.0001, "loss": 0.9516, "step": 11124 }, { "epoch": 2.1933333333333334, "grad_norm": 0.02411152934847166, "learning_rate": 0.0001, "loss": 0.9253, "step": 11125 }, { "epoch": 2.1933866666666666, "grad_norm": 0.024477929718456807, "learning_rate": 0.0001, "loss": 0.9398, "step": 11126 }, { "epoch": 2.19344, "grad_norm": 0.023698956695848164, "learning_rate": 0.0001, "loss": 0.9193, "step": 11127 }, { "epoch": 2.1934933333333335, "grad_norm": 0.02320244709981202, "learning_rate": 0.0001, "loss": 0.9766, "step": 11128 }, { "epoch": 2.1935466666666668, "grad_norm": 0.023681974165021238, "learning_rate": 0.0001, "loss": 1.0026, "step": 11129 }, { "epoch": 2.1936, "grad_norm": 0.023427984709035732, "learning_rate": 0.0001, "loss": 0.9538, "step": 11130 }, { "epoch": 2.1936533333333332, "grad_norm": 0.023551661174022142, "learning_rate": 0.0001, "loss": 0.986, "step": 11131 }, { "epoch": 2.1937066666666665, "grad_norm": 0.02256768951407686, "learning_rate": 0.0001, "loss": 0.9929, "step": 11132 }, { "epoch": 2.19376, "grad_norm": 0.023875971960069874, "learning_rate": 0.0001, "loss": 0.9411, "step": 11133 }, { "epoch": 2.1938133333333334, "grad_norm": 0.023257193390835023, "learning_rate": 0.0001, "loss": 1.0163, "step": 11134 }, { "epoch": 2.1938666666666666, "grad_norm": 0.024448962779029564, "learning_rate": 0.0001, "loss": 0.9225, "step": 11135 }, { "epoch": 2.19392, "grad_norm": 0.02388177560075042, "learning_rate": 0.0001, "loss": 0.953, "step": 11136 }, { "epoch": 2.193973333333333, "grad_norm": 0.02513560655561325, "learning_rate": 0.0001, "loss": 0.9879, "step": 11137 }, { "epoch": 2.194026666666667, "grad_norm": 0.024059242283930696, "learning_rate": 0.0001, "loss": 0.9826, "step": 11138 }, { "epoch": 2.19408, "grad_norm": 0.02607391319966176, "learning_rate": 0.0001, "loss": 0.9641, "step": 11139 }, { "epoch": 2.1941333333333333, "grad_norm": 0.024737766515770022, "learning_rate": 0.0001, "loss": 0.9739, "step": 11140 }, { "epoch": 2.1941866666666665, "grad_norm": 0.021498686258107486, "learning_rate": 0.0001, "loss": 0.8763, "step": 11141 }, { "epoch": 2.19424, "grad_norm": 0.02409728955849162, "learning_rate": 0.0001, "loss": 0.9687, "step": 11142 }, { "epoch": 2.1942933333333334, "grad_norm": 0.023864012042927058, "learning_rate": 0.0001, "loss": 0.9196, "step": 11143 }, { "epoch": 2.1943466666666667, "grad_norm": 0.023596301798080546, "learning_rate": 0.0001, "loss": 0.9616, "step": 11144 }, { "epoch": 2.1944, "grad_norm": 0.02360304985901091, "learning_rate": 0.0001, "loss": 0.9148, "step": 11145 }, { "epoch": 2.194453333333333, "grad_norm": 0.026950909658377542, "learning_rate": 0.0001, "loss": 0.9809, "step": 11146 }, { "epoch": 2.194506666666667, "grad_norm": 0.024894426944122673, "learning_rate": 0.0001, "loss": 0.9953, "step": 11147 }, { "epoch": 2.19456, "grad_norm": 0.0232559019408566, "learning_rate": 0.0001, "loss": 0.9184, "step": 11148 }, { "epoch": 2.1946133333333333, "grad_norm": 0.02335631253469512, "learning_rate": 0.0001, "loss": 0.9564, "step": 11149 }, { "epoch": 2.1946666666666665, "grad_norm": 0.02353379999980739, "learning_rate": 0.0001, "loss": 1.0034, "step": 11150 }, { "epoch": 2.1947200000000002, "grad_norm": 0.024253590391507807, "learning_rate": 0.0001, "loss": 0.8811, "step": 11151 }, { "epoch": 2.1947733333333335, "grad_norm": 0.023968792885852994, "learning_rate": 0.0001, "loss": 0.9329, "step": 11152 }, { "epoch": 2.1948266666666667, "grad_norm": 0.022982783385693505, "learning_rate": 0.0001, "loss": 0.9164, "step": 11153 }, { "epoch": 2.19488, "grad_norm": 0.024262164170627553, "learning_rate": 0.0001, "loss": 0.9596, "step": 11154 }, { "epoch": 2.194933333333333, "grad_norm": 0.02612799800877075, "learning_rate": 0.0001, "loss": 0.9767, "step": 11155 }, { "epoch": 2.194986666666667, "grad_norm": 0.023781535041594668, "learning_rate": 0.0001, "loss": 1.0045, "step": 11156 }, { "epoch": 2.19504, "grad_norm": 0.02425978873122324, "learning_rate": 0.0001, "loss": 0.9477, "step": 11157 }, { "epoch": 2.1950933333333333, "grad_norm": 0.023806408271395386, "learning_rate": 0.0001, "loss": 0.9416, "step": 11158 }, { "epoch": 2.1951466666666666, "grad_norm": 0.024052890672469376, "learning_rate": 0.0001, "loss": 0.922, "step": 11159 }, { "epoch": 2.1952, "grad_norm": 0.023642690598369962, "learning_rate": 0.0001, "loss": 0.983, "step": 11160 }, { "epoch": 2.1952533333333335, "grad_norm": 0.024373029676675515, "learning_rate": 0.0001, "loss": 0.9696, "step": 11161 }, { "epoch": 2.1953066666666667, "grad_norm": 0.025721411501301264, "learning_rate": 0.0001, "loss": 1.0047, "step": 11162 }, { "epoch": 2.19536, "grad_norm": 0.022990191761081833, "learning_rate": 0.0001, "loss": 0.946, "step": 11163 }, { "epoch": 2.195413333333333, "grad_norm": 0.022571295193578998, "learning_rate": 0.0001, "loss": 0.9651, "step": 11164 }, { "epoch": 2.1954666666666665, "grad_norm": 0.023364225127237046, "learning_rate": 0.0001, "loss": 1.0206, "step": 11165 }, { "epoch": 2.19552, "grad_norm": 0.02421765310012738, "learning_rate": 0.0001, "loss": 0.9508, "step": 11166 }, { "epoch": 2.1955733333333334, "grad_norm": 0.021964903903494374, "learning_rate": 0.0001, "loss": 0.9916, "step": 11167 }, { "epoch": 2.1956266666666666, "grad_norm": 0.02850944753927592, "learning_rate": 0.0001, "loss": 0.947, "step": 11168 }, { "epoch": 2.19568, "grad_norm": 0.024397732290489787, "learning_rate": 0.0001, "loss": 0.9167, "step": 11169 }, { "epoch": 2.1957333333333335, "grad_norm": 0.02398815063028147, "learning_rate": 0.0001, "loss": 0.9341, "step": 11170 }, { "epoch": 2.1957866666666668, "grad_norm": 0.022568175609463545, "learning_rate": 0.0001, "loss": 0.9681, "step": 11171 }, { "epoch": 2.19584, "grad_norm": 0.02304569710192053, "learning_rate": 0.0001, "loss": 0.9719, "step": 11172 }, { "epoch": 2.1958933333333333, "grad_norm": 0.02465616056075426, "learning_rate": 0.0001, "loss": 0.9125, "step": 11173 }, { "epoch": 2.1959466666666665, "grad_norm": 0.024361036062875766, "learning_rate": 0.0001, "loss": 0.9541, "step": 11174 }, { "epoch": 2.196, "grad_norm": 0.024641805841184417, "learning_rate": 0.0001, "loss": 0.9824, "step": 11175 }, { "epoch": 2.1960533333333334, "grad_norm": 0.022236007055135502, "learning_rate": 0.0001, "loss": 0.9062, "step": 11176 }, { "epoch": 2.1961066666666667, "grad_norm": 0.02444522994766454, "learning_rate": 0.0001, "loss": 0.9151, "step": 11177 }, { "epoch": 2.19616, "grad_norm": 0.02765127125686243, "learning_rate": 0.0001, "loss": 0.9398, "step": 11178 }, { "epoch": 2.196213333333333, "grad_norm": 0.023971379874670067, "learning_rate": 0.0001, "loss": 0.9202, "step": 11179 }, { "epoch": 2.196266666666667, "grad_norm": 0.025392589812740115, "learning_rate": 0.0001, "loss": 0.9831, "step": 11180 }, { "epoch": 2.19632, "grad_norm": 0.02362433887375327, "learning_rate": 0.0001, "loss": 1.0094, "step": 11181 }, { "epoch": 2.1963733333333333, "grad_norm": 0.024060392920780754, "learning_rate": 0.0001, "loss": 1.0151, "step": 11182 }, { "epoch": 2.1964266666666665, "grad_norm": 0.02475056369322786, "learning_rate": 0.0001, "loss": 0.9732, "step": 11183 }, { "epoch": 2.19648, "grad_norm": 0.026527492586060523, "learning_rate": 0.0001, "loss": 0.9819, "step": 11184 }, { "epoch": 2.1965333333333334, "grad_norm": 0.023717757274778827, "learning_rate": 0.0001, "loss": 0.9635, "step": 11185 }, { "epoch": 2.1965866666666667, "grad_norm": 0.024080628450341736, "learning_rate": 0.0001, "loss": 0.9902, "step": 11186 }, { "epoch": 2.19664, "grad_norm": 0.02243814068845618, "learning_rate": 0.0001, "loss": 0.9283, "step": 11187 }, { "epoch": 2.196693333333333, "grad_norm": 0.023869374821227026, "learning_rate": 0.0001, "loss": 0.9907, "step": 11188 }, { "epoch": 2.196746666666667, "grad_norm": 0.024397598089174428, "learning_rate": 0.0001, "loss": 0.9432, "step": 11189 }, { "epoch": 2.1968, "grad_norm": 0.022980182246342493, "learning_rate": 0.0001, "loss": 0.9438, "step": 11190 }, { "epoch": 2.1968533333333333, "grad_norm": 0.023056297456770663, "learning_rate": 0.0001, "loss": 0.941, "step": 11191 }, { "epoch": 2.1969066666666666, "grad_norm": 0.023559858334649998, "learning_rate": 0.0001, "loss": 0.9335, "step": 11192 }, { "epoch": 2.19696, "grad_norm": 0.023300962381326167, "learning_rate": 0.0001, "loss": 0.971, "step": 11193 }, { "epoch": 2.1970133333333335, "grad_norm": 0.022276248610205388, "learning_rate": 0.0001, "loss": 0.9493, "step": 11194 }, { "epoch": 2.1970666666666667, "grad_norm": 0.024292071161497217, "learning_rate": 0.0001, "loss": 0.9575, "step": 11195 }, { "epoch": 2.19712, "grad_norm": 0.023317354041719692, "learning_rate": 0.0001, "loss": 0.9425, "step": 11196 }, { "epoch": 2.197173333333333, "grad_norm": 0.025748794611718827, "learning_rate": 0.0001, "loss": 0.9359, "step": 11197 }, { "epoch": 2.1972266666666664, "grad_norm": 0.023337138595356098, "learning_rate": 0.0001, "loss": 0.9127, "step": 11198 }, { "epoch": 2.19728, "grad_norm": 0.024352133111401355, "learning_rate": 0.0001, "loss": 0.9438, "step": 11199 }, { "epoch": 2.1973333333333334, "grad_norm": 0.023776353081160828, "learning_rate": 0.0001, "loss": 0.9633, "step": 11200 }, { "epoch": 2.1973333333333334, "eval_accuracy": 0.621704984392018, "eval_loss": 1.345715045928955, "eval_runtime": 62.5756, "eval_samples_per_second": 15.981, "eval_steps_per_second": 0.511, "step": 11200 }, { "epoch": 2.1973866666666666, "grad_norm": 0.021923708216095506, "learning_rate": 0.0001, "loss": 0.925, "step": 11201 }, { "epoch": 2.19744, "grad_norm": 0.023341953210108363, "learning_rate": 0.0001, "loss": 0.9995, "step": 11202 }, { "epoch": 2.1974933333333335, "grad_norm": 0.02542076759798981, "learning_rate": 0.0001, "loss": 0.9653, "step": 11203 }, { "epoch": 2.1975466666666668, "grad_norm": 0.02324886269525973, "learning_rate": 0.0001, "loss": 1.017, "step": 11204 }, { "epoch": 2.1976, "grad_norm": 0.023354495158374212, "learning_rate": 0.0001, "loss": 0.9544, "step": 11205 }, { "epoch": 2.1976533333333332, "grad_norm": 0.02230121738291699, "learning_rate": 0.0001, "loss": 0.9488, "step": 11206 }, { "epoch": 2.1977066666666665, "grad_norm": 0.02666544874491553, "learning_rate": 0.0001, "loss": 1.0178, "step": 11207 }, { "epoch": 2.19776, "grad_norm": 0.022571558270438604, "learning_rate": 0.0001, "loss": 0.9613, "step": 11208 }, { "epoch": 2.1978133333333334, "grad_norm": 0.024898651915610283, "learning_rate": 0.0001, "loss": 0.9363, "step": 11209 }, { "epoch": 2.1978666666666666, "grad_norm": 0.024416680843042462, "learning_rate": 0.0001, "loss": 0.9887, "step": 11210 }, { "epoch": 2.19792, "grad_norm": 0.022621831464143816, "learning_rate": 0.0001, "loss": 0.9183, "step": 11211 }, { "epoch": 2.1979733333333336, "grad_norm": 0.023276002977861966, "learning_rate": 0.0001, "loss": 0.9843, "step": 11212 }, { "epoch": 2.198026666666667, "grad_norm": 0.02660451141012402, "learning_rate": 0.0001, "loss": 1.0201, "step": 11213 }, { "epoch": 2.19808, "grad_norm": 0.023490988289626764, "learning_rate": 0.0001, "loss": 0.9401, "step": 11214 }, { "epoch": 2.1981333333333333, "grad_norm": 0.025016315816275128, "learning_rate": 0.0001, "loss": 0.9827, "step": 11215 }, { "epoch": 2.1981866666666665, "grad_norm": 0.026017466042514634, "learning_rate": 0.0001, "loss": 0.9972, "step": 11216 }, { "epoch": 2.19824, "grad_norm": 0.024595887185780815, "learning_rate": 0.0001, "loss": 0.946, "step": 11217 }, { "epoch": 2.1982933333333334, "grad_norm": 0.0238160357543662, "learning_rate": 0.0001, "loss": 0.9783, "step": 11218 }, { "epoch": 2.1983466666666667, "grad_norm": 0.02441421069967338, "learning_rate": 0.0001, "loss": 0.9313, "step": 11219 }, { "epoch": 2.1984, "grad_norm": 0.02251204578686231, "learning_rate": 0.0001, "loss": 0.9806, "step": 11220 }, { "epoch": 2.198453333333333, "grad_norm": 0.022163755855861462, "learning_rate": 0.0001, "loss": 0.9791, "step": 11221 }, { "epoch": 2.198506666666667, "grad_norm": 0.02233375561633939, "learning_rate": 0.0001, "loss": 1.0327, "step": 11222 }, { "epoch": 2.19856, "grad_norm": 0.026221089842876927, "learning_rate": 0.0001, "loss": 1.0005, "step": 11223 }, { "epoch": 2.1986133333333333, "grad_norm": 0.0230766986887607, "learning_rate": 0.0001, "loss": 0.9641, "step": 11224 }, { "epoch": 2.1986666666666665, "grad_norm": 0.023269869580742685, "learning_rate": 0.0001, "loss": 0.9208, "step": 11225 }, { "epoch": 2.19872, "grad_norm": 0.02165695021147276, "learning_rate": 0.0001, "loss": 0.9347, "step": 11226 }, { "epoch": 2.1987733333333335, "grad_norm": 0.023562683281193313, "learning_rate": 0.0001, "loss": 0.9788, "step": 11227 }, { "epoch": 2.1988266666666667, "grad_norm": 0.02360099860786699, "learning_rate": 0.0001, "loss": 0.9248, "step": 11228 }, { "epoch": 2.19888, "grad_norm": 0.024113960324398834, "learning_rate": 0.0001, "loss": 0.9845, "step": 11229 }, { "epoch": 2.198933333333333, "grad_norm": 0.022663626163292983, "learning_rate": 0.0001, "loss": 0.9437, "step": 11230 }, { "epoch": 2.198986666666667, "grad_norm": 0.023184402056469825, "learning_rate": 0.0001, "loss": 0.939, "step": 11231 }, { "epoch": 2.19904, "grad_norm": 0.026158886794999146, "learning_rate": 0.0001, "loss": 0.9732, "step": 11232 }, { "epoch": 2.1990933333333333, "grad_norm": 0.0236553603899042, "learning_rate": 0.0001, "loss": 1.0099, "step": 11233 }, { "epoch": 2.1991466666666666, "grad_norm": 0.024696075743965266, "learning_rate": 0.0001, "loss": 0.9769, "step": 11234 }, { "epoch": 2.1992, "grad_norm": 0.02270959629392814, "learning_rate": 0.0001, "loss": 0.9576, "step": 11235 }, { "epoch": 2.1992533333333335, "grad_norm": 0.021775789034094026, "learning_rate": 0.0001, "loss": 0.9584, "step": 11236 }, { "epoch": 2.1993066666666667, "grad_norm": 0.024754396416462515, "learning_rate": 0.0001, "loss": 0.9307, "step": 11237 }, { "epoch": 2.19936, "grad_norm": 0.025010610648297557, "learning_rate": 0.0001, "loss": 0.963, "step": 11238 }, { "epoch": 2.199413333333333, "grad_norm": 0.022650559284206777, "learning_rate": 0.0001, "loss": 1.0093, "step": 11239 }, { "epoch": 2.1994666666666665, "grad_norm": 0.02385767710093119, "learning_rate": 0.0001, "loss": 1.0184, "step": 11240 }, { "epoch": 2.19952, "grad_norm": 0.023548082068518945, "learning_rate": 0.0001, "loss": 0.9995, "step": 11241 }, { "epoch": 2.1995733333333334, "grad_norm": 0.024790998348850384, "learning_rate": 0.0001, "loss": 0.9351, "step": 11242 }, { "epoch": 2.1996266666666666, "grad_norm": 0.02336537281362153, "learning_rate": 0.0001, "loss": 0.9642, "step": 11243 }, { "epoch": 2.19968, "grad_norm": 0.024837719910767834, "learning_rate": 0.0001, "loss": 0.9891, "step": 11244 }, { "epoch": 2.1997333333333335, "grad_norm": 0.025830355275916147, "learning_rate": 0.0001, "loss": 0.9911, "step": 11245 }, { "epoch": 2.199786666666667, "grad_norm": 0.022918979650322753, "learning_rate": 0.0001, "loss": 0.9313, "step": 11246 }, { "epoch": 2.19984, "grad_norm": 0.025231802540361514, "learning_rate": 0.0001, "loss": 0.9818, "step": 11247 }, { "epoch": 2.1998933333333333, "grad_norm": 0.02482246781950298, "learning_rate": 0.0001, "loss": 0.967, "step": 11248 }, { "epoch": 2.1999466666666665, "grad_norm": 0.02326349374446715, "learning_rate": 0.0001, "loss": 0.9284, "step": 11249 }, { "epoch": 2.2, "grad_norm": 0.02580893649619102, "learning_rate": 0.0001, "loss": 1.004, "step": 11250 }, { "epoch": 3.0000533333333332, "grad_norm": 0.024638028858310623, "learning_rate": 0.0001, "loss": 0.9255, "step": 11251 }, { "epoch": 3.0001066666666665, "grad_norm": 0.02322219747361999, "learning_rate": 0.0001, "loss": 0.9806, "step": 11252 }, { "epoch": 3.00016, "grad_norm": 0.02308720765734533, "learning_rate": 0.0001, "loss": 1.0113, "step": 11253 }, { "epoch": 3.0002133333333334, "grad_norm": 0.02368758316852945, "learning_rate": 0.0001, "loss": 0.9515, "step": 11254 }, { "epoch": 3.0002666666666666, "grad_norm": 0.025145241282198992, "learning_rate": 0.0001, "loss": 0.9323, "step": 11255 }, { "epoch": 3.00032, "grad_norm": 0.02246790036506784, "learning_rate": 0.0001, "loss": 0.9744, "step": 11256 }, { "epoch": 3.000373333333333, "grad_norm": 0.031435660964601056, "learning_rate": 0.0001, "loss": 1.0003, "step": 11257 }, { "epoch": 3.000426666666667, "grad_norm": 0.024103323619571338, "learning_rate": 0.0001, "loss": 0.9371, "step": 11258 }, { "epoch": 3.00048, "grad_norm": 0.02209339284706833, "learning_rate": 0.0001, "loss": 0.9217, "step": 11259 }, { "epoch": 3.0005333333333333, "grad_norm": 0.02292264954388281, "learning_rate": 0.0001, "loss": 0.9814, "step": 11260 }, { "epoch": 3.0005866666666665, "grad_norm": 0.023472272189852726, "learning_rate": 0.0001, "loss": 0.9624, "step": 11261 }, { "epoch": 3.00064, "grad_norm": 0.02585371480185917, "learning_rate": 0.0001, "loss": 0.9098, "step": 11262 }, { "epoch": 3.0006933333333334, "grad_norm": 0.02666848043366243, "learning_rate": 0.0001, "loss": 0.9317, "step": 11263 }, { "epoch": 3.0007466666666667, "grad_norm": 0.023178633363146343, "learning_rate": 0.0001, "loss": 0.9859, "step": 11264 }, { "epoch": 3.0008, "grad_norm": 0.022913269814078038, "learning_rate": 0.0001, "loss": 0.9412, "step": 11265 }, { "epoch": 3.000853333333333, "grad_norm": 0.023998898652024373, "learning_rate": 0.0001, "loss": 0.9771, "step": 11266 }, { "epoch": 3.000906666666667, "grad_norm": 0.024400214003216285, "learning_rate": 0.0001, "loss": 0.9357, "step": 11267 }, { "epoch": 3.00096, "grad_norm": 0.02281324557062815, "learning_rate": 0.0001, "loss": 0.9659, "step": 11268 }, { "epoch": 3.0010133333333333, "grad_norm": 0.021453957621335663, "learning_rate": 0.0001, "loss": 0.9652, "step": 11269 }, { "epoch": 3.0010666666666665, "grad_norm": 0.023699044100414637, "learning_rate": 0.0001, "loss": 0.9389, "step": 11270 }, { "epoch": 3.00112, "grad_norm": 0.02403758915911985, "learning_rate": 0.0001, "loss": 0.958, "step": 11271 }, { "epoch": 3.0011733333333335, "grad_norm": 0.02386362087473317, "learning_rate": 0.0001, "loss": 0.9332, "step": 11272 }, { "epoch": 3.0012266666666667, "grad_norm": 0.024417057812420914, "learning_rate": 0.0001, "loss": 0.9927, "step": 11273 }, { "epoch": 3.00128, "grad_norm": 0.022384391433211057, "learning_rate": 0.0001, "loss": 0.9839, "step": 11274 }, { "epoch": 3.001333333333333, "grad_norm": 0.024621541406517265, "learning_rate": 0.0001, "loss": 0.9753, "step": 11275 }, { "epoch": 3.001386666666667, "grad_norm": 0.022350868334982288, "learning_rate": 0.0001, "loss": 0.9909, "step": 11276 }, { "epoch": 3.00144, "grad_norm": 0.024400391393469105, "learning_rate": 0.0001, "loss": 0.9101, "step": 11277 }, { "epoch": 3.0014933333333333, "grad_norm": 0.02491877349655114, "learning_rate": 0.0001, "loss": 0.9591, "step": 11278 }, { "epoch": 3.0015466666666666, "grad_norm": 0.022957712105712944, "learning_rate": 0.0001, "loss": 0.9563, "step": 11279 }, { "epoch": 3.0016, "grad_norm": 0.023898069162539153, "learning_rate": 0.0001, "loss": 0.9152, "step": 11280 }, { "epoch": 3.0016533333333335, "grad_norm": 0.02451177205516322, "learning_rate": 0.0001, "loss": 0.989, "step": 11281 }, { "epoch": 3.0017066666666667, "grad_norm": 0.022253242576507317, "learning_rate": 0.0001, "loss": 0.9313, "step": 11282 }, { "epoch": 3.00176, "grad_norm": 0.027218036651738834, "learning_rate": 0.0001, "loss": 0.913, "step": 11283 }, { "epoch": 3.0018133333333332, "grad_norm": 0.02871784180339178, "learning_rate": 0.0001, "loss": 1.0179, "step": 11284 }, { "epoch": 3.0018666666666665, "grad_norm": 0.023168546206739152, "learning_rate": 0.0001, "loss": 0.9179, "step": 11285 }, { "epoch": 3.00192, "grad_norm": 0.023280783013189355, "learning_rate": 0.0001, "loss": 0.9471, "step": 11286 }, { "epoch": 3.0019733333333334, "grad_norm": 0.024291542939194423, "learning_rate": 0.0001, "loss": 0.9402, "step": 11287 }, { "epoch": 3.0020266666666666, "grad_norm": 0.023263775571025803, "learning_rate": 0.0001, "loss": 0.9544, "step": 11288 }, { "epoch": 3.00208, "grad_norm": 0.023935904289720186, "learning_rate": 0.0001, "loss": 0.9558, "step": 11289 }, { "epoch": 3.0021333333333335, "grad_norm": 0.02271967230980459, "learning_rate": 0.0001, "loss": 0.894, "step": 11290 }, { "epoch": 3.002186666666667, "grad_norm": 0.022838320521030006, "learning_rate": 0.0001, "loss": 1.0388, "step": 11291 }, { "epoch": 3.00224, "grad_norm": 0.023620458235127068, "learning_rate": 0.0001, "loss": 0.9423, "step": 11292 }, { "epoch": 3.0022933333333333, "grad_norm": 0.02335609312606439, "learning_rate": 0.0001, "loss": 0.9356, "step": 11293 }, { "epoch": 3.0023466666666665, "grad_norm": 0.025869901163666078, "learning_rate": 0.0001, "loss": 0.9441, "step": 11294 }, { "epoch": 3.0024, "grad_norm": 0.025153848853555386, "learning_rate": 0.0001, "loss": 0.9266, "step": 11295 }, { "epoch": 3.0024533333333334, "grad_norm": 0.022762416631738985, "learning_rate": 0.0001, "loss": 0.9201, "step": 11296 }, { "epoch": 3.0025066666666667, "grad_norm": 0.022365262231408996, "learning_rate": 0.0001, "loss": 0.9705, "step": 11297 }, { "epoch": 3.00256, "grad_norm": 0.024204740951011727, "learning_rate": 0.0001, "loss": 1.0404, "step": 11298 }, { "epoch": 3.002613333333333, "grad_norm": 0.0243495720164469, "learning_rate": 0.0001, "loss": 0.9625, "step": 11299 }, { "epoch": 3.002666666666667, "grad_norm": 0.024443326770734745, "learning_rate": 0.0001, "loss": 0.8977, "step": 11300 }, { "epoch": 3.00272, "grad_norm": 0.025010607371833284, "learning_rate": 0.0001, "loss": 0.9422, "step": 11301 }, { "epoch": 3.0027733333333333, "grad_norm": 0.026894286782539762, "learning_rate": 0.0001, "loss": 0.9724, "step": 11302 }, { "epoch": 3.0028266666666665, "grad_norm": 0.025524251316306625, "learning_rate": 0.0001, "loss": 0.9778, "step": 11303 }, { "epoch": 3.00288, "grad_norm": 0.023903595429293344, "learning_rate": 0.0001, "loss": 0.946, "step": 11304 }, { "epoch": 3.0029333333333335, "grad_norm": 0.023974071241703764, "learning_rate": 0.0001, "loss": 0.872, "step": 11305 }, { "epoch": 3.0029866666666667, "grad_norm": 0.02401256940257488, "learning_rate": 0.0001, "loss": 0.9438, "step": 11306 }, { "epoch": 3.00304, "grad_norm": 0.0252183813803082, "learning_rate": 0.0001, "loss": 0.9458, "step": 11307 }, { "epoch": 3.003093333333333, "grad_norm": 0.026440354213334433, "learning_rate": 0.0001, "loss": 0.9363, "step": 11308 }, { "epoch": 3.003146666666667, "grad_norm": 0.02549458741891667, "learning_rate": 0.0001, "loss": 0.9722, "step": 11309 }, { "epoch": 3.0032, "grad_norm": 0.027055203248278575, "learning_rate": 0.0001, "loss": 0.9338, "step": 11310 }, { "epoch": 3.0032533333333333, "grad_norm": 0.024409792944135388, "learning_rate": 0.0001, "loss": 0.9675, "step": 11311 }, { "epoch": 3.0033066666666666, "grad_norm": 0.023448696621903384, "learning_rate": 0.0001, "loss": 0.9521, "step": 11312 }, { "epoch": 3.00336, "grad_norm": 0.028447597232335857, "learning_rate": 0.0001, "loss": 0.9259, "step": 11313 }, { "epoch": 3.0034133333333335, "grad_norm": 0.02400363786322356, "learning_rate": 0.0001, "loss": 0.9786, "step": 11314 }, { "epoch": 3.0034666666666667, "grad_norm": 0.023334990925384186, "learning_rate": 0.0001, "loss": 0.9325, "step": 11315 }, { "epoch": 3.00352, "grad_norm": 0.02405552099055603, "learning_rate": 0.0001, "loss": 0.9779, "step": 11316 }, { "epoch": 3.003573333333333, "grad_norm": 0.023911017363309785, "learning_rate": 0.0001, "loss": 0.9179, "step": 11317 }, { "epoch": 3.0036266666666664, "grad_norm": 0.023369656031578548, "learning_rate": 0.0001, "loss": 1.0078, "step": 11318 }, { "epoch": 3.00368, "grad_norm": 0.02387275246102042, "learning_rate": 0.0001, "loss": 0.9114, "step": 11319 }, { "epoch": 3.0037333333333334, "grad_norm": 0.023001945147488646, "learning_rate": 0.0001, "loss": 0.9273, "step": 11320 }, { "epoch": 3.0037866666666666, "grad_norm": 0.023138443641804708, "learning_rate": 0.0001, "loss": 0.9779, "step": 11321 }, { "epoch": 3.00384, "grad_norm": 0.024927590361364715, "learning_rate": 0.0001, "loss": 0.9833, "step": 11322 }, { "epoch": 3.0038933333333335, "grad_norm": 0.025457512983358428, "learning_rate": 0.0001, "loss": 0.9851, "step": 11323 }, { "epoch": 3.0039466666666668, "grad_norm": 0.02618839815930338, "learning_rate": 0.0001, "loss": 0.8933, "step": 11324 }, { "epoch": 3.004, "grad_norm": 0.02356984553746599, "learning_rate": 0.0001, "loss": 0.9527, "step": 11325 }, { "epoch": 3.0040533333333332, "grad_norm": 0.023361072268447396, "learning_rate": 0.0001, "loss": 0.9822, "step": 11326 }, { "epoch": 3.0041066666666665, "grad_norm": 0.023526984693495148, "learning_rate": 0.0001, "loss": 0.9528, "step": 11327 }, { "epoch": 3.00416, "grad_norm": 0.02651088037741935, "learning_rate": 0.0001, "loss": 0.9963, "step": 11328 }, { "epoch": 3.0042133333333334, "grad_norm": 0.024903845808228815, "learning_rate": 0.0001, "loss": 0.9043, "step": 11329 }, { "epoch": 3.0042666666666666, "grad_norm": 0.0259482222659897, "learning_rate": 0.0001, "loss": 0.949, "step": 11330 }, { "epoch": 3.00432, "grad_norm": 0.024561939316896077, "learning_rate": 0.0001, "loss": 0.9731, "step": 11331 }, { "epoch": 3.004373333333333, "grad_norm": 0.023243698795666422, "learning_rate": 0.0001, "loss": 0.9351, "step": 11332 }, { "epoch": 3.004426666666667, "grad_norm": 0.024648730061561683, "learning_rate": 0.0001, "loss": 0.9256, "step": 11333 }, { "epoch": 3.00448, "grad_norm": 0.025351720680434016, "learning_rate": 0.0001, "loss": 0.9946, "step": 11334 }, { "epoch": 3.0045333333333333, "grad_norm": 0.023947727205015416, "learning_rate": 0.0001, "loss": 1.043, "step": 11335 }, { "epoch": 3.0045866666666665, "grad_norm": 0.023883622834898064, "learning_rate": 0.0001, "loss": 0.9381, "step": 11336 }, { "epoch": 3.00464, "grad_norm": 0.02360410920045005, "learning_rate": 0.0001, "loss": 0.9542, "step": 11337 }, { "epoch": 3.0046933333333334, "grad_norm": 0.023673875378448277, "learning_rate": 0.0001, "loss": 0.9293, "step": 11338 }, { "epoch": 3.0047466666666667, "grad_norm": 0.026601034331108983, "learning_rate": 0.0001, "loss": 0.9407, "step": 11339 }, { "epoch": 3.0048, "grad_norm": 0.022401113655800543, "learning_rate": 0.0001, "loss": 0.9527, "step": 11340 }, { "epoch": 3.004853333333333, "grad_norm": 0.02327571413257052, "learning_rate": 0.0001, "loss": 0.9685, "step": 11341 }, { "epoch": 3.004906666666667, "grad_norm": 0.02354072515657198, "learning_rate": 0.0001, "loss": 0.9355, "step": 11342 }, { "epoch": 3.00496, "grad_norm": 0.026603400101281025, "learning_rate": 0.0001, "loss": 0.9171, "step": 11343 }, { "epoch": 3.0050133333333333, "grad_norm": 0.02347280310338319, "learning_rate": 0.0001, "loss": 0.9653, "step": 11344 }, { "epoch": 3.0050666666666666, "grad_norm": 0.02294440572152452, "learning_rate": 0.0001, "loss": 0.9631, "step": 11345 }, { "epoch": 3.00512, "grad_norm": 0.024052087866435624, "learning_rate": 0.0001, "loss": 0.9314, "step": 11346 }, { "epoch": 3.0051733333333335, "grad_norm": 0.023602398125191503, "learning_rate": 0.0001, "loss": 0.9943, "step": 11347 }, { "epoch": 3.0052266666666667, "grad_norm": 0.022910326781415538, "learning_rate": 0.0001, "loss": 0.9806, "step": 11348 }, { "epoch": 3.00528, "grad_norm": 0.023829136657987148, "learning_rate": 0.0001, "loss": 0.9671, "step": 11349 }, { "epoch": 3.005333333333333, "grad_norm": 0.02456557425384155, "learning_rate": 0.0001, "loss": 0.9501, "step": 11350 }, { "epoch": 3.005386666666667, "grad_norm": 0.02381021185306547, "learning_rate": 0.0001, "loss": 0.9743, "step": 11351 }, { "epoch": 3.00544, "grad_norm": 0.022800329887375438, "learning_rate": 0.0001, "loss": 0.9392, "step": 11352 }, { "epoch": 3.0054933333333334, "grad_norm": 0.023318011506900986, "learning_rate": 0.0001, "loss": 0.9334, "step": 11353 }, { "epoch": 3.0055466666666666, "grad_norm": 0.022070190083208055, "learning_rate": 0.0001, "loss": 0.9263, "step": 11354 }, { "epoch": 3.0056, "grad_norm": 0.023222010722803842, "learning_rate": 0.0001, "loss": 0.99, "step": 11355 }, { "epoch": 3.0056533333333335, "grad_norm": 0.024388313761076495, "learning_rate": 0.0001, "loss": 0.928, "step": 11356 }, { "epoch": 3.0057066666666667, "grad_norm": 0.023668486357819513, "learning_rate": 0.0001, "loss": 0.9329, "step": 11357 }, { "epoch": 3.00576, "grad_norm": 0.02362638861030846, "learning_rate": 0.0001, "loss": 0.9273, "step": 11358 }, { "epoch": 3.0058133333333332, "grad_norm": 0.023166218459446362, "learning_rate": 0.0001, "loss": 0.952, "step": 11359 }, { "epoch": 3.0058666666666665, "grad_norm": 0.02501087146868118, "learning_rate": 0.0001, "loss": 0.9991, "step": 11360 }, { "epoch": 3.00592, "grad_norm": 0.022561373715076806, "learning_rate": 0.0001, "loss": 1.013, "step": 11361 }, { "epoch": 3.0059733333333334, "grad_norm": 0.02405414233624098, "learning_rate": 0.0001, "loss": 0.9787, "step": 11362 }, { "epoch": 3.0060266666666666, "grad_norm": 0.02319284126053344, "learning_rate": 0.0001, "loss": 0.9755, "step": 11363 }, { "epoch": 3.00608, "grad_norm": 0.0229574733882866, "learning_rate": 0.0001, "loss": 0.9706, "step": 11364 }, { "epoch": 3.0061333333333335, "grad_norm": 0.024805499866802066, "learning_rate": 0.0001, "loss": 0.903, "step": 11365 }, { "epoch": 3.006186666666667, "grad_norm": 0.023020491114216706, "learning_rate": 0.0001, "loss": 0.9738, "step": 11366 }, { "epoch": 3.00624, "grad_norm": 0.024607665959636274, "learning_rate": 0.0001, "loss": 0.961, "step": 11367 }, { "epoch": 3.0062933333333333, "grad_norm": 0.02397316531686939, "learning_rate": 0.0001, "loss": 0.9254, "step": 11368 }, { "epoch": 3.0063466666666665, "grad_norm": 0.022456526732936202, "learning_rate": 0.0001, "loss": 0.9003, "step": 11369 }, { "epoch": 3.0064, "grad_norm": 0.026394853590073555, "learning_rate": 0.0001, "loss": 0.9099, "step": 11370 }, { "epoch": 3.0064533333333334, "grad_norm": 0.024497876581263206, "learning_rate": 0.0001, "loss": 0.9607, "step": 11371 }, { "epoch": 3.0065066666666667, "grad_norm": 0.023053253495741166, "learning_rate": 0.0001, "loss": 0.9293, "step": 11372 }, { "epoch": 3.00656, "grad_norm": 0.024791855351718756, "learning_rate": 0.0001, "loss": 0.9636, "step": 11373 }, { "epoch": 3.006613333333333, "grad_norm": 0.022627030499988158, "learning_rate": 0.0001, "loss": 0.9554, "step": 11374 }, { "epoch": 3.006666666666667, "grad_norm": 0.023175475772486756, "learning_rate": 0.0001, "loss": 0.9091, "step": 11375 }, { "epoch": 3.00672, "grad_norm": 0.02376168748832895, "learning_rate": 0.0001, "loss": 0.9648, "step": 11376 }, { "epoch": 3.0067733333333333, "grad_norm": 0.02533316673891695, "learning_rate": 0.0001, "loss": 0.9849, "step": 11377 }, { "epoch": 3.0068266666666665, "grad_norm": 0.022387544244183655, "learning_rate": 0.0001, "loss": 0.8905, "step": 11378 }, { "epoch": 3.00688, "grad_norm": 0.026087791092444433, "learning_rate": 0.0001, "loss": 0.8422, "step": 11379 }, { "epoch": 3.0069333333333335, "grad_norm": 0.024071452190633107, "learning_rate": 0.0001, "loss": 0.9392, "step": 11380 }, { "epoch": 3.0069866666666667, "grad_norm": 0.023129981262816082, "learning_rate": 0.0001, "loss": 0.9908, "step": 11381 }, { "epoch": 3.00704, "grad_norm": 0.022101482753985335, "learning_rate": 0.0001, "loss": 0.92, "step": 11382 }, { "epoch": 3.007093333333333, "grad_norm": 0.023434035746072283, "learning_rate": 0.0001, "loss": 1.0237, "step": 11383 }, { "epoch": 3.007146666666667, "grad_norm": 0.02284145401800224, "learning_rate": 0.0001, "loss": 0.9787, "step": 11384 }, { "epoch": 3.0072, "grad_norm": 0.02675438698821568, "learning_rate": 0.0001, "loss": 0.9096, "step": 11385 }, { "epoch": 3.0072533333333333, "grad_norm": 0.023340140942491247, "learning_rate": 0.0001, "loss": 0.9095, "step": 11386 }, { "epoch": 3.0073066666666666, "grad_norm": 0.02174579587251957, "learning_rate": 0.0001, "loss": 0.9092, "step": 11387 }, { "epoch": 3.00736, "grad_norm": 0.023472224983388412, "learning_rate": 0.0001, "loss": 0.998, "step": 11388 }, { "epoch": 3.0074133333333335, "grad_norm": 0.024575665700810954, "learning_rate": 0.0001, "loss": 0.9691, "step": 11389 }, { "epoch": 3.0074666666666667, "grad_norm": 0.023553797097254785, "learning_rate": 0.0001, "loss": 0.9676, "step": 11390 }, { "epoch": 3.00752, "grad_norm": 0.02402426167324507, "learning_rate": 0.0001, "loss": 0.9583, "step": 11391 }, { "epoch": 3.007573333333333, "grad_norm": 0.023864763420316962, "learning_rate": 0.0001, "loss": 0.9031, "step": 11392 }, { "epoch": 3.0076266666666664, "grad_norm": 0.023600755137217055, "learning_rate": 0.0001, "loss": 0.9348, "step": 11393 }, { "epoch": 3.00768, "grad_norm": 0.023269790894999826, "learning_rate": 0.0001, "loss": 0.9944, "step": 11394 }, { "epoch": 3.0077333333333334, "grad_norm": 0.024933535945561202, "learning_rate": 0.0001, "loss": 0.9503, "step": 11395 }, { "epoch": 3.0077866666666666, "grad_norm": 0.02215385857080057, "learning_rate": 0.0001, "loss": 0.9624, "step": 11396 }, { "epoch": 3.00784, "grad_norm": 0.02253383036891405, "learning_rate": 0.0001, "loss": 1.0013, "step": 11397 }, { "epoch": 3.0078933333333335, "grad_norm": 0.023034757281028426, "learning_rate": 0.0001, "loss": 0.9608, "step": 11398 }, { "epoch": 3.0079466666666668, "grad_norm": 0.022043762714682755, "learning_rate": 0.0001, "loss": 0.9191, "step": 11399 }, { "epoch": 3.008, "grad_norm": 0.023741722795190014, "learning_rate": 0.0001, "loss": 0.8923, "step": 11400 }, { "epoch": 3.008, "eval_accuracy": 0.6218992044855414, "eval_loss": 1.3449797630310059, "eval_runtime": 62.4869, "eval_samples_per_second": 16.003, "eval_steps_per_second": 0.512, "step": 11400 }, { "epoch": 3.0080533333333332, "grad_norm": 0.02230207877601979, "learning_rate": 0.0001, "loss": 1.0226, "step": 11401 }, { "epoch": 3.0081066666666665, "grad_norm": 0.022423495142439853, "learning_rate": 0.0001, "loss": 0.9585, "step": 11402 }, { "epoch": 3.00816, "grad_norm": 0.02356103829626399, "learning_rate": 0.0001, "loss": 0.9402, "step": 11403 }, { "epoch": 3.0082133333333334, "grad_norm": 0.023684338270253822, "learning_rate": 0.0001, "loss": 0.9934, "step": 11404 }, { "epoch": 3.0082666666666666, "grad_norm": 0.02418648526716863, "learning_rate": 0.0001, "loss": 0.9434, "step": 11405 }, { "epoch": 3.00832, "grad_norm": 0.022931211375474433, "learning_rate": 0.0001, "loss": 0.9676, "step": 11406 }, { "epoch": 3.008373333333333, "grad_norm": 0.02512887847702793, "learning_rate": 0.0001, "loss": 0.8926, "step": 11407 }, { "epoch": 3.008426666666667, "grad_norm": 0.02297608235380551, "learning_rate": 0.0001, "loss": 0.9268, "step": 11408 }, { "epoch": 3.00848, "grad_norm": 0.02420404304013232, "learning_rate": 0.0001, "loss": 0.9986, "step": 11409 }, { "epoch": 3.0085333333333333, "grad_norm": 0.022635139250453188, "learning_rate": 0.0001, "loss": 0.9345, "step": 11410 }, { "epoch": 3.0085866666666665, "grad_norm": 0.02237914546847278, "learning_rate": 0.0001, "loss": 0.9562, "step": 11411 }, { "epoch": 3.00864, "grad_norm": 0.024615345530994585, "learning_rate": 0.0001, "loss": 0.9516, "step": 11412 }, { "epoch": 3.0086933333333334, "grad_norm": 0.023603054261296743, "learning_rate": 0.0001, "loss": 0.9495, "step": 11413 }, { "epoch": 3.0087466666666667, "grad_norm": 0.023447743111023833, "learning_rate": 0.0001, "loss": 1.0139, "step": 11414 }, { "epoch": 3.0088, "grad_norm": 0.022598692439443176, "learning_rate": 0.0001, "loss": 0.9507, "step": 11415 }, { "epoch": 3.008853333333333, "grad_norm": 0.02596360137745977, "learning_rate": 0.0001, "loss": 0.9504, "step": 11416 }, { "epoch": 3.008906666666667, "grad_norm": 0.023084985519446044, "learning_rate": 0.0001, "loss": 0.9576, "step": 11417 }, { "epoch": 3.00896, "grad_norm": 0.025680454029128164, "learning_rate": 0.0001, "loss": 0.9556, "step": 11418 }, { "epoch": 3.0090133333333333, "grad_norm": 0.023113893263206304, "learning_rate": 0.0001, "loss": 0.9217, "step": 11419 }, { "epoch": 3.0090666666666666, "grad_norm": 0.02591325099571857, "learning_rate": 0.0001, "loss": 0.9158, "step": 11420 }, { "epoch": 3.00912, "grad_norm": 0.02473040908561732, "learning_rate": 0.0001, "loss": 0.9916, "step": 11421 }, { "epoch": 3.0091733333333335, "grad_norm": 0.026316152670731518, "learning_rate": 0.0001, "loss": 1.051, "step": 11422 }, { "epoch": 3.0092266666666667, "grad_norm": 0.026278018679745344, "learning_rate": 0.0001, "loss": 0.9434, "step": 11423 }, { "epoch": 3.00928, "grad_norm": 0.021966547841676263, "learning_rate": 0.0001, "loss": 0.9562, "step": 11424 }, { "epoch": 3.009333333333333, "grad_norm": 0.023579831105133543, "learning_rate": 0.0001, "loss": 0.9333, "step": 11425 }, { "epoch": 3.009386666666667, "grad_norm": 0.025938352029436382, "learning_rate": 0.0001, "loss": 0.9543, "step": 11426 }, { "epoch": 3.00944, "grad_norm": 0.022734941472479297, "learning_rate": 0.0001, "loss": 0.9101, "step": 11427 }, { "epoch": 3.0094933333333334, "grad_norm": 0.023248469003952714, "learning_rate": 0.0001, "loss": 1.0236, "step": 11428 }, { "epoch": 3.0095466666666666, "grad_norm": 0.02163759508829268, "learning_rate": 0.0001, "loss": 0.9483, "step": 11429 }, { "epoch": 3.0096, "grad_norm": 0.022074819614164003, "learning_rate": 0.0001, "loss": 0.9144, "step": 11430 }, { "epoch": 3.0096533333333335, "grad_norm": 0.02393737597144355, "learning_rate": 0.0001, "loss": 0.9868, "step": 11431 }, { "epoch": 3.0097066666666668, "grad_norm": 0.02484390185818054, "learning_rate": 0.0001, "loss": 0.943, "step": 11432 }, { "epoch": 3.00976, "grad_norm": 0.02314493177130149, "learning_rate": 0.0001, "loss": 0.959, "step": 11433 }, { "epoch": 3.0098133333333332, "grad_norm": 0.024257818285949743, "learning_rate": 0.0001, "loss": 0.9822, "step": 11434 }, { "epoch": 3.0098666666666665, "grad_norm": 0.02377509123454757, "learning_rate": 0.0001, "loss": 0.9656, "step": 11435 }, { "epoch": 3.00992, "grad_norm": 0.025302283769503484, "learning_rate": 0.0001, "loss": 0.9751, "step": 11436 }, { "epoch": 3.0099733333333334, "grad_norm": 0.024075991313630106, "learning_rate": 0.0001, "loss": 0.9621, "step": 11437 }, { "epoch": 3.0100266666666666, "grad_norm": 0.026283905037917953, "learning_rate": 0.0001, "loss": 0.9164, "step": 11438 }, { "epoch": 3.01008, "grad_norm": 0.02364981499186511, "learning_rate": 0.0001, "loss": 0.9978, "step": 11439 }, { "epoch": 3.0101333333333335, "grad_norm": 0.022124330054918293, "learning_rate": 0.0001, "loss": 0.9581, "step": 11440 }, { "epoch": 3.010186666666667, "grad_norm": 0.02328129217623798, "learning_rate": 0.0001, "loss": 0.9368, "step": 11441 }, { "epoch": 3.01024, "grad_norm": 0.023790836480429567, "learning_rate": 0.0001, "loss": 0.9551, "step": 11442 }, { "epoch": 3.0102933333333333, "grad_norm": 0.023393192553206186, "learning_rate": 0.0001, "loss": 0.9562, "step": 11443 }, { "epoch": 3.0103466666666665, "grad_norm": 0.02292530636640073, "learning_rate": 0.0001, "loss": 0.9276, "step": 11444 }, { "epoch": 3.0104, "grad_norm": 0.023142317179152657, "learning_rate": 0.0001, "loss": 0.9986, "step": 11445 }, { "epoch": 3.0104533333333334, "grad_norm": 0.025286898592958823, "learning_rate": 0.0001, "loss": 0.9763, "step": 11446 }, { "epoch": 3.0105066666666667, "grad_norm": 0.026231732529722992, "learning_rate": 0.0001, "loss": 0.9556, "step": 11447 }, { "epoch": 3.01056, "grad_norm": 0.02239495385424336, "learning_rate": 0.0001, "loss": 0.9223, "step": 11448 }, { "epoch": 3.010613333333333, "grad_norm": 0.022498484221443887, "learning_rate": 0.0001, "loss": 0.9693, "step": 11449 }, { "epoch": 3.010666666666667, "grad_norm": 0.02490204716007246, "learning_rate": 0.0001, "loss": 0.9835, "step": 11450 }, { "epoch": 3.01072, "grad_norm": 0.024221367689641327, "learning_rate": 0.0001, "loss": 0.9598, "step": 11451 }, { "epoch": 3.0107733333333333, "grad_norm": 0.023002000709672732, "learning_rate": 0.0001, "loss": 0.8885, "step": 11452 }, { "epoch": 3.0108266666666665, "grad_norm": 0.02281994561592992, "learning_rate": 0.0001, "loss": 1.0053, "step": 11453 }, { "epoch": 3.0108800000000002, "grad_norm": 0.02247849355973267, "learning_rate": 0.0001, "loss": 0.986, "step": 11454 }, { "epoch": 3.0109333333333335, "grad_norm": 0.02249901357917581, "learning_rate": 0.0001, "loss": 0.889, "step": 11455 }, { "epoch": 3.0109866666666667, "grad_norm": 0.02750725146933886, "learning_rate": 0.0001, "loss": 0.9826, "step": 11456 }, { "epoch": 3.01104, "grad_norm": 0.02508078053449982, "learning_rate": 0.0001, "loss": 0.9577, "step": 11457 }, { "epoch": 3.011093333333333, "grad_norm": 0.022164775802903238, "learning_rate": 0.0001, "loss": 0.8779, "step": 11458 }, { "epoch": 3.011146666666667, "grad_norm": 0.023107552017466622, "learning_rate": 0.0001, "loss": 0.9564, "step": 11459 }, { "epoch": 3.0112, "grad_norm": 0.023120989658243347, "learning_rate": 0.0001, "loss": 0.9625, "step": 11460 }, { "epoch": 3.0112533333333333, "grad_norm": 0.022989486371046627, "learning_rate": 0.0001, "loss": 0.9424, "step": 11461 }, { "epoch": 3.0113066666666666, "grad_norm": 0.023326450927307747, "learning_rate": 0.0001, "loss": 0.9582, "step": 11462 }, { "epoch": 3.01136, "grad_norm": 0.027588947925899342, "learning_rate": 0.0001, "loss": 0.9177, "step": 11463 }, { "epoch": 3.0114133333333335, "grad_norm": 0.02575376947119143, "learning_rate": 0.0001, "loss": 0.8931, "step": 11464 }, { "epoch": 3.0114666666666667, "grad_norm": 0.024463023031304796, "learning_rate": 0.0001, "loss": 0.9189, "step": 11465 }, { "epoch": 3.01152, "grad_norm": 0.025803999256744196, "learning_rate": 0.0001, "loss": 0.9545, "step": 11466 }, { "epoch": 3.011573333333333, "grad_norm": 0.02341577436190252, "learning_rate": 0.0001, "loss": 0.9849, "step": 11467 }, { "epoch": 3.0116266666666665, "grad_norm": 0.025137974611141534, "learning_rate": 0.0001, "loss": 0.9451, "step": 11468 }, { "epoch": 3.01168, "grad_norm": 0.02242464656929339, "learning_rate": 0.0001, "loss": 0.9957, "step": 11469 }, { "epoch": 3.0117333333333334, "grad_norm": 0.022456288619079435, "learning_rate": 0.0001, "loss": 0.9012, "step": 11470 }, { "epoch": 3.0117866666666666, "grad_norm": 0.023465256054684126, "learning_rate": 0.0001, "loss": 0.9536, "step": 11471 }, { "epoch": 3.01184, "grad_norm": 0.022620544466621192, "learning_rate": 0.0001, "loss": 0.9495, "step": 11472 }, { "epoch": 3.0118933333333335, "grad_norm": 0.024405334313919145, "learning_rate": 0.0001, "loss": 0.9751, "step": 11473 }, { "epoch": 3.0119466666666668, "grad_norm": 0.023905203876755682, "learning_rate": 0.0001, "loss": 0.9652, "step": 11474 }, { "epoch": 3.012, "grad_norm": 0.025160148488082002, "learning_rate": 0.0001, "loss": 0.9406, "step": 11475 }, { "epoch": 3.0120533333333332, "grad_norm": 0.023104555750810392, "learning_rate": 0.0001, "loss": 0.931, "step": 11476 }, { "epoch": 3.0121066666666665, "grad_norm": 0.027494486407075438, "learning_rate": 0.0001, "loss": 0.9082, "step": 11477 }, { "epoch": 3.01216, "grad_norm": 0.02513687261980468, "learning_rate": 0.0001, "loss": 0.9719, "step": 11478 }, { "epoch": 3.0122133333333334, "grad_norm": 0.02399273085329484, "learning_rate": 0.0001, "loss": 0.9548, "step": 11479 }, { "epoch": 3.0122666666666666, "grad_norm": 0.024101216838755175, "learning_rate": 0.0001, "loss": 0.968, "step": 11480 }, { "epoch": 3.01232, "grad_norm": 0.022777627472900755, "learning_rate": 0.0001, "loss": 0.9927, "step": 11481 }, { "epoch": 3.012373333333333, "grad_norm": 0.022186175806155915, "learning_rate": 0.0001, "loss": 0.9564, "step": 11482 }, { "epoch": 3.012426666666667, "grad_norm": 0.02328096496334358, "learning_rate": 0.0001, "loss": 0.9582, "step": 11483 }, { "epoch": 3.01248, "grad_norm": 0.02295852012562603, "learning_rate": 0.0001, "loss": 0.9346, "step": 11484 }, { "epoch": 3.0125333333333333, "grad_norm": 0.025373243016770068, "learning_rate": 0.0001, "loss": 0.9428, "step": 11485 }, { "epoch": 3.0125866666666665, "grad_norm": 0.025187672638609642, "learning_rate": 0.0001, "loss": 0.9729, "step": 11486 }, { "epoch": 3.01264, "grad_norm": 0.022623357818178473, "learning_rate": 0.0001, "loss": 0.9946, "step": 11487 }, { "epoch": 3.0126933333333334, "grad_norm": 0.026528340264101297, "learning_rate": 0.0001, "loss": 0.9957, "step": 11488 }, { "epoch": 3.0127466666666667, "grad_norm": 0.02468982126829838, "learning_rate": 0.0001, "loss": 0.8973, "step": 11489 }, { "epoch": 3.0128, "grad_norm": 0.024247846292823304, "learning_rate": 0.0001, "loss": 0.9799, "step": 11490 }, { "epoch": 3.012853333333333, "grad_norm": 0.02240165477453884, "learning_rate": 0.0001, "loss": 0.9371, "step": 11491 }, { "epoch": 3.012906666666667, "grad_norm": 0.024648043526983975, "learning_rate": 0.0001, "loss": 0.9373, "step": 11492 }, { "epoch": 3.01296, "grad_norm": 0.02386476026918516, "learning_rate": 0.0001, "loss": 0.9591, "step": 11493 }, { "epoch": 3.0130133333333333, "grad_norm": 0.024402994669677016, "learning_rate": 0.0001, "loss": 0.9613, "step": 11494 }, { "epoch": 3.0130666666666666, "grad_norm": 0.02463945048951394, "learning_rate": 0.0001, "loss": 0.9738, "step": 11495 }, { "epoch": 3.01312, "grad_norm": 0.024036107643721927, "learning_rate": 0.0001, "loss": 0.9971, "step": 11496 }, { "epoch": 3.0131733333333335, "grad_norm": 0.025244864693594108, "learning_rate": 0.0001, "loss": 0.9796, "step": 11497 }, { "epoch": 3.0132266666666667, "grad_norm": 0.025332466680079404, "learning_rate": 0.0001, "loss": 0.933, "step": 11498 }, { "epoch": 3.01328, "grad_norm": 0.02250987750080965, "learning_rate": 0.0001, "loss": 0.9362, "step": 11499 }, { "epoch": 3.013333333333333, "grad_norm": 0.022886121550771795, "learning_rate": 0.0001, "loss": 0.9451, "step": 11500 }, { "epoch": 3.013386666666667, "grad_norm": 0.024348992492353942, "learning_rate": 0.0001, "loss": 0.9356, "step": 11501 }, { "epoch": 3.01344, "grad_norm": 0.023332101302830775, "learning_rate": 0.0001, "loss": 0.9406, "step": 11502 }, { "epoch": 3.0134933333333334, "grad_norm": 0.026296706155594967, "learning_rate": 0.0001, "loss": 0.9575, "step": 11503 }, { "epoch": 3.0135466666666666, "grad_norm": 0.025242516561699024, "learning_rate": 0.0001, "loss": 0.9241, "step": 11504 }, { "epoch": 3.0136, "grad_norm": 0.023674813338177093, "learning_rate": 0.0001, "loss": 0.9698, "step": 11505 }, { "epoch": 3.0136533333333335, "grad_norm": 0.02384192093912968, "learning_rate": 0.0001, "loss": 0.9587, "step": 11506 }, { "epoch": 3.0137066666666668, "grad_norm": 0.024264505073599337, "learning_rate": 0.0001, "loss": 0.9504, "step": 11507 }, { "epoch": 3.01376, "grad_norm": 0.024209507839258605, "learning_rate": 0.0001, "loss": 0.9397, "step": 11508 }, { "epoch": 3.0138133333333332, "grad_norm": 0.02341943933507366, "learning_rate": 0.0001, "loss": 0.9654, "step": 11509 }, { "epoch": 3.0138666666666665, "grad_norm": 0.022797566615677427, "learning_rate": 0.0001, "loss": 0.9512, "step": 11510 }, { "epoch": 3.01392, "grad_norm": 0.022284682675654328, "learning_rate": 0.0001, "loss": 0.9202, "step": 11511 }, { "epoch": 3.0139733333333334, "grad_norm": 0.02312475996383706, "learning_rate": 0.0001, "loss": 0.9419, "step": 11512 }, { "epoch": 3.0140266666666666, "grad_norm": 0.024217548561719072, "learning_rate": 0.0001, "loss": 0.9667, "step": 11513 }, { "epoch": 3.01408, "grad_norm": 0.02226024625450421, "learning_rate": 0.0001, "loss": 0.9514, "step": 11514 }, { "epoch": 3.0141333333333336, "grad_norm": 0.02552105391241752, "learning_rate": 0.0001, "loss": 0.909, "step": 11515 }, { "epoch": 3.014186666666667, "grad_norm": 0.023574340842096256, "learning_rate": 0.0001, "loss": 0.9309, "step": 11516 }, { "epoch": 3.01424, "grad_norm": 0.025043536273858077, "learning_rate": 0.0001, "loss": 0.9465, "step": 11517 }, { "epoch": 3.0142933333333333, "grad_norm": 0.02340380812134596, "learning_rate": 0.0001, "loss": 0.9678, "step": 11518 }, { "epoch": 3.0143466666666665, "grad_norm": 0.02336216191845281, "learning_rate": 0.0001, "loss": 0.9446, "step": 11519 }, { "epoch": 3.0144, "grad_norm": 0.022597854121330873, "learning_rate": 0.0001, "loss": 0.9221, "step": 11520 }, { "epoch": 3.0144533333333334, "grad_norm": 0.024835503590587976, "learning_rate": 0.0001, "loss": 0.9656, "step": 11521 }, { "epoch": 3.0145066666666667, "grad_norm": 0.023871101630853122, "learning_rate": 0.0001, "loss": 0.9888, "step": 11522 }, { "epoch": 3.01456, "grad_norm": 0.022760749056030007, "learning_rate": 0.0001, "loss": 0.9637, "step": 11523 }, { "epoch": 3.014613333333333, "grad_norm": 0.023719981299484084, "learning_rate": 0.0001, "loss": 1.0309, "step": 11524 }, { "epoch": 3.014666666666667, "grad_norm": 0.023809949609317337, "learning_rate": 0.0001, "loss": 0.9718, "step": 11525 }, { "epoch": 3.01472, "grad_norm": 0.026226941504991053, "learning_rate": 0.0001, "loss": 0.939, "step": 11526 }, { "epoch": 3.0147733333333333, "grad_norm": 0.024472040763352087, "learning_rate": 0.0001, "loss": 0.9956, "step": 11527 }, { "epoch": 3.0148266666666665, "grad_norm": 0.02331569045508522, "learning_rate": 0.0001, "loss": 0.9643, "step": 11528 }, { "epoch": 3.01488, "grad_norm": 0.024842584759552776, "learning_rate": 0.0001, "loss": 0.9422, "step": 11529 }, { "epoch": 3.0149333333333335, "grad_norm": 0.024351513847883484, "learning_rate": 0.0001, "loss": 1.0036, "step": 11530 }, { "epoch": 3.0149866666666667, "grad_norm": 0.023598289891244448, "learning_rate": 0.0001, "loss": 0.9321, "step": 11531 }, { "epoch": 3.01504, "grad_norm": 0.023133644000854246, "learning_rate": 0.0001, "loss": 0.9626, "step": 11532 }, { "epoch": 3.015093333333333, "grad_norm": 0.022836305107515522, "learning_rate": 0.0001, "loss": 0.9744, "step": 11533 }, { "epoch": 3.015146666666667, "grad_norm": 0.023307479264549017, "learning_rate": 0.0001, "loss": 0.8907, "step": 11534 }, { "epoch": 3.0152, "grad_norm": 0.026574506740348176, "learning_rate": 0.0001, "loss": 0.991, "step": 11535 }, { "epoch": 3.0152533333333333, "grad_norm": 0.022532116253976057, "learning_rate": 0.0001, "loss": 0.946, "step": 11536 }, { "epoch": 3.0153066666666666, "grad_norm": 0.02403439857027094, "learning_rate": 0.0001, "loss": 0.9503, "step": 11537 }, { "epoch": 3.01536, "grad_norm": 0.02242486845491485, "learning_rate": 0.0001, "loss": 0.9328, "step": 11538 }, { "epoch": 3.0154133333333335, "grad_norm": 0.024769540200609296, "learning_rate": 0.0001, "loss": 0.9721, "step": 11539 }, { "epoch": 3.0154666666666667, "grad_norm": 0.025078286117994574, "learning_rate": 0.0001, "loss": 0.9217, "step": 11540 }, { "epoch": 3.01552, "grad_norm": 0.02330278656993119, "learning_rate": 0.0001, "loss": 0.9784, "step": 11541 }, { "epoch": 3.015573333333333, "grad_norm": 0.02274050782384072, "learning_rate": 0.0001, "loss": 0.956, "step": 11542 }, { "epoch": 3.0156266666666665, "grad_norm": 0.023236245314468232, "learning_rate": 0.0001, "loss": 1.0179, "step": 11543 }, { "epoch": 3.01568, "grad_norm": 0.023293242102191827, "learning_rate": 0.0001, "loss": 0.957, "step": 11544 }, { "epoch": 3.0157333333333334, "grad_norm": 0.023899548677462145, "learning_rate": 0.0001, "loss": 0.9173, "step": 11545 }, { "epoch": 3.0157866666666666, "grad_norm": 0.023516260419215482, "learning_rate": 0.0001, "loss": 0.9403, "step": 11546 }, { "epoch": 3.01584, "grad_norm": 0.02258661325669158, "learning_rate": 0.0001, "loss": 1.017, "step": 11547 }, { "epoch": 3.0158933333333335, "grad_norm": 0.023083924682185522, "learning_rate": 0.0001, "loss": 0.953, "step": 11548 }, { "epoch": 3.0159466666666668, "grad_norm": 0.023808056748901598, "learning_rate": 0.0001, "loss": 0.9262, "step": 11549 }, { "epoch": 3.016, "grad_norm": 0.022167844210810358, "learning_rate": 0.0001, "loss": 0.9366, "step": 11550 }, { "epoch": 3.0160533333333333, "grad_norm": 0.021140931565867063, "learning_rate": 0.0001, "loss": 0.9291, "step": 11551 }, { "epoch": 3.0161066666666665, "grad_norm": 0.024865041612461756, "learning_rate": 0.0001, "loss": 0.9723, "step": 11552 }, { "epoch": 3.01616, "grad_norm": 0.024451948132622303, "learning_rate": 0.0001, "loss": 0.9687, "step": 11553 }, { "epoch": 3.0162133333333334, "grad_norm": 0.023837280140931814, "learning_rate": 0.0001, "loss": 0.9513, "step": 11554 }, { "epoch": 3.0162666666666667, "grad_norm": 0.02337162551446488, "learning_rate": 0.0001, "loss": 0.9346, "step": 11555 }, { "epoch": 3.01632, "grad_norm": 0.026464837072750918, "learning_rate": 0.0001, "loss": 1.0174, "step": 11556 }, { "epoch": 3.016373333333333, "grad_norm": 0.02378890570084942, "learning_rate": 0.0001, "loss": 0.9415, "step": 11557 }, { "epoch": 3.016426666666667, "grad_norm": 0.024813643603337484, "learning_rate": 0.0001, "loss": 0.961, "step": 11558 }, { "epoch": 3.01648, "grad_norm": 0.02421484344479337, "learning_rate": 0.0001, "loss": 0.9131, "step": 11559 }, { "epoch": 3.0165333333333333, "grad_norm": 0.025458760825863288, "learning_rate": 0.0001, "loss": 0.9328, "step": 11560 }, { "epoch": 3.0165866666666665, "grad_norm": 0.023936383933900185, "learning_rate": 0.0001, "loss": 0.9509, "step": 11561 }, { "epoch": 3.01664, "grad_norm": 0.02385898495427693, "learning_rate": 0.0001, "loss": 1.0025, "step": 11562 }, { "epoch": 3.0166933333333334, "grad_norm": 0.02259705577989472, "learning_rate": 0.0001, "loss": 0.9774, "step": 11563 }, { "epoch": 3.0167466666666667, "grad_norm": 0.02434422418223191, "learning_rate": 0.0001, "loss": 0.909, "step": 11564 }, { "epoch": 3.0168, "grad_norm": 0.02565599861423203, "learning_rate": 0.0001, "loss": 0.9433, "step": 11565 }, { "epoch": 3.016853333333333, "grad_norm": 0.023572892511108556, "learning_rate": 0.0001, "loss": 0.9977, "step": 11566 }, { "epoch": 3.016906666666667, "grad_norm": 0.0228237179465603, "learning_rate": 0.0001, "loss": 0.9757, "step": 11567 }, { "epoch": 3.01696, "grad_norm": 0.02635889750374834, "learning_rate": 0.0001, "loss": 0.96, "step": 11568 }, { "epoch": 3.0170133333333333, "grad_norm": 0.02408536564286742, "learning_rate": 0.0001, "loss": 0.9863, "step": 11569 }, { "epoch": 3.0170666666666666, "grad_norm": 0.02392801233901758, "learning_rate": 0.0001, "loss": 0.9732, "step": 11570 }, { "epoch": 3.01712, "grad_norm": 0.023709631798049798, "learning_rate": 0.0001, "loss": 0.9799, "step": 11571 }, { "epoch": 3.0171733333333335, "grad_norm": 0.025223177654476632, "learning_rate": 0.0001, "loss": 0.9738, "step": 11572 }, { "epoch": 3.0172266666666667, "grad_norm": 0.02552661824672957, "learning_rate": 0.0001, "loss": 1.0215, "step": 11573 }, { "epoch": 3.01728, "grad_norm": 0.022833566098466276, "learning_rate": 0.0001, "loss": 0.9578, "step": 11574 }, { "epoch": 3.017333333333333, "grad_norm": 0.0230005186367222, "learning_rate": 0.0001, "loss": 0.9574, "step": 11575 }, { "epoch": 3.017386666666667, "grad_norm": 0.02640568189600473, "learning_rate": 0.0001, "loss": 0.9417, "step": 11576 }, { "epoch": 3.01744, "grad_norm": 0.028510544069758625, "learning_rate": 0.0001, "loss": 1.0338, "step": 11577 }, { "epoch": 3.0174933333333334, "grad_norm": 0.023532030959977523, "learning_rate": 0.0001, "loss": 1.0086, "step": 11578 }, { "epoch": 3.0175466666666666, "grad_norm": 0.02338405288062905, "learning_rate": 0.0001, "loss": 0.936, "step": 11579 }, { "epoch": 3.0176, "grad_norm": 0.027409056349685466, "learning_rate": 0.0001, "loss": 0.9581, "step": 11580 }, { "epoch": 3.0176533333333335, "grad_norm": 0.024282408627700633, "learning_rate": 0.0001, "loss": 0.923, "step": 11581 }, { "epoch": 3.0177066666666668, "grad_norm": 0.024917256477724505, "learning_rate": 0.0001, "loss": 0.9828, "step": 11582 }, { "epoch": 3.01776, "grad_norm": 0.022032120438915358, "learning_rate": 0.0001, "loss": 0.9926, "step": 11583 }, { "epoch": 3.0178133333333332, "grad_norm": 0.023111293591856527, "learning_rate": 0.0001, "loss": 0.9649, "step": 11584 }, { "epoch": 3.0178666666666665, "grad_norm": 0.02409980278341785, "learning_rate": 0.0001, "loss": 0.9025, "step": 11585 }, { "epoch": 3.01792, "grad_norm": 0.025081026652168638, "learning_rate": 0.0001, "loss": 0.94, "step": 11586 }, { "epoch": 3.0179733333333334, "grad_norm": 0.024195545999478298, "learning_rate": 0.0001, "loss": 0.9639, "step": 11587 }, { "epoch": 3.0180266666666666, "grad_norm": 0.023263712998439545, "learning_rate": 0.0001, "loss": 0.9742, "step": 11588 }, { "epoch": 3.01808, "grad_norm": 0.02277793771319084, "learning_rate": 0.0001, "loss": 1.0129, "step": 11589 }, { "epoch": 3.018133333333333, "grad_norm": 0.022893417270226608, "learning_rate": 0.0001, "loss": 0.9584, "step": 11590 }, { "epoch": 3.018186666666667, "grad_norm": 0.023948705787349037, "learning_rate": 0.0001, "loss": 0.9044, "step": 11591 }, { "epoch": 3.01824, "grad_norm": 0.02453748033388943, "learning_rate": 0.0001, "loss": 0.9678, "step": 11592 }, { "epoch": 3.0182933333333333, "grad_norm": 0.022676690773494483, "learning_rate": 0.0001, "loss": 0.9917, "step": 11593 }, { "epoch": 3.0183466666666665, "grad_norm": 0.025189734374596512, "learning_rate": 0.0001, "loss": 0.9264, "step": 11594 }, { "epoch": 3.0184, "grad_norm": 0.02514364465656887, "learning_rate": 0.0001, "loss": 0.9505, "step": 11595 }, { "epoch": 3.0184533333333334, "grad_norm": 0.02305426302036187, "learning_rate": 0.0001, "loss": 0.9487, "step": 11596 }, { "epoch": 3.0185066666666667, "grad_norm": 0.02334477243976388, "learning_rate": 0.0001, "loss": 0.9495, "step": 11597 }, { "epoch": 3.01856, "grad_norm": 0.022864474844008675, "learning_rate": 0.0001, "loss": 0.9791, "step": 11598 }, { "epoch": 3.018613333333333, "grad_norm": 0.024097195307967716, "learning_rate": 0.0001, "loss": 0.9627, "step": 11599 }, { "epoch": 3.018666666666667, "grad_norm": 0.023325352379298083, "learning_rate": 0.0001, "loss": 1.0067, "step": 11600 }, { "epoch": 3.018666666666667, "eval_accuracy": 0.6219148282933421, "eval_loss": 1.3445541858673096, "eval_runtime": 62.8257, "eval_samples_per_second": 15.917, "eval_steps_per_second": 0.509, "step": 11600 }, { "epoch": 3.01872, "grad_norm": 0.022354749399371394, "learning_rate": 0.0001, "loss": 0.9187, "step": 11601 }, { "epoch": 3.0187733333333333, "grad_norm": 0.023585618798490065, "learning_rate": 0.0001, "loss": 0.9658, "step": 11602 }, { "epoch": 3.0188266666666665, "grad_norm": 0.02233417348293247, "learning_rate": 0.0001, "loss": 0.9277, "step": 11603 }, { "epoch": 3.01888, "grad_norm": 0.024735617416308756, "learning_rate": 0.0001, "loss": 0.9327, "step": 11604 }, { "epoch": 3.0189333333333335, "grad_norm": 0.022532324357640417, "learning_rate": 0.0001, "loss": 0.9413, "step": 11605 }, { "epoch": 3.0189866666666667, "grad_norm": 0.02552225085686534, "learning_rate": 0.0001, "loss": 0.917, "step": 11606 }, { "epoch": 3.01904, "grad_norm": 0.024159352073070205, "learning_rate": 0.0001, "loss": 0.9738, "step": 11607 }, { "epoch": 3.019093333333333, "grad_norm": 0.025425281411288154, "learning_rate": 0.0001, "loss": 0.9409, "step": 11608 }, { "epoch": 3.019146666666667, "grad_norm": 0.022092426902304733, "learning_rate": 0.0001, "loss": 0.9969, "step": 11609 }, { "epoch": 3.0192, "grad_norm": 0.02261020986368185, "learning_rate": 0.0001, "loss": 0.9868, "step": 11610 }, { "epoch": 3.0192533333333333, "grad_norm": 0.02468031495718079, "learning_rate": 0.0001, "loss": 0.9645, "step": 11611 }, { "epoch": 3.0193066666666666, "grad_norm": 0.02377697909308783, "learning_rate": 0.0001, "loss": 0.9471, "step": 11612 }, { "epoch": 3.01936, "grad_norm": 0.026437012001540857, "learning_rate": 0.0001, "loss": 0.9471, "step": 11613 }, { "epoch": 3.0194133333333335, "grad_norm": 0.024892742223910216, "learning_rate": 0.0001, "loss": 0.9713, "step": 11614 }, { "epoch": 3.0194666666666667, "grad_norm": 0.025511445941035087, "learning_rate": 0.0001, "loss": 0.9443, "step": 11615 }, { "epoch": 3.01952, "grad_norm": 0.026224017164640123, "learning_rate": 0.0001, "loss": 1.0295, "step": 11616 }, { "epoch": 3.019573333333333, "grad_norm": 0.024841711291604094, "learning_rate": 0.0001, "loss": 0.9678, "step": 11617 }, { "epoch": 3.0196266666666665, "grad_norm": 0.027630349730668094, "learning_rate": 0.0001, "loss": 0.9352, "step": 11618 }, { "epoch": 3.01968, "grad_norm": 0.024582028986845528, "learning_rate": 0.0001, "loss": 0.9643, "step": 11619 }, { "epoch": 3.0197333333333334, "grad_norm": 0.024235844180607286, "learning_rate": 0.0001, "loss": 0.8924, "step": 11620 }, { "epoch": 3.0197866666666666, "grad_norm": 0.023203700175693114, "learning_rate": 0.0001, "loss": 0.9411, "step": 11621 }, { "epoch": 3.01984, "grad_norm": 0.022923159537839997, "learning_rate": 0.0001, "loss": 0.908, "step": 11622 }, { "epoch": 3.0198933333333335, "grad_norm": 0.025588535119926613, "learning_rate": 0.0001, "loss": 0.946, "step": 11623 }, { "epoch": 3.019946666666667, "grad_norm": 0.02664234376924841, "learning_rate": 0.0001, "loss": 0.9828, "step": 11624 }, { "epoch": 3.02, "grad_norm": 0.023231380194309075, "learning_rate": 0.0001, "loss": 0.9779, "step": 11625 }, { "epoch": 3.0200533333333333, "grad_norm": 0.024053265086753445, "learning_rate": 0.0001, "loss": 0.9799, "step": 11626 }, { "epoch": 3.0201066666666665, "grad_norm": 0.02408553219776758, "learning_rate": 0.0001, "loss": 0.9012, "step": 11627 }, { "epoch": 3.02016, "grad_norm": 0.023508789009840676, "learning_rate": 0.0001, "loss": 0.9807, "step": 11628 }, { "epoch": 3.0202133333333334, "grad_norm": 0.02274811653061226, "learning_rate": 0.0001, "loss": 0.986, "step": 11629 }, { "epoch": 3.0202666666666667, "grad_norm": 0.024318792340513026, "learning_rate": 0.0001, "loss": 0.9344, "step": 11630 }, { "epoch": 3.02032, "grad_norm": 0.023098015629495088, "learning_rate": 0.0001, "loss": 0.9893, "step": 11631 }, { "epoch": 3.020373333333333, "grad_norm": 0.02227027282197046, "learning_rate": 0.0001, "loss": 0.9284, "step": 11632 }, { "epoch": 3.020426666666667, "grad_norm": 0.025808451648849852, "learning_rate": 0.0001, "loss": 0.9444, "step": 11633 }, { "epoch": 3.02048, "grad_norm": 0.024971394129469297, "learning_rate": 0.0001, "loss": 0.9594, "step": 11634 }, { "epoch": 3.0205333333333333, "grad_norm": 0.028339613138189033, "learning_rate": 0.0001, "loss": 0.9277, "step": 11635 }, { "epoch": 3.0205866666666665, "grad_norm": 0.024726995852352322, "learning_rate": 0.0001, "loss": 1.0129, "step": 11636 }, { "epoch": 3.02064, "grad_norm": 0.025870079111397177, "learning_rate": 0.0001, "loss": 0.9738, "step": 11637 }, { "epoch": 3.0206933333333335, "grad_norm": 0.024104935731567082, "learning_rate": 0.0001, "loss": 0.9359, "step": 11638 }, { "epoch": 3.0207466666666667, "grad_norm": 0.024924402932002262, "learning_rate": 0.0001, "loss": 0.9482, "step": 11639 }, { "epoch": 3.0208, "grad_norm": 0.02733337806890832, "learning_rate": 0.0001, "loss": 0.9922, "step": 11640 }, { "epoch": 3.020853333333333, "grad_norm": 0.022330724812645846, "learning_rate": 0.0001, "loss": 0.8894, "step": 11641 }, { "epoch": 3.020906666666667, "grad_norm": 0.023889725020131994, "learning_rate": 0.0001, "loss": 0.9535, "step": 11642 }, { "epoch": 3.02096, "grad_norm": 0.02300576284862705, "learning_rate": 0.0001, "loss": 0.9176, "step": 11643 }, { "epoch": 3.0210133333333333, "grad_norm": 0.02347119568786852, "learning_rate": 0.0001, "loss": 0.9668, "step": 11644 }, { "epoch": 3.0210666666666666, "grad_norm": 0.025930751417101976, "learning_rate": 0.0001, "loss": 0.9472, "step": 11645 }, { "epoch": 3.02112, "grad_norm": 0.025206819627388397, "learning_rate": 0.0001, "loss": 0.9353, "step": 11646 }, { "epoch": 3.0211733333333335, "grad_norm": 0.024634884721501497, "learning_rate": 0.0001, "loss": 0.9129, "step": 11647 }, { "epoch": 3.0212266666666667, "grad_norm": 0.0245248806979328, "learning_rate": 0.0001, "loss": 0.9284, "step": 11648 }, { "epoch": 3.02128, "grad_norm": 0.023682549706928447, "learning_rate": 0.0001, "loss": 0.9469, "step": 11649 }, { "epoch": 3.021333333333333, "grad_norm": 0.023615417540745493, "learning_rate": 0.0001, "loss": 0.9391, "step": 11650 }, { "epoch": 3.0213866666666664, "grad_norm": 0.02365305194446948, "learning_rate": 0.0001, "loss": 0.997, "step": 11651 }, { "epoch": 3.02144, "grad_norm": 0.0238394154902283, "learning_rate": 0.0001, "loss": 0.9627, "step": 11652 }, { "epoch": 3.0214933333333334, "grad_norm": 0.024308826576638295, "learning_rate": 0.0001, "loss": 0.9769, "step": 11653 }, { "epoch": 3.0215466666666666, "grad_norm": 0.02439192912140777, "learning_rate": 0.0001, "loss": 0.955, "step": 11654 }, { "epoch": 3.0216, "grad_norm": 0.02418601763417813, "learning_rate": 0.0001, "loss": 0.9234, "step": 11655 }, { "epoch": 3.0216533333333335, "grad_norm": 0.023709021308484988, "learning_rate": 0.0001, "loss": 0.9311, "step": 11656 }, { "epoch": 3.0217066666666668, "grad_norm": 0.02380372324068671, "learning_rate": 0.0001, "loss": 0.9383, "step": 11657 }, { "epoch": 3.02176, "grad_norm": 0.02701510915522868, "learning_rate": 0.0001, "loss": 1.007, "step": 11658 }, { "epoch": 3.0218133333333332, "grad_norm": 0.025058725701057848, "learning_rate": 0.0001, "loss": 0.9383, "step": 11659 }, { "epoch": 3.0218666666666665, "grad_norm": 0.02535766315427051, "learning_rate": 0.0001, "loss": 0.9797, "step": 11660 }, { "epoch": 3.02192, "grad_norm": 0.022991180656683746, "learning_rate": 0.0001, "loss": 0.954, "step": 11661 }, { "epoch": 3.0219733333333334, "grad_norm": 0.022861529996912343, "learning_rate": 0.0001, "loss": 0.926, "step": 11662 }, { "epoch": 3.0220266666666666, "grad_norm": 0.02285374798759366, "learning_rate": 0.0001, "loss": 0.9376, "step": 11663 }, { "epoch": 3.02208, "grad_norm": 0.02320414517893816, "learning_rate": 0.0001, "loss": 0.9071, "step": 11664 }, { "epoch": 3.022133333333333, "grad_norm": 0.02369738447973728, "learning_rate": 0.0001, "loss": 0.9846, "step": 11665 }, { "epoch": 3.022186666666667, "grad_norm": 0.02592924630901491, "learning_rate": 0.0001, "loss": 1.0038, "step": 11666 }, { "epoch": 3.02224, "grad_norm": 0.023857085830920517, "learning_rate": 0.0001, "loss": 0.939, "step": 11667 }, { "epoch": 3.0222933333333333, "grad_norm": 0.02442951238356945, "learning_rate": 0.0001, "loss": 1.0332, "step": 11668 }, { "epoch": 3.0223466666666665, "grad_norm": 0.023649875242007172, "learning_rate": 0.0001, "loss": 0.9715, "step": 11669 }, { "epoch": 3.0224, "grad_norm": 0.023937551617805315, "learning_rate": 0.0001, "loss": 0.9748, "step": 11670 }, { "epoch": 3.0224533333333334, "grad_norm": 0.02457812516846486, "learning_rate": 0.0001, "loss": 0.9798, "step": 11671 }, { "epoch": 3.0225066666666667, "grad_norm": 0.02316865134194081, "learning_rate": 0.0001, "loss": 0.9761, "step": 11672 }, { "epoch": 3.02256, "grad_norm": 0.026840078519391936, "learning_rate": 0.0001, "loss": 0.9757, "step": 11673 }, { "epoch": 3.022613333333333, "grad_norm": 0.023328501627024097, "learning_rate": 0.0001, "loss": 0.9776, "step": 11674 }, { "epoch": 3.022666666666667, "grad_norm": 0.02381354273269549, "learning_rate": 0.0001, "loss": 0.9808, "step": 11675 }, { "epoch": 3.02272, "grad_norm": 0.02685225021049906, "learning_rate": 0.0001, "loss": 1.0213, "step": 11676 }, { "epoch": 3.0227733333333333, "grad_norm": 0.02170442832788045, "learning_rate": 0.0001, "loss": 0.9186, "step": 11677 }, { "epoch": 3.0228266666666666, "grad_norm": 0.023644098994007743, "learning_rate": 0.0001, "loss": 0.9053, "step": 11678 }, { "epoch": 3.02288, "grad_norm": 0.024127248013683808, "learning_rate": 0.0001, "loss": 0.9727, "step": 11679 }, { "epoch": 3.0229333333333335, "grad_norm": 0.023989875550467707, "learning_rate": 0.0001, "loss": 0.9909, "step": 11680 }, { "epoch": 3.0229866666666667, "grad_norm": 0.02327214584232841, "learning_rate": 0.0001, "loss": 0.949, "step": 11681 }, { "epoch": 3.02304, "grad_norm": 0.02483387535241112, "learning_rate": 0.0001, "loss": 0.9785, "step": 11682 }, { "epoch": 3.023093333333333, "grad_norm": 0.027787402579758622, "learning_rate": 0.0001, "loss": 0.9651, "step": 11683 }, { "epoch": 3.023146666666667, "grad_norm": 0.024896768105640607, "learning_rate": 0.0001, "loss": 0.9544, "step": 11684 }, { "epoch": 3.0232, "grad_norm": 0.023829124924327805, "learning_rate": 0.0001, "loss": 0.9643, "step": 11685 }, { "epoch": 3.0232533333333333, "grad_norm": 0.02455516750411266, "learning_rate": 0.0001, "loss": 0.9621, "step": 11686 }, { "epoch": 3.0233066666666666, "grad_norm": 0.024304885536165336, "learning_rate": 0.0001, "loss": 0.9146, "step": 11687 }, { "epoch": 3.02336, "grad_norm": 0.02324995893130607, "learning_rate": 0.0001, "loss": 0.9833, "step": 11688 }, { "epoch": 3.0234133333333335, "grad_norm": 0.023976007833509578, "learning_rate": 0.0001, "loss": 0.9373, "step": 11689 }, { "epoch": 3.0234666666666667, "grad_norm": 0.023560309595464422, "learning_rate": 0.0001, "loss": 0.9595, "step": 11690 }, { "epoch": 3.02352, "grad_norm": 0.024585278946586707, "learning_rate": 0.0001, "loss": 0.9919, "step": 11691 }, { "epoch": 3.0235733333333332, "grad_norm": 0.023172607589482665, "learning_rate": 0.0001, "loss": 0.8726, "step": 11692 }, { "epoch": 3.0236266666666665, "grad_norm": 0.025833461988223887, "learning_rate": 0.0001, "loss": 0.9412, "step": 11693 }, { "epoch": 3.02368, "grad_norm": 0.025072447905562813, "learning_rate": 0.0001, "loss": 0.9267, "step": 11694 }, { "epoch": 3.0237333333333334, "grad_norm": 0.02520737331639218, "learning_rate": 0.0001, "loss": 0.9615, "step": 11695 }, { "epoch": 3.0237866666666666, "grad_norm": 0.025772951675256003, "learning_rate": 0.0001, "loss": 1.0081, "step": 11696 }, { "epoch": 3.02384, "grad_norm": 0.02353809608684032, "learning_rate": 0.0001, "loss": 0.9297, "step": 11697 }, { "epoch": 3.0238933333333335, "grad_norm": 0.02466201162397859, "learning_rate": 0.0001, "loss": 0.9445, "step": 11698 }, { "epoch": 3.023946666666667, "grad_norm": 0.024735281901918166, "learning_rate": 0.0001, "loss": 1.0064, "step": 11699 }, { "epoch": 3.024, "grad_norm": 0.022798318095567854, "learning_rate": 0.0001, "loss": 0.9514, "step": 11700 }, { "epoch": 3.0240533333333333, "grad_norm": 0.022274895643132116, "learning_rate": 0.0001, "loss": 0.9328, "step": 11701 }, { "epoch": 3.0241066666666665, "grad_norm": 0.022965457321033955, "learning_rate": 0.0001, "loss": 0.9162, "step": 11702 }, { "epoch": 3.02416, "grad_norm": 0.026613516497909804, "learning_rate": 0.0001, "loss": 0.9723, "step": 11703 }, { "epoch": 3.0242133333333334, "grad_norm": 0.02297427569433572, "learning_rate": 0.0001, "loss": 0.9988, "step": 11704 }, { "epoch": 3.0242666666666667, "grad_norm": 0.021889008527181723, "learning_rate": 0.0001, "loss": 0.9151, "step": 11705 }, { "epoch": 3.02432, "grad_norm": 0.024347396252110607, "learning_rate": 0.0001, "loss": 0.9911, "step": 11706 }, { "epoch": 3.024373333333333, "grad_norm": 0.023264918603919986, "learning_rate": 0.0001, "loss": 0.9347, "step": 11707 }, { "epoch": 3.024426666666667, "grad_norm": 0.02457721265628841, "learning_rate": 0.0001, "loss": 0.9541, "step": 11708 }, { "epoch": 3.02448, "grad_norm": 0.02386343807121461, "learning_rate": 0.0001, "loss": 0.9795, "step": 11709 }, { "epoch": 3.0245333333333333, "grad_norm": 0.023817077242076875, "learning_rate": 0.0001, "loss": 0.8952, "step": 11710 }, { "epoch": 3.0245866666666665, "grad_norm": 0.024459556045191337, "learning_rate": 0.0001, "loss": 0.9589, "step": 11711 }, { "epoch": 3.02464, "grad_norm": 0.023052848926917675, "learning_rate": 0.0001, "loss": 0.997, "step": 11712 }, { "epoch": 3.0246933333333335, "grad_norm": 0.02303442609414603, "learning_rate": 0.0001, "loss": 0.9765, "step": 11713 }, { "epoch": 3.0247466666666667, "grad_norm": 0.023633893941193338, "learning_rate": 0.0001, "loss": 0.9867, "step": 11714 }, { "epoch": 3.0248, "grad_norm": 0.025786985083972723, "learning_rate": 0.0001, "loss": 0.9913, "step": 11715 }, { "epoch": 3.024853333333333, "grad_norm": 0.02496887388019882, "learning_rate": 0.0001, "loss": 0.9896, "step": 11716 }, { "epoch": 3.024906666666667, "grad_norm": 0.02397998596774744, "learning_rate": 0.0001, "loss": 0.9162, "step": 11717 }, { "epoch": 3.02496, "grad_norm": 0.023069861651749866, "learning_rate": 0.0001, "loss": 0.9693, "step": 11718 }, { "epoch": 3.0250133333333333, "grad_norm": 0.023163521192495394, "learning_rate": 0.0001, "loss": 1.0009, "step": 11719 }, { "epoch": 3.0250666666666666, "grad_norm": 0.023758700715283465, "learning_rate": 0.0001, "loss": 0.8922, "step": 11720 }, { "epoch": 3.02512, "grad_norm": 0.02343257368957068, "learning_rate": 0.0001, "loss": 0.9841, "step": 11721 }, { "epoch": 3.0251733333333335, "grad_norm": 0.02315035992120449, "learning_rate": 0.0001, "loss": 0.9487, "step": 11722 }, { "epoch": 3.0252266666666667, "grad_norm": 0.02296587918323169, "learning_rate": 0.0001, "loss": 0.9339, "step": 11723 }, { "epoch": 3.02528, "grad_norm": 0.026584500979166908, "learning_rate": 0.0001, "loss": 0.9823, "step": 11724 }, { "epoch": 3.025333333333333, "grad_norm": 0.023229924539681007, "learning_rate": 0.0001, "loss": 0.8987, "step": 11725 }, { "epoch": 3.0253866666666664, "grad_norm": 0.024830192165554807, "learning_rate": 0.0001, "loss": 0.943, "step": 11726 }, { "epoch": 3.02544, "grad_norm": 0.023002389790113518, "learning_rate": 0.0001, "loss": 0.978, "step": 11727 }, { "epoch": 3.0254933333333334, "grad_norm": 0.023489816537068567, "learning_rate": 0.0001, "loss": 1.0363, "step": 11728 }, { "epoch": 3.0255466666666666, "grad_norm": 0.025294913319204797, "learning_rate": 0.0001, "loss": 0.9785, "step": 11729 }, { "epoch": 3.0256, "grad_norm": 0.022388534775171706, "learning_rate": 0.0001, "loss": 0.9464, "step": 11730 }, { "epoch": 3.0256533333333335, "grad_norm": 0.023979870280224105, "learning_rate": 0.0001, "loss": 0.9046, "step": 11731 }, { "epoch": 3.0257066666666668, "grad_norm": 0.022186846825345396, "learning_rate": 0.0001, "loss": 0.9481, "step": 11732 }, { "epoch": 3.02576, "grad_norm": 0.02275456614161224, "learning_rate": 0.0001, "loss": 0.9221, "step": 11733 }, { "epoch": 3.0258133333333332, "grad_norm": 0.022538747772115647, "learning_rate": 0.0001, "loss": 1.0175, "step": 11734 }, { "epoch": 3.0258666666666665, "grad_norm": 0.02516117268577195, "learning_rate": 0.0001, "loss": 0.8962, "step": 11735 }, { "epoch": 3.02592, "grad_norm": 0.022984580170199876, "learning_rate": 0.0001, "loss": 0.96, "step": 11736 }, { "epoch": 3.0259733333333334, "grad_norm": 0.02405908497233139, "learning_rate": 0.0001, "loss": 0.9866, "step": 11737 }, { "epoch": 3.0260266666666666, "grad_norm": 0.02360053674021628, "learning_rate": 0.0001, "loss": 0.915, "step": 11738 }, { "epoch": 3.02608, "grad_norm": 0.023696071237823132, "learning_rate": 0.0001, "loss": 0.9456, "step": 11739 }, { "epoch": 3.026133333333333, "grad_norm": 0.023725774462302736, "learning_rate": 0.0001, "loss": 0.9639, "step": 11740 }, { "epoch": 3.026186666666667, "grad_norm": 0.02634823128654584, "learning_rate": 0.0001, "loss": 0.9918, "step": 11741 }, { "epoch": 3.02624, "grad_norm": 0.02298911126394776, "learning_rate": 0.0001, "loss": 0.9512, "step": 11742 }, { "epoch": 3.0262933333333333, "grad_norm": 0.023265870913492036, "learning_rate": 0.0001, "loss": 0.9462, "step": 11743 }, { "epoch": 3.0263466666666665, "grad_norm": 0.024228921445721096, "learning_rate": 0.0001, "loss": 0.9359, "step": 11744 }, { "epoch": 3.0264, "grad_norm": 0.02422688889963684, "learning_rate": 0.0001, "loss": 0.9376, "step": 11745 }, { "epoch": 3.0264533333333334, "grad_norm": 0.023420324226107188, "learning_rate": 0.0001, "loss": 0.9787, "step": 11746 }, { "epoch": 3.0265066666666667, "grad_norm": 0.024244443765296577, "learning_rate": 0.0001, "loss": 0.9866, "step": 11747 }, { "epoch": 3.02656, "grad_norm": 0.02368297039130338, "learning_rate": 0.0001, "loss": 0.994, "step": 11748 }, { "epoch": 3.026613333333333, "grad_norm": 0.02506898738299799, "learning_rate": 0.0001, "loss": 0.9675, "step": 11749 }, { "epoch": 3.026666666666667, "grad_norm": 0.02316431682067441, "learning_rate": 0.0001, "loss": 0.9452, "step": 11750 }, { "epoch": 3.02672, "grad_norm": 0.023725360904283586, "learning_rate": 0.0001, "loss": 0.9146, "step": 11751 }, { "epoch": 3.0267733333333333, "grad_norm": 0.02308897142615715, "learning_rate": 0.0001, "loss": 0.9426, "step": 11752 }, { "epoch": 3.0268266666666666, "grad_norm": 0.024766360352686735, "learning_rate": 0.0001, "loss": 0.9495, "step": 11753 }, { "epoch": 3.02688, "grad_norm": 0.023605632205477504, "learning_rate": 0.0001, "loss": 0.973, "step": 11754 }, { "epoch": 3.0269333333333335, "grad_norm": 0.02241986093075411, "learning_rate": 0.0001, "loss": 0.9615, "step": 11755 }, { "epoch": 3.0269866666666667, "grad_norm": 0.02464114753727375, "learning_rate": 0.0001, "loss": 0.9562, "step": 11756 }, { "epoch": 3.02704, "grad_norm": 0.023819110482217867, "learning_rate": 0.0001, "loss": 0.9811, "step": 11757 }, { "epoch": 3.027093333333333, "grad_norm": 0.025128424459167284, "learning_rate": 0.0001, "loss": 0.9341, "step": 11758 }, { "epoch": 3.027146666666667, "grad_norm": 0.022323487838144668, "learning_rate": 0.0001, "loss": 0.9778, "step": 11759 }, { "epoch": 3.0272, "grad_norm": 0.02485591614573203, "learning_rate": 0.0001, "loss": 0.9475, "step": 11760 }, { "epoch": 3.0272533333333334, "grad_norm": 0.024550525759913865, "learning_rate": 0.0001, "loss": 0.9681, "step": 11761 }, { "epoch": 3.0273066666666666, "grad_norm": 0.02688461439082191, "learning_rate": 0.0001, "loss": 0.9431, "step": 11762 }, { "epoch": 3.02736, "grad_norm": 0.024397175418023803, "learning_rate": 0.0001, "loss": 0.9848, "step": 11763 }, { "epoch": 3.0274133333333335, "grad_norm": 0.02483594904786837, "learning_rate": 0.0001, "loss": 0.9192, "step": 11764 }, { "epoch": 3.0274666666666668, "grad_norm": 0.02437824790950923, "learning_rate": 0.0001, "loss": 0.9639, "step": 11765 }, { "epoch": 3.02752, "grad_norm": 0.025131148169486292, "learning_rate": 0.0001, "loss": 0.9014, "step": 11766 }, { "epoch": 3.0275733333333332, "grad_norm": 0.022996641956877797, "learning_rate": 0.0001, "loss": 0.9448, "step": 11767 }, { "epoch": 3.0276266666666665, "grad_norm": 0.026266655741495937, "learning_rate": 0.0001, "loss": 0.9983, "step": 11768 }, { "epoch": 3.02768, "grad_norm": 0.02299511298457818, "learning_rate": 0.0001, "loss": 0.9508, "step": 11769 }, { "epoch": 3.0277333333333334, "grad_norm": 0.024942087672444175, "learning_rate": 0.0001, "loss": 0.9936, "step": 11770 }, { "epoch": 3.0277866666666666, "grad_norm": 0.022685355111393034, "learning_rate": 0.0001, "loss": 0.9239, "step": 11771 }, { "epoch": 3.02784, "grad_norm": 0.023327722015401224, "learning_rate": 0.0001, "loss": 0.9496, "step": 11772 }, { "epoch": 3.0278933333333335, "grad_norm": 0.02505648553025367, "learning_rate": 0.0001, "loss": 0.9858, "step": 11773 }, { "epoch": 3.027946666666667, "grad_norm": 0.02270429722013617, "learning_rate": 0.0001, "loss": 0.8979, "step": 11774 }, { "epoch": 3.028, "grad_norm": 0.022117639583840235, "learning_rate": 0.0001, "loss": 0.9076, "step": 11775 }, { "epoch": 3.0280533333333333, "grad_norm": 0.023372114750048474, "learning_rate": 0.0001, "loss": 0.9907, "step": 11776 }, { "epoch": 3.0281066666666665, "grad_norm": 0.02325020205619472, "learning_rate": 0.0001, "loss": 0.9088, "step": 11777 }, { "epoch": 3.02816, "grad_norm": 0.023216045529274417, "learning_rate": 0.0001, "loss": 0.953, "step": 11778 }, { "epoch": 3.0282133333333334, "grad_norm": 0.024329276562749122, "learning_rate": 0.0001, "loss": 0.9927, "step": 11779 }, { "epoch": 3.0282666666666667, "grad_norm": 0.022725371627238058, "learning_rate": 0.0001, "loss": 0.931, "step": 11780 }, { "epoch": 3.02832, "grad_norm": 0.025101508371512284, "learning_rate": 0.0001, "loss": 0.971, "step": 11781 }, { "epoch": 3.028373333333333, "grad_norm": 0.025082811805524723, "learning_rate": 0.0001, "loss": 0.9488, "step": 11782 }, { "epoch": 3.028426666666667, "grad_norm": 0.023532368790128513, "learning_rate": 0.0001, "loss": 0.8998, "step": 11783 }, { "epoch": 3.02848, "grad_norm": 0.024847703641692583, "learning_rate": 0.0001, "loss": 0.9538, "step": 11784 }, { "epoch": 3.0285333333333333, "grad_norm": 0.023529951211408287, "learning_rate": 0.0001, "loss": 0.9604, "step": 11785 }, { "epoch": 3.0285866666666665, "grad_norm": 0.023373566363222558, "learning_rate": 0.0001, "loss": 0.9303, "step": 11786 }, { "epoch": 3.02864, "grad_norm": 0.02339352505339849, "learning_rate": 0.0001, "loss": 0.9996, "step": 11787 }, { "epoch": 3.0286933333333335, "grad_norm": 0.023556905686655326, "learning_rate": 0.0001, "loss": 0.9607, "step": 11788 }, { "epoch": 3.0287466666666667, "grad_norm": 0.024171957733226807, "learning_rate": 0.0001, "loss": 0.9702, "step": 11789 }, { "epoch": 3.0288, "grad_norm": 0.02328346295594373, "learning_rate": 0.0001, "loss": 0.9415, "step": 11790 }, { "epoch": 3.028853333333333, "grad_norm": 0.02394163027299237, "learning_rate": 0.0001, "loss": 0.9195, "step": 11791 }, { "epoch": 3.028906666666667, "grad_norm": 0.02402508686356912, "learning_rate": 0.0001, "loss": 0.956, "step": 11792 }, { "epoch": 3.02896, "grad_norm": 0.024910757088759325, "learning_rate": 0.0001, "loss": 0.9205, "step": 11793 }, { "epoch": 3.0290133333333333, "grad_norm": 0.025940236942946678, "learning_rate": 0.0001, "loss": 0.8979, "step": 11794 }, { "epoch": 3.0290666666666666, "grad_norm": 0.023680885658792762, "learning_rate": 0.0001, "loss": 0.9706, "step": 11795 }, { "epoch": 3.02912, "grad_norm": 0.02585229463989441, "learning_rate": 0.0001, "loss": 0.9619, "step": 11796 }, { "epoch": 3.0291733333333335, "grad_norm": 0.022998552186831812, "learning_rate": 0.0001, "loss": 0.945, "step": 11797 }, { "epoch": 3.0292266666666667, "grad_norm": 0.023645151694259778, "learning_rate": 0.0001, "loss": 0.9776, "step": 11798 }, { "epoch": 3.02928, "grad_norm": 0.024265512308730544, "learning_rate": 0.0001, "loss": 0.9559, "step": 11799 }, { "epoch": 3.029333333333333, "grad_norm": 0.025559329516461185, "learning_rate": 0.0001, "loss": 0.9635, "step": 11800 }, { "epoch": 3.029333333333333, "eval_accuracy": 0.6220997549149839, "eval_loss": 1.3440815210342407, "eval_runtime": 62.8576, "eval_samples_per_second": 15.909, "eval_steps_per_second": 0.509, "step": 11800 } ], "logging_steps": 1.0, "max_steps": 18750, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 200, "stateful_callbacks": { "EarlyStoppingCallback": { "args": { "early_stopping_patience": 5, "early_stopping_threshold": 0.0 }, "attributes": { "early_stopping_patience_counter": 0 } }, "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1.1454363644985344e+16, "train_batch_size": 1, "trial_name": null, "trial_params": null }