{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 3.0, "eval_steps": 500, "global_step": 4500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "entropy": 1.548675110936165, "epoch": 0.013333333333333334, "grad_norm": 6.004289150238037, "learning_rate": 1.688888888888889e-05, "loss": 3.992266082763672, "mean_token_accuracy": 0.4231670804321766, "num_tokens": 102186.0, "step": 20 }, { "entropy": 2.2785673171281813, "epoch": 0.02666666666666667, "grad_norm": 3.0929577350616455, "learning_rate": 3.466666666666667e-05, "loss": 2.8258544921875, "mean_token_accuracy": 0.5193272314965725, "num_tokens": 204333.0, "step": 40 }, { "entropy": 1.6070524707436562, "epoch": 0.04, "grad_norm": 2.344675302505493, "learning_rate": 5.244444444444445e-05, "loss": 1.4720239639282227, "mean_token_accuracy": 0.7221725225448609, "num_tokens": 306198.0, "step": 60 }, { "entropy": 0.4960472501814365, "epoch": 0.05333333333333334, "grad_norm": 2.080559730529785, "learning_rate": 7.022222222222222e-05, "loss": 0.4806540012359619, "mean_token_accuracy": 0.9012673273682594, "num_tokens": 408035.0, "step": 80 }, { "entropy": 0.1692034611478448, "epoch": 0.06666666666666667, "grad_norm": 1.5278408527374268, "learning_rate": 8.800000000000001e-05, "loss": 0.1592921018600464, "mean_token_accuracy": 0.9599622413516045, "num_tokens": 509962.0, "step": 100 }, { "entropy": 0.11861470770090818, "epoch": 0.08, "grad_norm": 0.999698281288147, "learning_rate": 0.00010577777777777777, "loss": 0.11052950620651245, "mean_token_accuracy": 0.9685859054327011, "num_tokens": 611562.0, "step": 120 }, { "entropy": 0.1036016432568431, "epoch": 0.09333333333333334, "grad_norm": 0.9115886092185974, "learning_rate": 0.00012355555555555557, "loss": 0.0914052426815033, "mean_token_accuracy": 0.9704682394862175, "num_tokens": 713684.0, "step": 140 }, { "entropy": 0.09701150320470334, "epoch": 0.10666666666666667, "grad_norm": 0.6500758528709412, "learning_rate": 0.00014133333333333334, "loss": 0.08168401718139648, "mean_token_accuracy": 0.9728480890393257, "num_tokens": 815728.0, "step": 160 }, { "entropy": 0.0902867017313838, "epoch": 0.12, "grad_norm": 0.4816068112850189, "learning_rate": 0.00015911111111111112, "loss": 0.0673690140247345, "mean_token_accuracy": 0.9743824899196625, "num_tokens": 917588.0, "step": 180 }, { "entropy": 0.07180177625268698, "epoch": 0.13333333333333333, "grad_norm": 0.42101994156837463, "learning_rate": 0.0001768888888888889, "loss": 0.05838126540184021, "mean_token_accuracy": 0.975058288872242, "num_tokens": 1020041.0, "step": 200 }, { "entropy": 0.06279958104714752, "epoch": 0.14666666666666667, "grad_norm": 0.41531553864479065, "learning_rate": 0.0001946666666666667, "loss": 0.05505728721618652, "mean_token_accuracy": 0.976372754573822, "num_tokens": 1121933.0, "step": 220 }, { "entropy": 0.05904992977157235, "epoch": 0.16, "grad_norm": 0.5666757822036743, "learning_rate": 0.00019999470763544457, "loss": 0.052491378784179685, "mean_token_accuracy": 0.9762984499335289, "num_tokens": 1223670.0, "step": 240 }, { "entropy": 0.05695097530260682, "epoch": 0.17333333333333334, "grad_norm": 0.39107683300971985, "learning_rate": 0.00019996878719840213, "loss": 0.05221613645553589, "mean_token_accuracy": 0.9769444420933724, "num_tokens": 1325903.0, "step": 260 }, { "entropy": 0.05454709641635418, "epoch": 0.18666666666666668, "grad_norm": 0.2881831228733063, "learning_rate": 0.00019992127221406275, "loss": 0.05105168223381042, "mean_token_accuracy": 0.9766697883605957, "num_tokens": 1427883.0, "step": 280 }, { "entropy": 0.05568597661331296, "epoch": 0.2, "grad_norm": 0.2969810962677002, "learning_rate": 0.00019985217294627577, "loss": 0.05190561413764953, "mean_token_accuracy": 0.9768449172377587, "num_tokens": 1529850.0, "step": 300 }, { "entropy": 0.05605392120778561, "epoch": 0.21333333333333335, "grad_norm": 0.39327648282051086, "learning_rate": 0.00019976150432137423, "loss": 0.05125090479850769, "mean_token_accuracy": 0.9767352715134621, "num_tokens": 1631796.0, "step": 320 }, { "entropy": 0.05631188191473484, "epoch": 0.22666666666666666, "grad_norm": 0.2569703757762909, "learning_rate": 0.00019964928592495045, "loss": 0.05136184692382813, "mean_token_accuracy": 0.9767047330737114, "num_tokens": 1733431.0, "step": 340 }, { "entropy": 0.054749509692192076, "epoch": 0.24, "grad_norm": 0.2503352761268616, "learning_rate": 0.00019951554199762526, "loss": 0.04927194118499756, "mean_token_accuracy": 0.9772127717733383, "num_tokens": 1835736.0, "step": 360 }, { "entropy": 0.053956403583288196, "epoch": 0.25333333333333335, "grad_norm": 0.26568838953971863, "learning_rate": 0.00019936030142981182, "loss": 0.04831983149051666, "mean_token_accuracy": 0.9772727772593498, "num_tokens": 1937395.0, "step": 380 }, { "entropy": 0.05297513753175735, "epoch": 0.26666666666666666, "grad_norm": 0.21782436966896057, "learning_rate": 0.00019918359775547489, "loss": 0.048703563213348386, "mean_token_accuracy": 0.9776117220520973, "num_tokens": 2039661.0, "step": 400 }, { "entropy": 0.05235615810379386, "epoch": 0.28, "grad_norm": 0.2456953078508377, "learning_rate": 0.00019898546914488697, "loss": 0.04742903709411621, "mean_token_accuracy": 0.9779680415987968, "num_tokens": 2141312.0, "step": 420 }, { "entropy": 0.05012538954615593, "epoch": 0.29333333333333333, "grad_norm": 0.17193332314491272, "learning_rate": 0.00019876595839638314, "loss": 0.04511936604976654, "mean_token_accuracy": 0.978802102804184, "num_tokens": 2243220.0, "step": 440 }, { "entropy": 0.050425101164728404, "epoch": 0.30666666666666664, "grad_norm": 0.19117344915866852, "learning_rate": 0.00019852511292711608, "loss": 0.04454375207424164, "mean_token_accuracy": 0.9793910697102547, "num_tokens": 2345110.0, "step": 460 }, { "entropy": 0.0502777012065053, "epoch": 0.32, "grad_norm": 0.1484805941581726, "learning_rate": 0.0001982629847628132, "loss": 0.045093965530395505, "mean_token_accuracy": 0.9782336875796318, "num_tokens": 2446814.0, "step": 480 }, { "entropy": 0.04916129466146231, "epoch": 0.3333333333333333, "grad_norm": 0.17659035325050354, "learning_rate": 0.0001979796305265386, "loss": 0.04536721706390381, "mean_token_accuracy": 0.9788262486457825, "num_tokens": 2548699.0, "step": 500 }, { "entropy": 0.04801498837769032, "epoch": 0.3466666666666667, "grad_norm": 0.18467392027378082, "learning_rate": 0.0001976751114264616, "loss": 0.04428495168685913, "mean_token_accuracy": 0.9791656643152237, "num_tokens": 2650925.0, "step": 520 }, { "entropy": 0.04973381711170077, "epoch": 0.36, "grad_norm": 0.22871969640254974, "learning_rate": 0.0001973494932426351, "loss": 0.04659122526645661, "mean_token_accuracy": 0.9777900949120522, "num_tokens": 2753152.0, "step": 540 }, { "entropy": 0.050069388933479786, "epoch": 0.37333333333333335, "grad_norm": 0.14215655624866486, "learning_rate": 0.00019700284631278623, "loss": 0.04543479979038238, "mean_token_accuracy": 0.9784642964601517, "num_tokens": 2855157.0, "step": 560 }, { "entropy": 0.048892225697636606, "epoch": 0.38666666666666666, "grad_norm": 0.14485321938991547, "learning_rate": 0.00019663524551712236, "loss": 0.043998023867607115, "mean_token_accuracy": 0.9789358124136924, "num_tokens": 2957430.0, "step": 580 }, { "entropy": 0.049546369817107916, "epoch": 0.4, "grad_norm": 0.1522541642189026, "learning_rate": 0.0001962467702621562, "loss": 0.04526585042476654, "mean_token_accuracy": 0.9789461970329285, "num_tokens": 3059857.0, "step": 600 }, { "entropy": 0.048749705869704486, "epoch": 0.41333333333333333, "grad_norm": 0.14776450395584106, "learning_rate": 0.00019583750446355286, "loss": 0.04488187730312347, "mean_token_accuracy": 0.9790951684117317, "num_tokens": 3161377.0, "step": 620 }, { "entropy": 0.04819442732259631, "epoch": 0.4266666666666667, "grad_norm": 0.155587837100029, "learning_rate": 0.000195407536528003, "loss": 0.04454294443130493, "mean_token_accuracy": 0.9792696803808212, "num_tokens": 3263597.0, "step": 640 }, { "entropy": 0.048739112261682746, "epoch": 0.44, "grad_norm": 0.24131548404693604, "learning_rate": 0.0001949569593341258, "loss": 0.04449517726898193, "mean_token_accuracy": 0.9789462149143219, "num_tokens": 3365773.0, "step": 660 }, { "entropy": 0.04729501772671938, "epoch": 0.4533333333333333, "grad_norm": 0.16851578652858734, "learning_rate": 0.00019448587021240611, "loss": 0.0436316579580307, "mean_token_accuracy": 0.9790461182594299, "num_tokens": 3467719.0, "step": 680 }, { "entropy": 0.048864346370100974, "epoch": 0.4666666666666667, "grad_norm": 0.17274609208106995, "learning_rate": 0.00019399437092416967, "loss": 0.04535620212554932, "mean_token_accuracy": 0.9788791447877884, "num_tokens": 3569559.0, "step": 700 }, { "entropy": 0.04898029724135995, "epoch": 0.48, "grad_norm": 0.13499416410923004, "learning_rate": 0.00019348256763960145, "loss": 0.045434945821762086, "mean_token_accuracy": 0.9788094267249108, "num_tokens": 3671491.0, "step": 720 }, { "entropy": 0.04580554729327559, "epoch": 0.49333333333333335, "grad_norm": 0.12506447732448578, "learning_rate": 0.00019295057091481147, "loss": 0.04356709420681, "mean_token_accuracy": 0.9791021943092346, "num_tokens": 3773051.0, "step": 740 }, { "entropy": 0.047521025873720646, "epoch": 0.5066666666666667, "grad_norm": 0.121482253074646, "learning_rate": 0.00019239849566795323, "loss": 0.044592976570129395, "mean_token_accuracy": 0.9786569505929947, "num_tokens": 3875663.0, "step": 760 }, { "entropy": 0.045532725658267735, "epoch": 0.52, "grad_norm": 0.13711974024772644, "learning_rate": 0.00019182646115439996, "loss": 0.042892631888389585, "mean_token_accuracy": 0.979731023311615, "num_tokens": 3977742.0, "step": 780 }, { "entropy": 0.04748789621517062, "epoch": 0.5333333333333333, "grad_norm": 0.126457080245018, "learning_rate": 0.00019123459094098398, "loss": 0.04508825838565826, "mean_token_accuracy": 0.9783048242330551, "num_tokens": 4079943.0, "step": 800 }, { "entropy": 0.045889181550592184, "epoch": 0.5466666666666666, "grad_norm": 0.12796172499656677, "learning_rate": 0.00019062301287930446, "loss": 0.04326332211494446, "mean_token_accuracy": 0.979296863079071, "num_tokens": 4181963.0, "step": 820 }, { "entropy": 0.045128315966576335, "epoch": 0.56, "grad_norm": 0.0813562199473381, "learning_rate": 0.00018999185907811009, "loss": 0.04314403533935547, "mean_token_accuracy": 0.9794226452708245, "num_tokens": 4283940.0, "step": 840 }, { "entropy": 0.04633188545703888, "epoch": 0.5733333333333334, "grad_norm": 0.13212576508522034, "learning_rate": 0.00018934126587476162, "loss": 0.04438722729682922, "mean_token_accuracy": 0.9792284339666366, "num_tokens": 4386033.0, "step": 860 }, { "entropy": 0.046954588033258915, "epoch": 0.5866666666666667, "grad_norm": 0.24543477594852448, "learning_rate": 0.0001886713738057815, "loss": 0.04496486783027649, "mean_token_accuracy": 0.978602097928524, "num_tokens": 4488033.0, "step": 880 }, { "entropy": 0.047627194225788115, "epoch": 0.6, "grad_norm": 0.15973004698753357, "learning_rate": 0.000187982327576496, "loss": 0.0447381466627121, "mean_token_accuracy": 0.978855662047863, "num_tokens": 4590393.0, "step": 900 }, { "entropy": 0.049009975790977475, "epoch": 0.6133333333333333, "grad_norm": 0.4588961899280548, "learning_rate": 0.000187274276029777, "loss": 0.04679847955703735, "mean_token_accuracy": 0.9788309365510941, "num_tokens": 4692314.0, "step": 920 }, { "entropy": 0.05283641302958131, "epoch": 0.6266666666666667, "grad_norm": 0.17900370061397552, "learning_rate": 0.00018654737211389004, "loss": 0.04886095821857452, "mean_token_accuracy": 0.9779917612671852, "num_tokens": 4794297.0, "step": 940 }, { "entropy": 0.05194324087351561, "epoch": 0.64, "grad_norm": 0.2685967683792114, "learning_rate": 0.00018580177284945566, "loss": 0.04925000071525574, "mean_token_accuracy": 0.9787736907601357, "num_tokens": 4896719.0, "step": 960 }, { "entropy": 0.04687528889626265, "epoch": 0.6533333333333333, "grad_norm": 0.3776164948940277, "learning_rate": 0.0001850376392955307, "loss": 0.04358056485652924, "mean_token_accuracy": 0.9792398914694787, "num_tokens": 4998801.0, "step": 980 }, { "entropy": 0.04969303589314222, "epoch": 0.6666666666666666, "grad_norm": 0.10363394021987915, "learning_rate": 0.00018425513651481747, "loss": 0.04642247259616852, "mean_token_accuracy": 0.9783516511321068, "num_tokens": 5100997.0, "step": 1000 }, { "entropy": 0.047921424824744464, "epoch": 0.68, "grad_norm": 0.1332525759935379, "learning_rate": 0.00018345443353800839, "loss": 0.04439827501773834, "mean_token_accuracy": 0.9791212469339371, "num_tokens": 5202682.0, "step": 1020 }, { "entropy": 0.047575213573873044, "epoch": 0.6933333333333334, "grad_norm": 0.08405883610248566, "learning_rate": 0.00018263570332727275, "loss": 0.043652302026748656, "mean_token_accuracy": 0.9786113709211349, "num_tokens": 5304249.0, "step": 1040 }, { "entropy": 0.04774442110210657, "epoch": 0.7066666666666667, "grad_norm": 0.09579049050807953, "learning_rate": 0.00018179912273889501, "loss": 0.043841779232025146, "mean_token_accuracy": 0.9791841998696327, "num_tokens": 5406457.0, "step": 1060 }, { "entropy": 0.04760089740157127, "epoch": 0.72, "grad_norm": 0.13812078535556793, "learning_rate": 0.00018094487248507127, "loss": 0.04469398260116577, "mean_token_accuracy": 0.9787818253040313, "num_tokens": 5508325.0, "step": 1080 }, { "entropy": 0.04628140116110444, "epoch": 0.7333333333333333, "grad_norm": 0.09030942618846893, "learning_rate": 0.00018007313709487334, "loss": 0.043077632784843445, "mean_token_accuracy": 0.9798856094479561, "num_tokens": 5609876.0, "step": 1100 }, { "entropy": 0.04589016325771809, "epoch": 0.7466666666666667, "grad_norm": 0.0854763314127922, "learning_rate": 0.00017918410487438805, "loss": 0.04384036958217621, "mean_token_accuracy": 0.9791762813925743, "num_tokens": 5712340.0, "step": 1120 }, { "entropy": 0.04689710335806012, "epoch": 0.76, "grad_norm": 0.10074414312839508, "learning_rate": 0.00017827796786604042, "loss": 0.04416438341140747, "mean_token_accuracy": 0.979088181257248, "num_tokens": 5814598.0, "step": 1140 }, { "entropy": 0.04654768798500299, "epoch": 0.7733333333333333, "grad_norm": 0.07522693276405334, "learning_rate": 0.0001773549218071105, "loss": 0.0432561069726944, "mean_token_accuracy": 0.9793283045291901, "num_tokens": 5916277.0, "step": 1160 }, { "entropy": 0.0449189274571836, "epoch": 0.7866666666666666, "grad_norm": 0.12037090212106705, "learning_rate": 0.00017641516608745114, "loss": 0.04267836213111877, "mean_token_accuracy": 0.9796097055077553, "num_tokens": 6018305.0, "step": 1180 }, { "entropy": 0.04518893817439675, "epoch": 0.8, "grad_norm": 0.15295696258544922, "learning_rate": 0.0001754589037064175, "loss": 0.04324706792831421, "mean_token_accuracy": 0.9793181642889977, "num_tokens": 6120161.0, "step": 1200 }, { "entropy": 0.0459614584222436, "epoch": 0.8133333333333334, "grad_norm": 0.10844975709915161, "learning_rate": 0.0001744863412290165, "loss": 0.04338730275630951, "mean_token_accuracy": 0.9787795886397361, "num_tokens": 6221926.0, "step": 1220 }, { "entropy": 0.04700327459722757, "epoch": 0.8266666666666667, "grad_norm": 0.12464659661054611, "learning_rate": 0.00017349768874128603, "loss": 0.04424178600311279, "mean_token_accuracy": 0.9791146576404571, "num_tokens": 6323994.0, "step": 1240 }, { "entropy": 0.045251396391540764, "epoch": 0.84, "grad_norm": 0.10585556924343109, "learning_rate": 0.00017249315980491373, "loss": 0.04233089089393616, "mean_token_accuracy": 0.980115057528019, "num_tokens": 6425801.0, "step": 1260 }, { "entropy": 0.04711138280108571, "epoch": 0.8533333333333334, "grad_norm": 0.10078904032707214, "learning_rate": 0.0001714729714111049, "loss": 0.043426957726478574, "mean_token_accuracy": 0.9791831955313682, "num_tokens": 6527510.0, "step": 1280 }, { "entropy": 0.04563735323026776, "epoch": 0.8666666666666667, "grad_norm": 0.10202273726463318, "learning_rate": 0.00017043734393370965, "loss": 0.043241679668426514, "mean_token_accuracy": 0.9791531518101693, "num_tokens": 6630052.0, "step": 1300 }, { "entropy": 0.04624767201021314, "epoch": 0.88, "grad_norm": 0.1017850786447525, "learning_rate": 0.0001693865010816192, "loss": 0.043641078472137454, "mean_token_accuracy": 0.9791532784700394, "num_tokens": 6732187.0, "step": 1320 }, { "entropy": 0.04555416237562895, "epoch": 0.8933333333333333, "grad_norm": 0.0906793549656868, "learning_rate": 0.00016832066985044195, "loss": 0.04301130175590515, "mean_token_accuracy": 0.9790184095501899, "num_tokens": 6834270.0, "step": 1340 }, { "entropy": 0.044891719426959756, "epoch": 0.9066666666666666, "grad_norm": 0.06667148321866989, "learning_rate": 0.00016724008047346947, "loss": 0.04192114770412445, "mean_token_accuracy": 0.9799642145633698, "num_tokens": 6936310.0, "step": 1360 }, { "entropy": 0.04586669374257326, "epoch": 0.92, "grad_norm": 0.12085918337106705, "learning_rate": 0.0001661449663719432, "loss": 0.04404585361480713, "mean_token_accuracy": 0.9786775410175323, "num_tokens": 7037928.0, "step": 1380 }, { "entropy": 0.04691507248207927, "epoch": 0.9333333333333333, "grad_norm": 0.09447435289621353, "learning_rate": 0.00016503556410463234, "loss": 0.04427667260169983, "mean_token_accuracy": 0.9788988634943963, "num_tokens": 7139966.0, "step": 1400 }, { "entropy": 0.04686050089076162, "epoch": 0.9466666666666667, "grad_norm": 0.07748451828956604, "learning_rate": 0.0001639121133167342, "loss": 0.043699628114700316, "mean_token_accuracy": 0.9789900943636894, "num_tokens": 7242243.0, "step": 1420 }, { "entropy": 0.04621442370116711, "epoch": 0.96, "grad_norm": 0.0875391811132431, "learning_rate": 0.0001627748566881077, "loss": 0.0435163140296936, "mean_token_accuracy": 0.9793973177671432, "num_tokens": 7344333.0, "step": 1440 }, { "entropy": 0.04617999196052551, "epoch": 0.9733333333333334, "grad_norm": 0.11651453375816345, "learning_rate": 0.00016162403988085147, "loss": 0.0438153475522995, "mean_token_accuracy": 0.9788163512945175, "num_tokens": 7446501.0, "step": 1460 }, { "entropy": 0.04541895473375916, "epoch": 0.9866666666666667, "grad_norm": 0.10714145004749298, "learning_rate": 0.0001604599114862375, "loss": 0.043173199892044066, "mean_token_accuracy": 0.9791891872882843, "num_tokens": 7548187.0, "step": 1480 }, { "entropy": 0.04610758051276207, "epoch": 1.0, "grad_norm": 0.1056915670633316, "learning_rate": 0.0001592827229710124, "loss": 0.04365978240966797, "mean_token_accuracy": 0.9787515595555305, "num_tokens": 7650185.0, "step": 1500 }, { "entropy": 0.04553080843761563, "epoch": 1.0133333333333334, "grad_norm": 0.08358001708984375, "learning_rate": 0.00015809272862307724, "loss": 0.04281379580497742, "mean_token_accuracy": 0.9787902727723121, "num_tokens": 7751822.0, "step": 1520 }, { "entropy": 0.04557240409776568, "epoch": 1.0266666666666666, "grad_norm": 0.0894247367978096, "learning_rate": 0.00015689018549655813, "loss": 0.043633687496185306, "mean_token_accuracy": 0.9793074056506157, "num_tokens": 7853924.0, "step": 1540 }, { "entropy": 0.04621814098209143, "epoch": 1.04, "grad_norm": 0.060622621327638626, "learning_rate": 0.00015567535335627916, "loss": 0.043806785345077516, "mean_token_accuracy": 0.9790619671344757, "num_tokens": 7955729.0, "step": 1560 }, { "entropy": 0.04529289873316884, "epoch": 1.0533333333333332, "grad_norm": 0.06778731197118759, "learning_rate": 0.0001544484946216499, "loss": 0.04349397122859955, "mean_token_accuracy": 0.9791216805577279, "num_tokens": 8057521.0, "step": 1580 }, { "entropy": 0.045565437898039816, "epoch": 1.0666666666666667, "grad_norm": 0.09741676598787308, "learning_rate": 0.00015320987430997939, "loss": 0.043324217200279236, "mean_token_accuracy": 0.9791115581989288, "num_tokens": 8159337.0, "step": 1600 }, { "entropy": 0.04597685588523746, "epoch": 1.08, "grad_norm": 0.09679801762104034, "learning_rate": 0.00015195975997922892, "loss": 0.04302051663398743, "mean_token_accuracy": 0.9793232962489128, "num_tokens": 8262074.0, "step": 1620 }, { "entropy": 0.04526777658611536, "epoch": 1.0933333333333333, "grad_norm": 0.10501035302877426, "learning_rate": 0.00015069842167021635, "loss": 0.043459060788154605, "mean_token_accuracy": 0.9790220081806182, "num_tokens": 8363286.0, "step": 1640 }, { "entropy": 0.04562727101147175, "epoch": 1.1066666666666667, "grad_norm": 0.07695911824703217, "learning_rate": 0.00014942613184828335, "loss": 0.04361176192760467, "mean_token_accuracy": 0.978962479531765, "num_tokens": 8464992.0, "step": 1660 }, { "entropy": 0.04388966728001833, "epoch": 1.12, "grad_norm": 0.10466761142015457, "learning_rate": 0.00014814316534443982, "loss": 0.04218283891677856, "mean_token_accuracy": 0.9791669443249702, "num_tokens": 8567083.0, "step": 1680 }, { "entropy": 0.04554249225184322, "epoch": 1.1333333333333333, "grad_norm": 0.07236190885305405, "learning_rate": 0.0001468497992959965, "loss": 0.043398627638816835, "mean_token_accuracy": 0.9791699111461639, "num_tokens": 8669135.0, "step": 1700 }, { "entropy": 0.043595219124108554, "epoch": 1.1466666666666667, "grad_norm": 0.06271807104349136, "learning_rate": 0.00014554631308669994, "loss": 0.042030200362205505, "mean_token_accuracy": 0.979636350274086, "num_tokens": 8771085.0, "step": 1720 }, { "entropy": 0.04456626381725073, "epoch": 1.16, "grad_norm": 0.11451169848442078, "learning_rate": 0.00014423298828638195, "loss": 0.04222625195980072, "mean_token_accuracy": 0.9794944658875465, "num_tokens": 8873283.0, "step": 1740 }, { "entropy": 0.04446439165621996, "epoch": 1.1733333333333333, "grad_norm": 0.1023312583565712, "learning_rate": 0.00014291010859013688, "loss": 0.04255003333091736, "mean_token_accuracy": 0.979724471271038, "num_tokens": 8975472.0, "step": 1760 }, { "entropy": 0.04486837210133672, "epoch": 1.1866666666666668, "grad_norm": 0.10332223773002625, "learning_rate": 0.00014157795975703986, "loss": 0.04269057214260101, "mean_token_accuracy": 0.9796782404184341, "num_tokens": 9078026.0, "step": 1780 }, { "entropy": 0.04620604543015361, "epoch": 1.2, "grad_norm": 0.06070537120103836, "learning_rate": 0.00014023682954841907, "loss": 0.044662383198738095, "mean_token_accuracy": 0.9784179985523224, "num_tokens": 9180444.0, "step": 1800 }, { "entropy": 0.04559714160859585, "epoch": 1.2133333333333334, "grad_norm": 0.18560439348220825, "learning_rate": 0.00013888700766569566, "loss": 0.04349713623523712, "mean_token_accuracy": 0.9794085487723351, "num_tokens": 9282562.0, "step": 1820 }, { "entropy": 0.0467754821293056, "epoch": 1.2266666666666666, "grad_norm": 0.08615751564502716, "learning_rate": 0.00013752878568780446, "loss": 0.04393337666988373, "mean_token_accuracy": 0.97873145788908, "num_tokens": 9384267.0, "step": 1840 }, { "entropy": 0.04674078449606896, "epoch": 1.24, "grad_norm": 0.1094692274928093, "learning_rate": 0.00013616245700820922, "loss": 0.04425840079784393, "mean_token_accuracy": 0.9783810645341873, "num_tokens": 9486293.0, "step": 1860 }, { "entropy": 0.04517263481393456, "epoch": 1.2533333333333334, "grad_norm": 0.0624544620513916, "learning_rate": 0.0001347883167715258, "loss": 0.04288272559642792, "mean_token_accuracy": 0.9790759727358818, "num_tokens": 9587687.0, "step": 1880 }, { "entropy": 0.045213503576815126, "epoch": 1.2666666666666666, "grad_norm": 0.1179802417755127, "learning_rate": 0.00013340666180976712, "loss": 0.04305934309959412, "mean_token_accuracy": 0.9792578309774399, "num_tokens": 9689568.0, "step": 1900 }, { "entropy": 0.04414475904777646, "epoch": 1.28, "grad_norm": 0.10094133019447327, "learning_rate": 0.0001320177905782236, "loss": 0.04242780804634094, "mean_token_accuracy": 0.9795284524559975, "num_tokens": 9791805.0, "step": 1920 }, { "entropy": 0.04556956263259053, "epoch": 1.2933333333333334, "grad_norm": 0.07614333927631378, "learning_rate": 0.0001306220030909931, "loss": 0.043446135520935056, "mean_token_accuracy": 0.9790474250912666, "num_tokens": 9893871.0, "step": 1940 }, { "entropy": 0.04372665649279952, "epoch": 1.3066666666666666, "grad_norm": 0.09622333198785782, "learning_rate": 0.00012921960085617373, "loss": 0.04184481799602509, "mean_token_accuracy": 0.979928120970726, "num_tokens": 9995743.0, "step": 1960 }, { "entropy": 0.04449463188648224, "epoch": 1.32, "grad_norm": 0.08018497377634048, "learning_rate": 0.0001278108868107346, "loss": 0.043444639444351195, "mean_token_accuracy": 0.979103796184063, "num_tokens": 10097341.0, "step": 1980 }, { "entropy": 0.04594048615545034, "epoch": 1.3333333333333333, "grad_norm": 0.08098988234996796, "learning_rate": 0.00012639616525507717, "loss": 0.04326811134815216, "mean_token_accuracy": 0.9793805435299874, "num_tokens": 10199817.0, "step": 2000 }, { "entropy": 0.044195070117712024, "epoch": 1.3466666666666667, "grad_norm": 0.07928124070167542, "learning_rate": 0.00012497574178730266, "loss": 0.04292008876800537, "mean_token_accuracy": 0.979155270755291, "num_tokens": 10301704.0, "step": 2020 }, { "entropy": 0.04565720958635211, "epoch": 1.3599999999999999, "grad_norm": 0.07645630836486816, "learning_rate": 0.00012354992323719877, "loss": 0.04377688765525818, "mean_token_accuracy": 0.9790802374482155, "num_tokens": 10404032.0, "step": 2040 }, { "entropy": 0.044813665375113484, "epoch": 1.3733333333333333, "grad_norm": 0.0589720793068409, "learning_rate": 0.0001221190175999606, "loss": 0.04262206256389618, "mean_token_accuracy": 0.9795415893197059, "num_tokens": 10505610.0, "step": 2060 }, { "entropy": 0.04555217456072569, "epoch": 1.3866666666666667, "grad_norm": 0.11566988378763199, "learning_rate": 0.00012068333396965968, "loss": 0.04380977749824524, "mean_token_accuracy": 0.9788099125027656, "num_tokens": 10606782.0, "step": 2080 }, { "entropy": 0.04532764628529549, "epoch": 1.4, "grad_norm": 0.086255744099617, "learning_rate": 0.00011924318247247568, "loss": 0.04329647421836853, "mean_token_accuracy": 0.9791126802563668, "num_tokens": 10708263.0, "step": 2100 }, { "entropy": 0.04514106567949057, "epoch": 1.4133333333333333, "grad_norm": 0.06086282059550285, "learning_rate": 0.00011779887419970512, "loss": 0.04245937764644623, "mean_token_accuracy": 0.9797914355993271, "num_tokens": 10810300.0, "step": 2120 }, { "entropy": 0.04454901767894626, "epoch": 1.4266666666666667, "grad_norm": 0.07433643192052841, "learning_rate": 0.00011635072114056162, "loss": 0.043132221698760985, "mean_token_accuracy": 0.9791502475738525, "num_tokens": 10912165.0, "step": 2140 }, { "entropy": 0.04529751744121313, "epoch": 1.44, "grad_norm": 0.13444772362709045, "learning_rate": 0.00011489903611478229, "loss": 0.043829315900802614, "mean_token_accuracy": 0.9784928604960441, "num_tokens": 11014107.0, "step": 2160 }, { "entropy": 0.045276003703474996, "epoch": 1.4533333333333334, "grad_norm": 0.06211255118250847, "learning_rate": 0.00011344413270505457, "loss": 0.04307844340801239, "mean_token_accuracy": 0.9793669879436493, "num_tokens": 11116149.0, "step": 2180 }, { "entropy": 0.04517210628837347, "epoch": 1.4666666666666668, "grad_norm": 0.07761016488075256, "learning_rate": 0.00011198632518927832, "loss": 0.04319383502006531, "mean_token_accuracy": 0.9791072577238082, "num_tokens": 11217550.0, "step": 2200 }, { "entropy": 0.043730517756193875, "epoch": 1.48, "grad_norm": 0.08502429723739624, "learning_rate": 0.00011052592847267781, "loss": 0.0423270434141159, "mean_token_accuracy": 0.9796715095639229, "num_tokens": 11319372.0, "step": 2220 }, { "entropy": 0.04452117690816522, "epoch": 1.4933333333333334, "grad_norm": 0.06671646982431412, "learning_rate": 0.00010906325801977804, "loss": 0.04296606779098511, "mean_token_accuracy": 0.9795390352606773, "num_tokens": 11421402.0, "step": 2240 }, { "entropy": 0.04468898214399815, "epoch": 1.5066666666666668, "grad_norm": 0.08121279627084732, "learning_rate": 0.00010759862978626031, "loss": 0.04153239727020264, "mean_token_accuracy": 0.9799500927329063, "num_tokens": 11523747.0, "step": 2260 }, { "entropy": 0.04545955043286085, "epoch": 1.52, "grad_norm": 0.05693936347961426, "learning_rate": 0.00010613236015071195, "loss": 0.04396485388278961, "mean_token_accuracy": 0.9788213685154915, "num_tokens": 11625877.0, "step": 2280 }, { "entropy": 0.046351166628301146, "epoch": 1.5333333333333332, "grad_norm": 0.09166613221168518, "learning_rate": 0.00010466476584628413, "loss": 0.043498843908309937, "mean_token_accuracy": 0.9791526988148689, "num_tokens": 11727555.0, "step": 2300 }, { "entropy": 0.045797071792185305, "epoch": 1.5466666666666666, "grad_norm": 0.0821656882762909, "learning_rate": 0.00010319616389227369, "loss": 0.043224507570266725, "mean_token_accuracy": 0.9792197465896606, "num_tokens": 11829191.0, "step": 2320 }, { "entropy": 0.0452940653078258, "epoch": 1.56, "grad_norm": 0.07786799967288971, "learning_rate": 0.00010172687152564273, "loss": 0.04384516477584839, "mean_token_accuracy": 0.9784497052431107, "num_tokens": 11931301.0, "step": 2340 }, { "entropy": 0.04483237583190203, "epoch": 1.5733333333333333, "grad_norm": 0.08482241630554199, "learning_rate": 0.00010025720613249136, "loss": 0.04273432493209839, "mean_token_accuracy": 0.9794994488358497, "num_tokens": 12033500.0, "step": 2360 }, { "entropy": 0.045613698475062844, "epoch": 1.5866666666666667, "grad_norm": 0.0863715335726738, "learning_rate": 9.878748517949829e-05, "loss": 0.04371984004974365, "mean_token_accuracy": 0.9791261553764343, "num_tokens": 12135440.0, "step": 2380 }, { "entropy": 0.04589881300926209, "epoch": 1.6, "grad_norm": 0.062190357595682144, "learning_rate": 9.731802614534383e-05, "loss": 0.04390855133533478, "mean_token_accuracy": 0.9788092419505119, "num_tokens": 12237789.0, "step": 2400 }, { "entropy": 0.04429604625329375, "epoch": 1.6133333333333333, "grad_norm": 0.06404758989810944, "learning_rate": 9.584914645213045e-05, "loss": 0.042604264616966245, "mean_token_accuracy": 0.9796271160244941, "num_tokens": 12339966.0, "step": 2420 }, { "entropy": 0.04499910678714514, "epoch": 1.6266666666666667, "grad_norm": 0.06570903211832047, "learning_rate": 9.438116339681545e-05, "loss": 0.04222431182861328, "mean_token_accuracy": 0.9794401109218598, "num_tokens": 12441867.0, "step": 2440 }, { "entropy": 0.04458219092339277, "epoch": 1.6400000000000001, "grad_norm": 0.06039030849933624, "learning_rate": 9.291439408267093e-05, "loss": 0.04276288151741028, "mean_token_accuracy": 0.9794755399227142, "num_tokens": 12544334.0, "step": 2460 }, { "entropy": 0.04523820038884878, "epoch": 1.6533333333333333, "grad_norm": 0.09730029851198196, "learning_rate": 9.144915535078509e-05, "loss": 0.043028077483177184, "mean_token_accuracy": 0.9791945442557335, "num_tokens": 12646733.0, "step": 2480 }, { "entropy": 0.04477119510993362, "epoch": 1.6666666666666665, "grad_norm": 0.0753539651632309, "learning_rate": 8.998576371162073e-05, "loss": 0.04317043125629425, "mean_token_accuracy": 0.9792640700936317, "num_tokens": 12748659.0, "step": 2500 }, { "entropy": 0.044788467884063723, "epoch": 1.6800000000000002, "grad_norm": 0.07562968134880066, "learning_rate": 8.852453527664466e-05, "loss": 0.04256285130977631, "mean_token_accuracy": 0.979301193356514, "num_tokens": 12850375.0, "step": 2520 }, { "entropy": 0.045563530456274745, "epoch": 1.6933333333333334, "grad_norm": 0.08481646329164505, "learning_rate": 8.706578569004392e-05, "loss": 0.043007442355155946, "mean_token_accuracy": 0.9794534996151925, "num_tokens": 12952926.0, "step": 2540 }, { "entropy": 0.04439763380214572, "epoch": 1.7066666666666666, "grad_norm": 0.07377834618091583, "learning_rate": 8.560983006054208e-05, "loss": 0.04233894348144531, "mean_token_accuracy": 0.9793659463524819, "num_tokens": 13055094.0, "step": 2560 }, { "entropy": 0.04448066912591457, "epoch": 1.72, "grad_norm": 0.06845632195472717, "learning_rate": 8.415698289333213e-05, "loss": 0.04230453968048096, "mean_token_accuracy": 0.9793373107910156, "num_tokens": 13157565.0, "step": 2580 }, { "entropy": 0.04516846965998411, "epoch": 1.7333333333333334, "grad_norm": 0.0826217532157898, "learning_rate": 8.270755802213896e-05, "loss": 0.043338698148727414, "mean_token_accuracy": 0.9791581705212593, "num_tokens": 13259373.0, "step": 2600 }, { "entropy": 0.045483655855059625, "epoch": 1.7466666666666666, "grad_norm": 0.09278784692287445, "learning_rate": 8.126186854142752e-05, "loss": 0.043374094367027285, "mean_token_accuracy": 0.9789844870567321, "num_tokens": 13361653.0, "step": 2620 }, { "entropy": 0.044713820703327654, "epoch": 1.76, "grad_norm": 0.06657784432172775, "learning_rate": 7.982022673877022e-05, "loss": 0.04237607717514038, "mean_token_accuracy": 0.9793095976114273, "num_tokens": 13463283.0, "step": 2640 }, { "entropy": 0.044877147488296035, "epoch": 1.7733333333333334, "grad_norm": 0.08266546577215195, "learning_rate": 7.838294402738875e-05, "loss": 0.04311709105968475, "mean_token_accuracy": 0.9791682615876198, "num_tokens": 13565428.0, "step": 2660 }, { "entropy": 0.04468537019565701, "epoch": 1.7866666666666666, "grad_norm": 0.07597433030605316, "learning_rate": 7.695033087888489e-05, "loss": 0.0424690306186676, "mean_token_accuracy": 0.9796170979738236, "num_tokens": 13667448.0, "step": 2680 }, { "entropy": 0.04455111119896173, "epoch": 1.8, "grad_norm": 0.06538581848144531, "learning_rate": 7.55226967561746e-05, "loss": 0.04193790853023529, "mean_token_accuracy": 0.9794035986065864, "num_tokens": 13769362.0, "step": 2700 }, { "entropy": 0.043454491440206765, "epoch": 1.8133333333333335, "grad_norm": 0.05730016157031059, "learning_rate": 7.410035004664011e-05, "loss": 0.04141553640365601, "mean_token_accuracy": 0.9800622522830963, "num_tokens": 13871782.0, "step": 2720 }, { "entropy": 0.044676115922629836, "epoch": 1.8266666666666667, "grad_norm": 0.04646085202693939, "learning_rate": 7.268359799551416e-05, "loss": 0.04284192621707916, "mean_token_accuracy": 0.9793128624558449, "num_tokens": 13973630.0, "step": 2740 }, { "entropy": 0.04494037302210927, "epoch": 1.8399999999999999, "grad_norm": 0.09230729192495346, "learning_rate": 7.12727466395112e-05, "loss": 0.043046200275421144, "mean_token_accuracy": 0.9793307974934577, "num_tokens": 14075906.0, "step": 2760 }, { "entropy": 0.045368336327373984, "epoch": 1.8533333333333335, "grad_norm": 0.04331463947892189, "learning_rate": 6.986810074071932e-05, "loss": 0.042864075303077696, "mean_token_accuracy": 0.978898110985756, "num_tokens": 14177856.0, "step": 2780 }, { "entropy": 0.04510376630350947, "epoch": 1.8666666666666667, "grad_norm": 0.09033851325511932, "learning_rate": 6.846996372076786e-05, "loss": 0.04259768426418305, "mean_token_accuracy": 0.9792723521590233, "num_tokens": 14280019.0, "step": 2800 }, { "entropy": 0.04520597280934453, "epoch": 1.88, "grad_norm": 0.04347246140241623, "learning_rate": 6.707863759528446e-05, "loss": 0.043121880292892455, "mean_token_accuracy": 0.9790245160460472, "num_tokens": 14382127.0, "step": 2820 }, { "entropy": 0.045137868728488684, "epoch": 1.8933333333333333, "grad_norm": 0.08444561064243317, "learning_rate": 6.569442290865564e-05, "loss": 0.042786693572998045, "mean_token_accuracy": 0.9794920086860657, "num_tokens": 14484156.0, "step": 2840 }, { "entropy": 0.0450214795768261, "epoch": 1.9066666666666667, "grad_norm": 0.06270349770784378, "learning_rate": 6.431761866910549e-05, "loss": 0.04266757369041443, "mean_token_accuracy": 0.9790657863020897, "num_tokens": 14586261.0, "step": 2860 }, { "entropy": 0.04571379153057933, "epoch": 1.92, "grad_norm": 0.059830646961927414, "learning_rate": 6.294852228410585e-05, "loss": 0.043165019154548644, "mean_token_accuracy": 0.9789528846740723, "num_tokens": 14688252.0, "step": 2880 }, { "entropy": 0.04564494509249926, "epoch": 1.9333333333333333, "grad_norm": 0.2881755828857422, "learning_rate": 6.158742949613263e-05, "loss": 0.042789730429649356, "mean_token_accuracy": 0.9789565414190292, "num_tokens": 14790706.0, "step": 2900 }, { "entropy": 0.04481498738750815, "epoch": 1.9466666666666668, "grad_norm": 0.0739307701587677, "learning_rate": 6.023463431878159e-05, "loss": 0.04184747338294983, "mean_token_accuracy": 0.9795544907450676, "num_tokens": 14892667.0, "step": 2920 }, { "entropy": 0.045400716736912726, "epoch": 1.96, "grad_norm": 0.0694345086812973, "learning_rate": 5.889042897325755e-05, "loss": 0.04274559020996094, "mean_token_accuracy": 0.9791734784841537, "num_tokens": 14994588.0, "step": 2940 }, { "entropy": 0.045871376898139714, "epoch": 1.9733333333333334, "grad_norm": 0.06866899877786636, "learning_rate": 5.7555103825250914e-05, "loss": 0.043129801750183105, "mean_token_accuracy": 0.979410058259964, "num_tokens": 15096814.0, "step": 2960 }, { "entropy": 0.04594316426664591, "epoch": 1.9866666666666668, "grad_norm": 0.07196313887834549, "learning_rate": 5.622894732221482e-05, "loss": 0.04333162605762482, "mean_token_accuracy": 0.9789909616112709, "num_tokens": 15198781.0, "step": 2980 }, { "entropy": 0.046280243806540965, "epoch": 2.0, "grad_norm": 0.07306694984436035, "learning_rate": 5.491224593105695e-05, "loss": 0.04286535978317261, "mean_token_accuracy": 0.9792644336819649, "num_tokens": 15300370.0, "step": 3000 }, { "entropy": 0.044749976880848405, "epoch": 2.013333333333333, "grad_norm": 0.06247550994157791, "learning_rate": 5.360528407625873e-05, "loss": 0.04155576527118683, "mean_token_accuracy": 0.979676017165184, "num_tokens": 15402333.0, "step": 3020 }, { "entropy": 0.045135741028934716, "epoch": 2.026666666666667, "grad_norm": 0.09815753251314163, "learning_rate": 5.2308344078436344e-05, "loss": 0.042350149154663085, "mean_token_accuracy": 0.979559974372387, "num_tokens": 15504158.0, "step": 3040 }, { "entropy": 0.045068098604679106, "epoch": 2.04, "grad_norm": 0.09551538527011871, "learning_rate": 5.1021706093355414e-05, "loss": 0.04268674254417419, "mean_token_accuracy": 0.9792046830058098, "num_tokens": 15605979.0, "step": 3060 }, { "entropy": 0.0467217774130404, "epoch": 2.0533333333333332, "grad_norm": 0.0750860869884491, "learning_rate": 4.974564805141405e-05, "loss": 0.04325474202632904, "mean_token_accuracy": 0.9788183540105819, "num_tokens": 15708226.0, "step": 3080 }, { "entropy": 0.045709628332406285, "epoch": 2.066666666666667, "grad_norm": 0.08207862824201584, "learning_rate": 4.848044559760624e-05, "loss": 0.043493375182151794, "mean_token_accuracy": 0.9793010488152504, "num_tokens": 15810035.0, "step": 3100 }, { "entropy": 0.04442885173484683, "epoch": 2.08, "grad_norm": 0.06018839031457901, "learning_rate": 4.7226372031978735e-05, "loss": 0.0418207585811615, "mean_token_accuracy": 0.9797791764140129, "num_tokens": 15912192.0, "step": 3120 }, { "entropy": 0.046121115796267986, "epoch": 2.0933333333333333, "grad_norm": 0.06739337742328644, "learning_rate": 4.598369825059522e-05, "loss": 0.04348099529743195, "mean_token_accuracy": 0.9789452716708184, "num_tokens": 16013752.0, "step": 3140 }, { "entropy": 0.04560723854228854, "epoch": 2.1066666666666665, "grad_norm": 0.05784814432263374, "learning_rate": 4.475269268701868e-05, "loss": 0.04268187880516052, "mean_token_accuracy": 0.9791408717632294, "num_tokens": 16115637.0, "step": 3160 }, { "entropy": 0.045645091123878954, "epoch": 2.12, "grad_norm": 0.05607442185282707, "learning_rate": 4.353362125432674e-05, "loss": 0.042373275756835936, "mean_token_accuracy": 0.979694114625454, "num_tokens": 16217990.0, "step": 3180 }, { "entropy": 0.04457983383908868, "epoch": 2.1333333333333333, "grad_norm": 0.09050878137350082, "learning_rate": 4.232674728767082e-05, "loss": 0.042291298508644104, "mean_token_accuracy": 0.9795105144381523, "num_tokens": 16319781.0, "step": 3200 }, { "entropy": 0.04519128203392029, "epoch": 2.1466666666666665, "grad_norm": 0.06114558130502701, "learning_rate": 4.113233148739224e-05, "loss": 0.04246037602424622, "mean_token_accuracy": 0.9795787811279297, "num_tokens": 16422036.0, "step": 3220 }, { "entropy": 0.045624539349228145, "epoch": 2.16, "grad_norm": 0.06515778601169586, "learning_rate": 3.9950631862707964e-05, "loss": 0.04316512644290924, "mean_token_accuracy": 0.9788484647870064, "num_tokens": 16524417.0, "step": 3240 }, { "entropy": 0.04569779820740223, "epoch": 2.1733333333333333, "grad_norm": 0.08130136877298355, "learning_rate": 3.8781903675976775e-05, "loss": 0.04316212832927704, "mean_token_accuracy": 0.9789097234606743, "num_tokens": 16626474.0, "step": 3260 }, { "entropy": 0.04466199018061161, "epoch": 2.1866666666666665, "grad_norm": 0.06522400677204132, "learning_rate": 3.762639938755974e-05, "loss": 0.04167875051498413, "mean_token_accuracy": 0.979556742310524, "num_tokens": 16728484.0, "step": 3280 }, { "entropy": 0.044957845285534856, "epoch": 2.2, "grad_norm": 0.07835223525762558, "learning_rate": 3.648436860128525e-05, "loss": 0.041939809918403625, "mean_token_accuracy": 0.9797166779637336, "num_tokens": 16830621.0, "step": 3300 }, { "entropy": 0.04469237914308906, "epoch": 2.2133333333333334, "grad_norm": 0.07076659053564072, "learning_rate": 3.535605801053147e-05, "loss": 0.04294973611831665, "mean_token_accuracy": 0.9787584990262985, "num_tokens": 16932449.0, "step": 3320 }, { "entropy": 0.044177047722041604, "epoch": 2.2266666666666666, "grad_norm": 0.0865534245967865, "learning_rate": 3.424171134493756e-05, "loss": 0.041136741638183594, "mean_token_accuracy": 0.9797752141952515, "num_tokens": 17034746.0, "step": 3340 }, { "entropy": 0.044158230628818275, "epoch": 2.24, "grad_norm": 0.09348734468221664, "learning_rate": 3.314156931775449e-05, "loss": 0.04184678792953491, "mean_token_accuracy": 0.979484710097313, "num_tokens": 17137032.0, "step": 3360 }, { "entropy": 0.04505048170685768, "epoch": 2.2533333333333334, "grad_norm": 0.04819338768720627, "learning_rate": 3.205586957384838e-05, "loss": 0.04278863370418549, "mean_token_accuracy": 0.9789488822221756, "num_tokens": 17238981.0, "step": 3380 }, { "entropy": 0.044143668562173846, "epoch": 2.2666666666666666, "grad_norm": 0.08243514597415924, "learning_rate": 3.09848466383657e-05, "loss": 0.04165869653224945, "mean_token_accuracy": 0.9797174796462059, "num_tokens": 17341204.0, "step": 3400 }, { "entropy": 0.04463189765810967, "epoch": 2.2800000000000002, "grad_norm": 0.06700066477060318, "learning_rate": 2.9928731866073135e-05, "loss": 0.041824132204055786, "mean_token_accuracy": 0.9796530723571777, "num_tokens": 17443109.0, "step": 3420 }, { "entropy": 0.044507946353405714, "epoch": 2.2933333333333334, "grad_norm": 0.059370577335357666, "learning_rate": 2.8887753391381924e-05, "loss": 0.04232283234596253, "mean_token_accuracy": 0.9795172438025475, "num_tokens": 17544670.0, "step": 3440 }, { "entropy": 0.04427545545622706, "epoch": 2.3066666666666666, "grad_norm": 0.08195611089468002, "learning_rate": 2.7862136079067646e-05, "loss": 0.042314866185188295, "mean_token_accuracy": 0.9798214435577393, "num_tokens": 17647059.0, "step": 3460 }, { "entropy": 0.04503831313923001, "epoch": 2.32, "grad_norm": 0.06154360994696617, "learning_rate": 2.6852101475696843e-05, "loss": 0.04239094257354736, "mean_token_accuracy": 0.979605621099472, "num_tokens": 17749005.0, "step": 3480 }, { "entropy": 0.04526049355044961, "epoch": 2.3333333333333335, "grad_norm": 0.07333716750144958, "learning_rate": 2.585786776176985e-05, "loss": 0.04255903661251068, "mean_token_accuracy": 0.9788812786340714, "num_tokens": 17851383.0, "step": 3500 }, { "entropy": 0.04530645264312625, "epoch": 2.3466666666666667, "grad_norm": 0.06190125271677971, "learning_rate": 2.487964970459118e-05, "loss": 0.042575931549072264, "mean_token_accuracy": 0.9791432306170463, "num_tokens": 17953577.0, "step": 3520 }, { "entropy": 0.04435355756431818, "epoch": 2.36, "grad_norm": 0.08465747535228729, "learning_rate": 2.3917658611876904e-05, "loss": 0.04138871431350708, "mean_token_accuracy": 0.9799614399671555, "num_tokens": 18055293.0, "step": 3540 }, { "entropy": 0.04456534581258893, "epoch": 2.3733333333333335, "grad_norm": 0.0772717297077179, "learning_rate": 2.297210228610952e-05, "loss": 0.04198825061321258, "mean_token_accuracy": 0.9794510439038276, "num_tokens": 18157289.0, "step": 3560 }, { "entropy": 0.04461102448403835, "epoch": 2.3866666666666667, "grad_norm": 0.08000056445598602, "learning_rate": 2.2043184979649933e-05, "loss": 0.041901758313179015, "mean_token_accuracy": 0.9796808436512947, "num_tokens": 18258778.0, "step": 3580 }, { "entropy": 0.04491544393822551, "epoch": 2.4, "grad_norm": 0.0720711350440979, "learning_rate": 2.1131107350616187e-05, "loss": 0.042588868737220766, "mean_token_accuracy": 0.9793313190340995, "num_tokens": 18360839.0, "step": 3600 }, { "entropy": 0.045493978820741174, "epoch": 2.413333333333333, "grad_norm": 0.09875239431858063, "learning_rate": 2.0236066419538934e-05, "loss": 0.04313438236713409, "mean_token_accuracy": 0.9793697372078896, "num_tokens": 18462252.0, "step": 3620 }, { "entropy": 0.04539180537685752, "epoch": 2.4266666666666667, "grad_norm": 0.04752529039978981, "learning_rate": 1.9358255526802303e-05, "loss": 0.041815349459648134, "mean_token_accuracy": 0.9794102787971497, "num_tokens": 18564453.0, "step": 3640 }, { "entropy": 0.044612882751971485, "epoch": 2.44, "grad_norm": 0.05158265680074692, "learning_rate": 1.8497864290879953e-05, "loss": 0.04235563278198242, "mean_token_accuracy": 0.9792704641819, "num_tokens": 18666497.0, "step": 3660 }, { "entropy": 0.045019051525741816, "epoch": 2.453333333333333, "grad_norm": 0.0648743286728859, "learning_rate": 1.7655078567375028e-05, "loss": 0.04204939901828766, "mean_token_accuracy": 0.9794104173779488, "num_tokens": 18768455.0, "step": 3680 }, { "entropy": 0.04469795366749167, "epoch": 2.466666666666667, "grad_norm": 0.05884250998497009, "learning_rate": 1.683008040887285e-05, "loss": 0.04209013283252716, "mean_token_accuracy": 0.9796774923801422, "num_tokens": 18870275.0, "step": 3700 }, { "entropy": 0.04474199656397104, "epoch": 2.48, "grad_norm": 0.051543645560741425, "learning_rate": 1.6023048025615405e-05, "loss": 0.04179444909095764, "mean_token_accuracy": 0.9795808404684067, "num_tokens": 18972156.0, "step": 3720 }, { "entropy": 0.04483764311298728, "epoch": 2.493333333333333, "grad_norm": 0.10630819946527481, "learning_rate": 1.5234155747005486e-05, "loss": 0.042180657386779785, "mean_token_accuracy": 0.9794986173510551, "num_tokens": 19074197.0, "step": 3740 }, { "entropy": 0.04558736402541399, "epoch": 2.506666666666667, "grad_norm": 0.08093755692243576, "learning_rate": 1.4463573983949341e-05, "loss": 0.04298904240131378, "mean_token_accuracy": 0.9790481492877007, "num_tokens": 19176367.0, "step": 3760 }, { "entropy": 0.04453156525269151, "epoch": 2.52, "grad_norm": 0.0727071687579155, "learning_rate": 1.3711469192045723e-05, "loss": 0.041091355681419375, "mean_token_accuracy": 0.9804318726062775, "num_tokens": 19278992.0, "step": 3780 }, { "entropy": 0.04554087147116661, "epoch": 2.533333333333333, "grad_norm": 0.0910055935382843, "learning_rate": 1.297800383562926e-05, "loss": 0.04345537126064301, "mean_token_accuracy": 0.9786257922649384, "num_tokens": 19380593.0, "step": 3800 }, { "entropy": 0.04596257032826543, "epoch": 2.546666666666667, "grad_norm": 0.0877053365111351, "learning_rate": 1.2263336352676235e-05, "loss": 0.04255788326263428, "mean_token_accuracy": 0.9795473828911782, "num_tokens": 19482278.0, "step": 3820 }, { "entropy": 0.044655687548220156, "epoch": 2.56, "grad_norm": 0.10276857763528824, "learning_rate": 1.1567621120579753e-05, "loss": 0.0418385773897171, "mean_token_accuracy": 0.9795376226305962, "num_tokens": 19584297.0, "step": 3840 }, { "entropy": 0.04575161607936025, "epoch": 2.5733333333333333, "grad_norm": 0.09059888869524002, "learning_rate": 1.089100842280234e-05, "loss": 0.042618009448051455, "mean_token_accuracy": 0.9796013042330742, "num_tokens": 19686257.0, "step": 3860 }, { "entropy": 0.04560979856178164, "epoch": 2.586666666666667, "grad_norm": 0.048925597220659256, "learning_rate": 1.0233644416412791e-05, "loss": 0.04292104840278625, "mean_token_accuracy": 0.9794995337724686, "num_tokens": 19788450.0, "step": 3880 }, { "entropy": 0.0455952113494277, "epoch": 2.6, "grad_norm": 0.048526402562856674, "learning_rate": 9.595671100514214e-06, "loss": 0.042637795209884644, "mean_token_accuracy": 0.9797911092638969, "num_tokens": 19890524.0, "step": 3900 }, { "entropy": 0.04548884928226471, "epoch": 2.6133333333333333, "grad_norm": 0.06042620167136192, "learning_rate": 8.977226285570606e-06, "loss": 0.04222815930843353, "mean_token_accuracy": 0.9794741749763489, "num_tokens": 19992209.0, "step": 3920 }, { "entropy": 0.045671455282717946, "epoch": 2.626666666666667, "grad_norm": 0.07702252268791199, "learning_rate": 8.378443563637828e-06, "loss": 0.042873308062553406, "mean_token_accuracy": 0.9794026196002961, "num_tokens": 20093703.0, "step": 3940 }, { "entropy": 0.04522231016308069, "epoch": 2.64, "grad_norm": 0.07133087515830994, "learning_rate": 7.799452279506125e-06, "loss": 0.042153152823448184, "mean_token_accuracy": 0.9797803938388825, "num_tokens": 20195947.0, "step": 3960 }, { "entropy": 0.04628952695056796, "epoch": 2.6533333333333333, "grad_norm": 0.06586236506700516, "learning_rate": 7.240377502759932e-06, "loss": 0.043617674708366395, "mean_token_accuracy": 0.9784920737147331, "num_tokens": 20298043.0, "step": 3980 }, { "entropy": 0.045405203476548195, "epoch": 2.6666666666666665, "grad_norm": 0.06839724630117416, "learning_rate": 6.70134000076118e-06, "loss": 0.04227378368377686, "mean_token_accuracy": 0.979735977947712, "num_tokens": 20399972.0, "step": 4000 }, { "entropy": 0.045020535588264465, "epoch": 2.68, "grad_norm": 0.07815848290920258, "learning_rate": 6.182456212562093e-06, "loss": 0.04192916452884674, "mean_token_accuracy": 0.9796771243214607, "num_tokens": 20501675.0, "step": 4020 }, { "entropy": 0.04609425235539675, "epoch": 2.6933333333333334, "grad_norm": 0.05290106683969498, "learning_rate": 5.68383822375278e-06, "loss": 0.042898637056350705, "mean_token_accuracy": 0.9792009994387627, "num_tokens": 20603651.0, "step": 4040 }, { "entropy": 0.0457917626015842, "epoch": 2.7066666666666666, "grad_norm": 0.0704483613371849, "learning_rate": 5.205593742249326e-06, "loss": 0.0423770546913147, "mean_token_accuracy": 0.9790433034300804, "num_tokens": 20705702.0, "step": 4060 }, { "entropy": 0.044912660401314496, "epoch": 2.7199999999999998, "grad_norm": 0.058434613049030304, "learning_rate": 4.747826075027506e-06, "loss": 0.04174522757530212, "mean_token_accuracy": 0.9795982718467713, "num_tokens": 20807336.0, "step": 4080 }, { "entropy": 0.045613402500748634, "epoch": 2.7333333333333334, "grad_norm": 0.08788046985864639, "learning_rate": 4.310634105807065e-06, "loss": 0.04344511330127716, "mean_token_accuracy": 0.9793641656637192, "num_tokens": 20909744.0, "step": 4100 }, { "entropy": 0.04498438341543078, "epoch": 2.7466666666666666, "grad_norm": 0.06054578721523285, "learning_rate": 3.894112273691697e-06, "loss": 0.041690278053283694, "mean_token_accuracy": 0.9799363717436791, "num_tokens": 21011520.0, "step": 4120 }, { "entropy": 0.04519799826666713, "epoch": 2.76, "grad_norm": 0.06741084903478622, "learning_rate": 3.4983505527688586e-06, "loss": 0.042607730627059935, "mean_token_accuracy": 0.979535199701786, "num_tokens": 21113638.0, "step": 4140 }, { "entropy": 0.04527061656117439, "epoch": 2.7733333333333334, "grad_norm": 0.053430285304784775, "learning_rate": 3.1234344326742657e-06, "loss": 0.04179522097110748, "mean_token_accuracy": 0.979697409272194, "num_tokens": 21215783.0, "step": 4160 }, { "entropy": 0.045730549935251476, "epoch": 2.7866666666666666, "grad_norm": 0.07262956351041794, "learning_rate": 2.7694449001250512e-06, "loss": 0.042841532826423646, "mean_token_accuracy": 0.9794132426381111, "num_tokens": 21317798.0, "step": 4180 }, { "entropy": 0.04552676072344184, "epoch": 2.8, "grad_norm": 0.06751976907253265, "learning_rate": 2.4364584214254695e-06, "loss": 0.04251702129840851, "mean_token_accuracy": 0.9793218955397606, "num_tokens": 21419787.0, "step": 4200 }, { "entropy": 0.045480293966829774, "epoch": 2.8133333333333335, "grad_norm": 0.0856935977935791, "learning_rate": 2.124546925949389e-06, "loss": 0.04228883981704712, "mean_token_accuracy": 0.9794924795627594, "num_tokens": 21521816.0, "step": 4220 }, { "entropy": 0.04522721925750375, "epoch": 2.8266666666666667, "grad_norm": 0.04721014201641083, "learning_rate": 1.8337777906023978e-06, "loss": 0.04205127358436585, "mean_token_accuracy": 0.9795928984880448, "num_tokens": 21623696.0, "step": 4240 }, { "entropy": 0.0451619129627943, "epoch": 2.84, "grad_norm": 0.06828150898218155, "learning_rate": 1.5642138252677019e-06, "loss": 0.041848546266555785, "mean_token_accuracy": 0.9796140640974045, "num_tokens": 21726066.0, "step": 4260 }, { "entropy": 0.04501318633556366, "epoch": 2.8533333333333335, "grad_norm": 0.08222071826457977, "learning_rate": 1.3159132592382772e-06, "loss": 0.04213366806507111, "mean_token_accuracy": 0.9795982599258423, "num_tokens": 21828178.0, "step": 4280 }, { "entropy": 0.0461537716910243, "epoch": 2.8666666666666667, "grad_norm": 0.0802520290017128, "learning_rate": 1.0889297286386102e-06, "loss": 0.04323468208312988, "mean_token_accuracy": 0.9791506737470627, "num_tokens": 21929963.0, "step": 4300 }, { "entropy": 0.04528212863951921, "epoch": 2.88, "grad_norm": 0.08974730968475342, "learning_rate": 8.833122648386871e-07, "loss": 0.042816996574401855, "mean_token_accuracy": 0.9789806365966797, "num_tokens": 22032092.0, "step": 4320 }, { "entropy": 0.045245842542499304, "epoch": 2.8933333333333335, "grad_norm": 0.05283057317137718, "learning_rate": 6.991052838624113e-07, "loss": 0.04174770712852478, "mean_token_accuracy": 0.9798634141683579, "num_tokens": 22134281.0, "step": 4340 }, { "entropy": 0.045284852758049964, "epoch": 2.9066666666666667, "grad_norm": 0.0722041130065918, "learning_rate": 5.363485767933663e-07, "loss": 0.041790124773979184, "mean_token_accuracy": 0.979168464243412, "num_tokens": 22236085.0, "step": 4360 }, { "entropy": 0.04504124140366912, "epoch": 2.92, "grad_norm": 0.06595401465892792, "learning_rate": 3.9507730117926967e-07, "loss": 0.04146735072135925, "mean_token_accuracy": 0.9801181107759476, "num_tokens": 22338053.0, "step": 4380 }, { "entropy": 0.04522117590531707, "epoch": 2.9333333333333336, "grad_norm": 0.06364521384239197, "learning_rate": 2.7532197343758115e-07, "loss": 0.04191155731678009, "mean_token_accuracy": 0.9794103637337684, "num_tokens": 22440208.0, "step": 4400 }, { "entropy": 0.045472448039799926, "epoch": 2.9466666666666668, "grad_norm": 0.0597660131752491, "learning_rate": 1.7710846226355328e-07, "loss": 0.04289998710155487, "mean_token_accuracy": 0.9792811706662178, "num_tokens": 22542219.0, "step": 4420 }, { "entropy": 0.04583751475438476, "epoch": 2.96, "grad_norm": 0.08572968095541, "learning_rate": 1.0045798304220145e-07, "loss": 0.0427745521068573, "mean_token_accuracy": 0.9792221873998642, "num_tokens": 22644025.0, "step": 4440 }, { "entropy": 0.04562570815905929, "epoch": 2.9733333333333336, "grad_norm": 0.0797945037484169, "learning_rate": 4.5387093265591986e-08, "loss": 0.04286653101444245, "mean_token_accuracy": 0.9792360305786133, "num_tokens": 22745968.0, "step": 4460 }, { "entropy": 0.045168190728873014, "epoch": 2.986666666666667, "grad_norm": 0.07274357974529266, "learning_rate": 1.1907688956136477e-08, "loss": 0.04201154708862305, "mean_token_accuracy": 0.9799786448478699, "num_tokens": 22848205.0, "step": 4480 }, { "entropy": 0.045816550869494675, "epoch": 3.0, "grad_norm": 0.06689723581075668, "learning_rate": 2.70020969361795e-11, "loss": 0.042978566884994504, "mean_token_accuracy": 0.9794494539499283, "num_tokens": 22950555.0, "step": 4500 } ], "logging_steps": 20, "max_steps": 4500, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.5251560037074944e+16, "train_batch_size": 8, "trial_name": null, "trial_params": null }