NYXMed-V17-Model / training_metrics.json

Model save

c060c67 verified about 1 month ago

157 kB

	[
	{
	"step": 1405,
	"epoch": 0.3977634652133909,
	"wallclock": "2026-05-23T01:59:19.731727",
	"loss": 0.1505,
	"grad_norm": 0.860001266002655,
	"learning_rate": 9.27049077439764e-06
	},
	{
	"step": 1410,
	"epoch": 0.39917899355934605,
	"wallclock": "2026-05-23T02:01:12.843146",
	"loss": 0.137,
	"grad_norm": 0.8940677642822266,
	"learning_rate": 9.264517869578343e-06,
	"step_time_sec": 113.11
	},
	{
	"step": 1415,
	"epoch": 0.40059452190530115,
	"wallclock": "2026-05-23T02:03:05.328968",
	"loss": 0.1519,
	"grad_norm": 0.8663320541381836,
	"learning_rate": 9.258522553059383e-06,
	"step_time_sec": 112.49
	},
	{
	"step": 1420,
	"epoch": 0.4020100502512563,
	"wallclock": "2026-05-23T02:04:58.249080",
	"loss": 0.1329,
	"grad_norm": 0.8876581192016602,
	"learning_rate": 9.252504856348483e-06,
	"step_time_sec": 112.92
	},
	{
	"step": 1425,
	"epoch": 0.4034255785972114,
	"wallclock": "2026-05-23T02:06:50.925025",
	"loss": 0.1339,
	"grad_norm": 0.7425838708877563,
	"learning_rate": 9.246464811070978e-06,
	"step_time_sec": 112.68
	},
	{
	"step": 1430,
	"epoch": 0.40484110694316655,
	"wallclock": "2026-05-23T02:08:44.125444",
	"loss": 0.1263,
	"grad_norm": 0.8344400525093079,
	"learning_rate": 9.240402448969655e-06,
	"step_time_sec": 113.2
	},
	{
	"step": 1435,
	"epoch": 0.40625663528912165,
	"wallclock": "2026-05-23T02:10:37.926903",
	"loss": 0.1374,
	"grad_norm": 0.920082688331604,
	"learning_rate": 9.234317801904584e-06,
	"step_time_sec": 113.8
	},
	{
	"step": 1440,
	"epoch": 0.4076721636350768,
	"wallclock": "2026-05-23T02:12:30.509342",
	"loss": 0.1522,
	"grad_norm": 0.9682347178459167,
	"learning_rate": 9.228210901852953e-06,
	"step_time_sec": 112.58
	},
	{
	"step": 1445,
	"epoch": 0.4090876919810319,
	"wallclock": "2026-05-23T02:14:22.744101",
	"loss": 0.1435,
	"grad_norm": 0.8033989667892456,
	"learning_rate": 9.222081780908894e-06,
	"step_time_sec": 112.23
	},
	{
	"step": 1450,
	"epoch": 0.41050322032698705,
	"wallclock": "2026-05-23T02:16:16.036698",
	"loss": 0.132,
	"grad_norm": 1.0462369918823242,
	"learning_rate": 9.215930471283323e-06,
	"step_time_sec": 113.29,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 64.34
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1455,
	"epoch": 0.4119187486729422,
	"wallclock": "2026-05-23T02:18:08.338694",
	"loss": 0.1657,
	"grad_norm": 2.268519401550293,
	"learning_rate": 9.209757005303761e-06,
	"step_time_sec": 112.3
	},
	{
	"step": 1460,
	"epoch": 0.4133342770188973,
	"wallclock": "2026-05-23T02:20:01.532146",
	"loss": 0.1165,
	"grad_norm": 0.7390187978744507,
	"learning_rate": 9.203561415414174e-06,
	"step_time_sec": 113.19
	},
	{
	"step": 1465,
	"epoch": 0.41474980536485245,
	"wallclock": "2026-05-23T02:21:55.232651",
	"loss": 0.12,
	"grad_norm": 0.884283721446991,
	"learning_rate": 9.197343734174798e-06,
	"step_time_sec": 113.7
	},
	{
	"step": 1470,
	"epoch": 0.41616533371080755,
	"wallclock": "2026-05-23T02:23:47.669724",
	"loss": 0.1227,
	"grad_norm": 0.7426964640617371,
	"learning_rate": 9.191103994261963e-06,
	"step_time_sec": 112.44
	},
	{
	"step": 1475,
	"epoch": 0.4175808620567627,
	"wallclock": "2026-05-23T02:25:40.551477",
	"loss": 0.1423,
	"grad_norm": 1.1171990633010864,
	"learning_rate": 9.184842228467929e-06,
	"step_time_sec": 112.88
	},
	{
	"step": 1480,
	"epoch": 0.4189963904027178,
	"wallclock": "2026-05-23T02:27:34.235355",
	"loss": 0.1356,
	"grad_norm": 1.0424611568450928,
	"learning_rate": 9.178558469700712e-06,
	"step_time_sec": 113.68
	},
	{
	"step": 1485,
	"epoch": 0.42041191874867295,
	"wallclock": "2026-05-23T02:29:26.581237",
	"loss": 0.1192,
	"grad_norm": 0.7916944026947021,
	"learning_rate": 9.172252750983904e-06,
	"step_time_sec": 112.35
	},
	{
	"step": 1490,
	"epoch": 0.42182744709462805,
	"wallclock": "2026-05-23T02:31:19.100873",
	"loss": 0.1178,
	"grad_norm": 0.6911448240280151,
	"learning_rate": 9.165925105456513e-06,
	"step_time_sec": 112.52
	},
	{
	"step": 1495,
	"epoch": 0.4232429754405832,
	"wallclock": "2026-05-23T02:33:12.432128",
	"loss": 0.1268,
	"grad_norm": 1.207095980644226,
	"learning_rate": 9.159575566372774e-06,
	"step_time_sec": 113.33
	},
	{
	"step": 1500,
	"epoch": 0.4246585037865383,
	"wallclock": "2026-05-23T02:35:05.236376",
	"loss": 0.1249,
	"grad_norm": 0.8602229952812195,
	"learning_rate": 9.153204167101984e-06,
	"step_time_sec": 112.8,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 65.95
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1500,
	"epoch": 0.4246585037865383,
	"wallclock": "2026-05-23T02:35:56.386847",
	"eval_loss": 0.14635811746120453,
	"eval_runtime": 51.064,
	"eval_samples_per_second": 4.896,
	"eval_steps_per_second": 1.234,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 65.95
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1505,
	"epoch": 0.42607403213249345,
	"wallclock": "2026-05-23T02:39:31.314975",
	"loss": 0.132,
	"grad_norm": 0.9033521413803101,
	"learning_rate": 9.146810941128326e-06,
	"step_time_sec": 266.08
	},
	{
	"step": 1510,
	"epoch": 0.4274895604784486,
	"wallclock": "2026-05-23T02:41:24.639692",
	"loss": 0.1235,
	"grad_norm": 0.9021329879760742,
	"learning_rate": 9.140395922050687e-06,
	"step_time_sec": 113.32
	},
	{
	"step": 1515,
	"epoch": 0.4289050888244037,
	"wallclock": "2026-05-23T02:43:21.636680",
	"loss": 0.1443,
	"grad_norm": 0.8108121752738953,
	"learning_rate": 9.133959143582485e-06,
	"step_time_sec": 117.0
	},
	{
	"step": 1520,
	"epoch": 0.43032061717035885,
	"wallclock": "2026-05-23T02:45:14.801586",
	"loss": 0.1256,
	"grad_norm": 0.9193041920661926,
	"learning_rate": 9.127500639551497e-06,
	"step_time_sec": 113.16
	},
	{
	"step": 1525,
	"epoch": 0.43173614551631395,
	"wallclock": "2026-05-23T02:47:07.650420",
	"loss": 0.1356,
	"grad_norm": 0.8465185761451721,
	"learning_rate": 9.12102044389967e-06,
	"step_time_sec": 112.85
	},
	{
	"step": 1530,
	"epoch": 0.4331516738622691,
	"wallclock": "2026-05-23T02:49:00.408689",
	"loss": 0.1384,
	"grad_norm": 0.973936140537262,
	"learning_rate": 9.114518590682955e-06,
	"step_time_sec": 112.76
	},
	{
	"step": 1535,
	"epoch": 0.4345672022082242,
	"wallclock": "2026-05-23T02:50:52.832459",
	"loss": 0.1274,
	"grad_norm": 1.2166610956192017,
	"learning_rate": 9.107995114071116e-06,
	"step_time_sec": 112.42
	},
	{
	"step": 1540,
	"epoch": 0.43598273055417935,
	"wallclock": "2026-05-23T02:52:44.842922",
	"loss": 0.122,
	"grad_norm": 0.985847532749176,
	"learning_rate": 9.101450048347562e-06,
	"step_time_sec": 112.01
	},
	{
	"step": 1545,
	"epoch": 0.43739825890013445,
	"wallclock": "2026-05-23T02:54:38.307969",
	"loss": 0.1365,
	"grad_norm": 0.7600606083869934,
	"learning_rate": 9.094883427909156e-06,
	"step_time_sec": 113.47
	},
	{
	"step": 1550,
	"epoch": 0.4388137872460896,
	"wallclock": "2026-05-23T02:56:31.349254",
	"loss": 0.1379,
	"grad_norm": 0.7994720339775085,
	"learning_rate": 9.088295287266042e-06,
	"step_time_sec": 113.04,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1555,
	"epoch": 0.44022931559204476,
	"wallclock": "2026-05-23T02:58:24.231104",
	"loss": 0.1325,
	"grad_norm": 0.8235543370246887,
	"learning_rate": 9.081685661041463e-06,
	"step_time_sec": 112.88
	},
	{
	"step": 1560,
	"epoch": 0.44164484393799985,
	"wallclock": "2026-05-23T03:00:19.009451",
	"loss": 0.1112,
	"grad_norm": 1.33493173122406,
	"learning_rate": 9.075054583971575e-06,
	"step_time_sec": 114.78
	},
	{
	"step": 1565,
	"epoch": 0.443060372283955,
	"wallclock": "2026-05-23T03:02:11.720414",
	"loss": 0.1274,
	"grad_norm": 0.6676927804946899,
	"learning_rate": 9.068402090905263e-06,
	"step_time_sec": 112.71
	},
	{
	"step": 1570,
	"epoch": 0.4444759006299101,
	"wallclock": "2026-05-23T03:04:04.443929",
	"loss": 0.1158,
	"grad_norm": 2.0362584590911865,
	"learning_rate": 9.06172821680397e-06,
	"step_time_sec": 112.72
	},
	{
	"step": 1575,
	"epoch": 0.44589142897586526,
	"wallclock": "2026-05-23T03:05:58.111861",
	"loss": 0.1459,
	"grad_norm": 0.8041182160377502,
	"learning_rate": 9.055032996741492e-06,
	"step_time_sec": 113.67
	},
	{
	"step": 1580,
	"epoch": 0.44730695732182035,
	"wallclock": "2026-05-23T03:07:51.100629",
	"loss": 0.1209,
	"grad_norm": 0.6887193918228149,
	"learning_rate": 9.048316465903823e-06,
	"step_time_sec": 112.99
	},
	{
	"step": 1585,
	"epoch": 0.4487224856677755,
	"wallclock": "2026-05-23T03:09:44.719059",
	"loss": 0.1472,
	"grad_norm": 0.9417322278022766,
	"learning_rate": 9.041578659588938e-06,
	"step_time_sec": 113.62
	},
	{
	"step": 1590,
	"epoch": 0.4501380140137306,
	"wallclock": "2026-05-23T03:11:39.177916",
	"loss": 0.1198,
	"grad_norm": 0.7076205611228943,
	"learning_rate": 9.034819613206631e-06,
	"step_time_sec": 114.46
	},
	{
	"step": 1595,
	"epoch": 0.45155354235968576,
	"wallclock": "2026-05-23T03:13:32.601273",
	"loss": 0.1576,
	"grad_norm": 0.8126243948936462,
	"learning_rate": 9.028039362278318e-06,
	"step_time_sec": 113.42
	},
	{
	"step": 1600,
	"epoch": 0.45296907070564085,
	"wallclock": "2026-05-23T03:15:25.341230",
	"loss": 0.1392,
	"grad_norm": 0.8675165176391602,
	"learning_rate": 9.021237942436855e-06,
	"step_time_sec": 112.74,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1600,
	"epoch": 0.45296907070564085,
	"wallclock": "2026-05-23T03:16:17.416846",
	"eval_loss": 0.14519159495830536,
	"eval_runtime": 51.9828,
	"eval_samples_per_second": 4.809,
	"eval_steps_per_second": 1.212,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1605,
	"epoch": 0.454384599051596,
	"wallclock": "2026-05-23T03:19:54.242069",
	"loss": 0.1252,
	"grad_norm": 0.7624632716178894,
	"learning_rate": 9.01441538942635e-06,
	"step_time_sec": 268.9
	},
	{
	"step": 1610,
	"epoch": 0.45580012739755116,
	"wallclock": "2026-05-23T03:21:47.588042",
	"loss": 0.1305,
	"grad_norm": 0.5635123252868652,
	"learning_rate": 9.007571739101968e-06,
	"step_time_sec": 113.35
	},
	{
	"step": 1615,
	"epoch": 0.45721565574350626,
	"wallclock": "2026-05-23T03:23:41.226600",
	"loss": 0.1117,
	"grad_norm": 0.7951876521110535,
	"learning_rate": 9.000707027429757e-06,
	"step_time_sec": 113.64
	},
	{
	"step": 1620,
	"epoch": 0.4586311840894614,
	"wallclock": "2026-05-23T03:25:36.047456",
	"loss": 0.1283,
	"grad_norm": 1.121505618095398,
	"learning_rate": 8.993821290486442e-06,
	"step_time_sec": 114.82
	},
	{
	"step": 1625,
	"epoch": 0.4600467124354165,
	"wallclock": "2026-05-23T03:27:30.028714",
	"loss": 0.1127,
	"grad_norm": 0.9441781640052795,
	"learning_rate": 8.98691456445925e-06,
	"step_time_sec": 113.98
	},
	{
	"step": 1630,
	"epoch": 0.46146224078137166,
	"wallclock": "2026-05-23T03:29:23.551875",
	"loss": 0.1246,
	"grad_norm": 0.8297203779220581,
	"learning_rate": 8.979986885645712e-06,
	"step_time_sec": 113.52
	},
	{
	"step": 1635,
	"epoch": 0.46287776912732675,
	"wallclock": "2026-05-23T03:31:17.421607",
	"loss": 0.1365,
	"grad_norm": 1.1671549081802368,
	"learning_rate": 8.973038290453475e-06,
	"step_time_sec": 113.87
	},
	{
	"step": 1640,
	"epoch": 0.4642932974732819,
	"wallclock": "2026-05-23T03:33:12.304973",
	"loss": 0.1158,
	"grad_norm": 0.8376030325889587,
	"learning_rate": 8.966068815400108e-06,
	"step_time_sec": 114.88
	},
	{
	"step": 1645,
	"epoch": 0.465708825819237,
	"wallclock": "2026-05-23T03:35:06.915657",
	"loss": 0.1276,
	"grad_norm": 0.9669609069824219,
	"learning_rate": 8.95907849711291e-06,
	"step_time_sec": 114.61
	},
	{
	"step": 1650,
	"epoch": 0.46712435416519216,
	"wallclock": "2026-05-23T03:36:59.993882",
	"loss": 0.1638,
	"grad_norm": 1.0771512985229492,
	"learning_rate": 8.952067372328726e-06,
	"step_time_sec": 113.08,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1655,
	"epoch": 0.4685398825111473,
	"wallclock": "2026-05-23T03:38:54.654794",
	"loss": 0.1403,
	"grad_norm": 0.7746709585189819,
	"learning_rate": 8.94503547789374e-06,
	"step_time_sec": 114.66
	},
	{
	"step": 1660,
	"epoch": 0.4699554108571024,
	"wallclock": "2026-05-23T03:40:47.102060",
	"loss": 0.1352,
	"grad_norm": 1.1372244358062744,
	"learning_rate": 8.937982850763293e-06,
	"step_time_sec": 112.45
	},
	{
	"step": 1665,
	"epoch": 0.47137093920305756,
	"wallclock": "2026-05-23T03:42:40.432111",
	"loss": 0.1537,
	"grad_norm": 0.8946406245231628,
	"learning_rate": 8.930909528001682e-06,
	"step_time_sec": 113.33
	},
	{
	"step": 1670,
	"epoch": 0.47278646754901266,
	"wallclock": "2026-05-23T03:44:34.489209",
	"loss": 0.1252,
	"grad_norm": 0.6626783013343811,
	"learning_rate": 8.923815546781968e-06,
	"step_time_sec": 114.06
	},
	{
	"step": 1675,
	"epoch": 0.4742019958949678,
	"wallclock": "2026-05-23T03:46:29.929407",
	"loss": 0.1148,
	"grad_norm": 0.7032930850982666,
	"learning_rate": 8.916700944385783e-06,
	"step_time_sec": 115.44
	},
	{
	"step": 1680,
	"epoch": 0.4756175242409229,
	"wallclock": "2026-05-23T03:48:23.844510",
	"loss": 0.139,
	"grad_norm": 0.9184028506278992,
	"learning_rate": 8.90956575820313e-06,
	"step_time_sec": 113.92
	},
	{
	"step": 1685,
	"epoch": 0.47703305258687806,
	"wallclock": "2026-05-23T03:50:18.747236",
	"loss": 0.1439,
	"grad_norm": 0.9489091038703918,
	"learning_rate": 8.902410025732182e-06,
	"step_time_sec": 114.9
	},
	{
	"step": 1690,
	"epoch": 0.47844858093283316,
	"wallclock": "2026-05-23T03:52:12.030744",
	"loss": 0.1063,
	"grad_norm": 0.8725413680076599,
	"learning_rate": 8.895233784579098e-06,
	"step_time_sec": 113.28
	},
	{
	"step": 1695,
	"epoch": 0.4798641092787883,
	"wallclock": "2026-05-23T03:54:05.237973",
	"loss": 0.1254,
	"grad_norm": 0.8798477649688721,
	"learning_rate": 8.888037072457817e-06,
	"step_time_sec": 113.21
	},
	{
	"step": 1700,
	"epoch": 0.48127963762474346,
	"wallclock": "2026-05-23T03:55:59.391912",
	"loss": 0.1357,
	"grad_norm": 0.8217583298683167,
	"learning_rate": 8.88081992718986e-06,
	"step_time_sec": 114.15,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1700,
	"epoch": 0.48127963762474346,
	"wallclock": "2026-05-23T03:56:51.332412",
	"eval_loss": 0.14282415807247162,
	"eval_runtime": 51.857,
	"eval_samples_per_second": 4.821,
	"eval_steps_per_second": 1.215,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1705,
	"epoch": 0.48269516597069856,
	"wallclock": "2026-05-23T04:00:27.956136",
	"loss": 0.1428,
	"grad_norm": 0.7931806445121765,
	"learning_rate": 8.873582386704132e-06,
	"step_time_sec": 268.56
	},
	{
	"step": 1710,
	"epoch": 0.4841106943166537,
	"wallclock": "2026-05-23T04:02:22.110676",
	"loss": 0.1402,
	"grad_norm": 1.0113517045974731,
	"learning_rate": 8.86632448903672e-06,
	"step_time_sec": 114.15
	},
	{
	"step": 1715,
	"epoch": 0.4855262226626088,
	"wallclock": "2026-05-23T04:04:17.103828",
	"loss": 0.1213,
	"grad_norm": 0.9483981132507324,
	"learning_rate": 8.859046272330698e-06,
	"step_time_sec": 114.99
	},
	{
	"step": 1720,
	"epoch": 0.48694175100856396,
	"wallclock": "2026-05-23T04:06:09.837485",
	"loss": 0.1287,
	"grad_norm": 0.8060489296913147,
	"learning_rate": 8.851747774835927e-06,
	"step_time_sec": 112.73
	},
	{
	"step": 1725,
	"epoch": 0.48835727935451906,
	"wallclock": "2026-05-23T04:08:03.048184",
	"loss": 0.1348,
	"grad_norm": 1.2514666318893433,
	"learning_rate": 8.84442903490885e-06,
	"step_time_sec": 113.21
	},
	{
	"step": 1730,
	"epoch": 0.4897728077004742,
	"wallclock": "2026-05-23T04:09:56.786981",
	"loss": 0.1261,
	"grad_norm": 0.8523698449134827,
	"learning_rate": 8.837090091012289e-06,
	"step_time_sec": 113.74
	},
	{
	"step": 1735,
	"epoch": 0.4911883360464293,
	"wallclock": "2026-05-23T04:11:50.314356",
	"loss": 0.1365,
	"grad_norm": 1.0180977582931519,
	"learning_rate": 8.82973098171525e-06,
	"step_time_sec": 113.53
	},
	{
	"step": 1740,
	"epoch": 0.49260386439238446,
	"wallclock": "2026-05-23T04:13:43.729160",
	"loss": 0.1338,
	"grad_norm": 0.5706004500389099,
	"learning_rate": 8.822351745692714e-06,
	"step_time_sec": 113.41
	},
	{
	"step": 1745,
	"epoch": 0.49401939273833956,
	"wallclock": "2026-05-23T04:15:36.906607",
	"loss": 0.1225,
	"grad_norm": 0.8971516489982605,
	"learning_rate": 8.814952421725434e-06,
	"step_time_sec": 113.18
	},
	{
	"step": 1750,
	"epoch": 0.4954349210842947,
	"wallclock": "2026-05-23T04:17:31.144814",
	"loss": 0.1199,
	"grad_norm": 0.8799176812171936,
	"learning_rate": 8.807533048699734e-06,
	"step_time_sec": 114.24,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1755,
	"epoch": 0.49685044943024986,
	"wallclock": "2026-05-23T04:19:24.124359",
	"loss": 0.1161,
	"grad_norm": 0.7670193910598755,
	"learning_rate": 8.800093665607307e-06,
	"step_time_sec": 112.98
	},
	{
	"step": 1760,
	"epoch": 0.49826597777620496,
	"wallclock": "2026-05-23T04:21:16.253579",
	"loss": 0.1362,
	"grad_norm": 1.0961898565292358,
	"learning_rate": 8.792634311545002e-06,
	"step_time_sec": 112.13
	},
	{
	"step": 1765,
	"epoch": 0.4996815061221601,
	"wallclock": "2026-05-23T04:23:08.900369",
	"loss": 0.1246,
	"grad_norm": 0.9300926923751831,
	"learning_rate": 8.785155025714626e-06,
	"step_time_sec": 112.65
	},
	{
	"step": 1770,
	"epoch": 0.5010970344681153,
	"wallclock": "2026-05-23T04:25:01.641415",
	"loss": 0.13,
	"grad_norm": 0.9323188066482544,
	"learning_rate": 8.777655847422734e-06,
	"step_time_sec": 112.74
	},
	{
	"step": 1775,
	"epoch": 0.5025125628140703,
	"wallclock": "2026-05-23T04:26:53.919382",
	"loss": 0.1228,
	"grad_norm": 0.8098039627075195,
	"learning_rate": 8.770136816080426e-06,
	"step_time_sec": 112.28
	},
	{
	"step": 1780,
	"epoch": 0.5039280911600255,
	"wallclock": "2026-05-23T04:28:47.742000",
	"loss": 0.1395,
	"grad_norm": 0.857759952545166,
	"learning_rate": 8.76259797120313e-06,
	"step_time_sec": 113.82
	},
	{
	"step": 1785,
	"epoch": 0.5053436195059806,
	"wallclock": "2026-05-23T04:30:40.247364",
	"loss": 0.1259,
	"grad_norm": 0.847581148147583,
	"learning_rate": 8.755039352410414e-06,
	"step_time_sec": 112.51
	},
	{
	"step": 1790,
	"epoch": 0.5067591478519358,
	"wallclock": "2026-05-23T04:32:33.726589",
	"loss": 0.1352,
	"grad_norm": 0.7166717052459717,
	"learning_rate": 8.747460999425755e-06,
	"step_time_sec": 113.48
	},
	{
	"step": 1795,
	"epoch": 0.5081746761978909,
	"wallclock": "2026-05-23T04:34:27.718052",
	"loss": 0.1319,
	"grad_norm": 1.0256786346435547,
	"learning_rate": 8.739862952076346e-06,
	"step_time_sec": 113.99
	},
	{
	"step": 1800,
	"epoch": 0.509590204543846,
	"wallclock": "2026-05-23T04:36:20.348096",
	"loss": 0.1174,
	"grad_norm": 0.7882758975028992,
	"learning_rate": 8.732245250292878e-06,
	"step_time_sec": 112.63,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1800,
	"epoch": 0.509590204543846,
	"wallclock": "2026-05-23T04:37:12.805799",
	"eval_loss": 0.14175137877464294,
	"eval_runtime": 52.3687,
	"eval_samples_per_second": 4.774,
	"eval_steps_per_second": 1.203,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1805,
	"epoch": 0.5110057328898011,
	"wallclock": "2026-05-23T04:40:48.723033",
	"loss": 0.1259,
	"grad_norm": 0.9180939793586731,
	"learning_rate": 8.72460793410934e-06,
	"step_time_sec": 268.37
	},
	{
	"step": 1810,
	"epoch": 0.5124212612357563,
	"wallclock": "2026-05-23T04:42:42.010667",
	"loss": 0.1238,
	"grad_norm": 0.8965495228767395,
	"learning_rate": 8.716951043662796e-06,
	"step_time_sec": 113.29
	},
	{
	"step": 1815,
	"epoch": 0.5138367895817114,
	"wallclock": "2026-05-23T04:44:35.309189",
	"loss": 0.1064,
	"grad_norm": 0.9334513545036316,
	"learning_rate": 8.709274619193182e-06,
	"step_time_sec": 113.3
	},
	{
	"step": 1820,
	"epoch": 0.5152523179276665,
	"wallclock": "2026-05-23T04:46:29.001032",
	"loss": 0.1171,
	"grad_norm": 0.7548913955688477,
	"learning_rate": 8.701578701043097e-06,
	"step_time_sec": 113.69
	},
	{
	"step": 1825,
	"epoch": 0.5166678462736216,
	"wallclock": "2026-05-23T04:48:22.554066",
	"loss": 0.1248,
	"grad_norm": 1.022698998451233,
	"learning_rate": 8.693863329657576e-06,
	"step_time_sec": 113.55
	},
	{
	"step": 1830,
	"epoch": 0.5180833746195768,
	"wallclock": "2026-05-23T04:50:15.543925",
	"loss": 0.1423,
	"grad_norm": 1.0240012407302856,
	"learning_rate": 8.686128545583906e-06,
	"step_time_sec": 112.99
	},
	{
	"step": 1835,
	"epoch": 0.5194989029655319,
	"wallclock": "2026-05-23T04:52:08.302700",
	"loss": 0.1373,
	"grad_norm": 1.0934542417526245,
	"learning_rate": 8.678374389471375e-06,
	"step_time_sec": 112.76
	},
	{
	"step": 1840,
	"epoch": 0.520914431311487,
	"wallclock": "2026-05-23T04:54:00.947870",
	"loss": 0.1463,
	"grad_norm": 1.0597333908081055,
	"learning_rate": 8.670600902071096e-06,
	"step_time_sec": 112.65
	},
	{
	"step": 1845,
	"epoch": 0.5223299596574421,
	"wallclock": "2026-05-23T04:55:54.818374",
	"loss": 0.1206,
	"grad_norm": 0.7178345918655396,
	"learning_rate": 8.662808124235765e-06,
	"step_time_sec": 113.87
	},
	{
	"step": 1850,
	"epoch": 0.5237454880033973,
	"wallclock": "2026-05-23T04:57:48.527340",
	"loss": 0.1075,
	"grad_norm": 1.275473952293396,
	"learning_rate": 8.65499609691946e-06,
	"step_time_sec": 113.71,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1855,
	"epoch": 0.5251610163493524,
	"wallclock": "2026-05-23T04:59:41.867913",
	"loss": 0.1023,
	"grad_norm": 0.5519967675209045,
	"learning_rate": 8.647164861177422e-06,
	"step_time_sec": 113.34
	},
	{
	"step": 1860,
	"epoch": 0.5265765446953076,
	"wallclock": "2026-05-23T05:01:36.546653",
	"loss": 0.1367,
	"grad_norm": 0.9184526205062866,
	"learning_rate": 8.639314458165839e-06,
	"step_time_sec": 114.68
	},
	{
	"step": 1865,
	"epoch": 0.5279920730412626,
	"wallclock": "2026-05-23T05:03:30.220915",
	"loss": 0.1332,
	"grad_norm": 0.938758373260498,
	"learning_rate": 8.631444929141635e-06,
	"step_time_sec": 113.67
	},
	{
	"step": 1870,
	"epoch": 0.5294076013872178,
	"wallclock": "2026-05-23T05:05:24.720616",
	"loss": 0.107,
	"grad_norm": 0.8511345982551575,
	"learning_rate": 8.62355631546224e-06,
	"step_time_sec": 114.5
	},
	{
	"step": 1875,
	"epoch": 0.5308231297331729,
	"wallclock": "2026-05-23T05:07:19.388697",
	"loss": 0.1276,
	"grad_norm": 1.1140179634094238,
	"learning_rate": 8.615648658585392e-06,
	"step_time_sec": 114.67
	},
	{
	"step": 1880,
	"epoch": 0.5322386580791281,
	"wallclock": "2026-05-23T05:09:13.975351",
	"loss": 0.117,
	"grad_norm": 0.6539268493652344,
	"learning_rate": 8.607722000068898e-06,
	"step_time_sec": 114.59
	},
	{
	"step": 1885,
	"epoch": 0.5336541864250831,
	"wallclock": "2026-05-23T05:11:08.325687",
	"loss": 0.1193,
	"grad_norm": 0.8391310572624207,
	"learning_rate": 8.599776381570433e-06,
	"step_time_sec": 114.35
	},
	{
	"step": 1890,
	"epoch": 0.5350697147710383,
	"wallclock": "2026-05-23T05:13:02.941530",
	"loss": 0.1264,
	"grad_norm": 0.844965398311615,
	"learning_rate": 8.59181184484731e-06,
	"step_time_sec": 114.62
	},
	{
	"step": 1895,
	"epoch": 0.5364852431169934,
	"wallclock": "2026-05-23T05:14:56.481372",
	"loss": 0.1396,
	"grad_norm": 0.7179044485092163,
	"learning_rate": 8.583828431756272e-06,
	"step_time_sec": 113.54
	},
	{
	"step": 1900,
	"epoch": 0.5379007714629486,
	"wallclock": "2026-05-23T05:16:51.210427",
	"loss": 0.0974,
	"grad_norm": 0.8166824579238892,
	"learning_rate": 8.575826184253254e-06,
	"step_time_sec": 114.73,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1900,
	"epoch": 0.5379007714629486,
	"wallclock": "2026-05-23T05:17:43.683064",
	"eval_loss": 0.14031976461410522,
	"eval_runtime": 52.3833,
	"eval_samples_per_second": 4.773,
	"eval_steps_per_second": 1.203,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1905,
	"epoch": 0.5393162998089037,
	"wallclock": "2026-05-23T05:21:18.913048",
	"loss": 0.1219,
	"grad_norm": 1.006734013557434,
	"learning_rate": 8.567805144393176e-06,
	"step_time_sec": 267.7
	},
	{
	"step": 1910,
	"epoch": 0.5407318281548588,
	"wallclock": "2026-05-23T05:23:13.218448",
	"loss": 0.1284,
	"grad_norm": 0.8619974255561829,
	"learning_rate": 8.559765354329728e-06,
	"step_time_sec": 114.31
	},
	{
	"step": 1915,
	"epoch": 0.5421473565008139,
	"wallclock": "2026-05-23T05:25:08.140980",
	"loss": 0.1184,
	"grad_norm": 1.2139092683792114,
	"learning_rate": 8.55170685631513e-06,
	"step_time_sec": 114.92
	},
	{
	"step": 1920,
	"epoch": 0.5435628848467691,
	"wallclock": "2026-05-23T05:27:03.707486",
	"loss": 0.1129,
	"grad_norm": 0.9047484397888184,
	"learning_rate": 8.54362969269992e-06,
	"step_time_sec": 115.57
	},
	{
	"step": 1925,
	"epoch": 0.5449784131927242,
	"wallclock": "2026-05-23T05:28:57.612333",
	"loss": 0.1163,
	"grad_norm": 0.6891061663627625,
	"learning_rate": 8.535533905932739e-06,
	"step_time_sec": 113.9
	},
	{
	"step": 1930,
	"epoch": 0.5463939415386793,
	"wallclock": "2026-05-23T05:30:52.594285",
	"loss": 0.1164,
	"grad_norm": 0.6650737524032593,
	"learning_rate": 8.527419538560088e-06,
	"step_time_sec": 114.98
	},
	{
	"step": 1935,
	"epoch": 0.5478094698846344,
	"wallclock": "2026-05-23T05:32:48.432100",
	"loss": 0.1187,
	"grad_norm": 1.1412484645843506,
	"learning_rate": 8.51928663322613e-06,
	"step_time_sec": 115.84
	},
	{
	"step": 1940,
	"epoch": 0.5492249982305896,
	"wallclock": "2026-05-23T05:34:43.177149",
	"loss": 0.1342,
	"grad_norm": 0.7133747339248657,
	"learning_rate": 8.511135232672442e-06,
	"step_time_sec": 114.75
	},
	{
	"step": 1945,
	"epoch": 0.5506405265765447,
	"wallclock": "2026-05-23T05:36:42.534792",
	"loss": 0.1132,
	"grad_norm": 1.0151540040969849,
	"learning_rate": 8.502965379737802e-06,
	"step_time_sec": 119.36
	},
	{
	"step": 1950,
	"epoch": 0.5520560549224999,
	"wallclock": "2026-05-23T05:38:46.820577",
	"loss": 0.1273,
	"grad_norm": 1.6805675029754639,
	"learning_rate": 8.494777117357964e-06,
	"step_time_sec": 124.29,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 1955,
	"epoch": 0.5534715832684549,
	"wallclock": "2026-05-23T05:40:50.018680",
	"loss": 0.1142,
	"grad_norm": 0.9018206596374512,
	"learning_rate": 8.486570488565432e-06,
	"step_time_sec": 123.2
	},
	{
	"step": 1960,
	"epoch": 0.5548871116144101,
	"wallclock": "2026-05-23T05:42:53.671070",
	"loss": 0.1258,
	"grad_norm": 0.7533476948738098,
	"learning_rate": 8.478345536489232e-06,
	"step_time_sec": 123.65
	},
	{
	"step": 1965,
	"epoch": 0.5563026399603652,
	"wallclock": "2026-05-23T05:44:56.957810",
	"loss": 0.1218,
	"grad_norm": 1.134895920753479,
	"learning_rate": 8.470102304354685e-06,
	"step_time_sec": 123.29
	},
	{
	"step": 1970,
	"epoch": 0.5577181683063204,
	"wallclock": "2026-05-23T05:47:01.054040",
	"loss": 0.1344,
	"grad_norm": 0.9846596717834473,
	"learning_rate": 8.461840835483179e-06,
	"step_time_sec": 124.1
	},
	{
	"step": 1975,
	"epoch": 0.5591336966522754,
	"wallclock": "2026-05-23T05:49:04.326418",
	"loss": 0.1272,
	"grad_norm": 0.8339362144470215,
	"learning_rate": 8.45356117329195e-06,
	"step_time_sec": 123.27
	},
	{
	"step": 1980,
	"epoch": 0.5605492249982306,
	"wallclock": "2026-05-23T05:51:07.881648",
	"loss": 0.1041,
	"grad_norm": 1.041932463645935,
	"learning_rate": 8.445263361293839e-06,
	"step_time_sec": 123.56
	},
	{
	"step": 1985,
	"epoch": 0.5619647533441857,
	"wallclock": "2026-05-23T05:53:11.738690",
	"loss": 0.1492,
	"grad_norm": 0.9378158450126648,
	"learning_rate": 8.436947443097074e-06,
	"step_time_sec": 123.86
	},
	{
	"step": 1990,
	"epoch": 0.5633802816901409,
	"wallclock": "2026-05-23T05:55:16.469073",
	"loss": 0.1055,
	"grad_norm": 1.0052165985107422,
	"learning_rate": 8.428613462405042e-06,
	"step_time_sec": 124.73
	},
	{
	"step": 1995,
	"epoch": 0.564795810036096,
	"wallclock": "2026-05-23T05:57:21.072731",
	"loss": 0.1157,
	"grad_norm": 0.9656962752342224,
	"learning_rate": 8.42026146301605e-06,
	"step_time_sec": 124.6
	},
	{
	"step": 2000,
	"epoch": 0.5662113383820511,
	"wallclock": "2026-05-23T05:59:27.133239",
	"loss": 0.1099,
	"grad_norm": 0.6400126814842224,
	"learning_rate": 8.411891488823102e-06,
	"step_time_sec": 126.06,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2000,
	"epoch": 0.5662113383820511,
	"wallclock": "2026-05-23T06:00:26.330552",
	"eval_loss": 0.13213595747947693,
	"eval_runtime": 59.102,
	"eval_samples_per_second": 4.23,
	"eval_steps_per_second": 1.066,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2005,
	"epoch": 0.5676268667280062,
	"wallclock": "2026-05-23T06:04:02.423533",
	"loss": 0.1243,
	"grad_norm": 1.0383392572402954,
	"learning_rate": 8.40350358381367e-06,
	"step_time_sec": 275.29
	},
	{
	"step": 2010,
	"epoch": 0.5690423950739614,
	"wallclock": "2026-05-23T06:05:55.119665",
	"loss": 0.1192,
	"grad_norm": 1.1544498205184937,
	"learning_rate": 8.39509779206945e-06,
	"step_time_sec": 112.7
	},
	{
	"step": 2015,
	"epoch": 0.5704579234199165,
	"wallclock": "2026-05-23T06:07:49.815988",
	"loss": 0.125,
	"grad_norm": 1.1813828945159912,
	"learning_rate": 8.386674157766156e-06,
	"step_time_sec": 114.7
	},
	{
	"step": 2020,
	"epoch": 0.5718734517658716,
	"wallclock": "2026-05-23T06:09:44.079892",
	"loss": 0.0941,
	"grad_norm": 0.582125723361969,
	"learning_rate": 8.378232725173253e-06,
	"step_time_sec": 114.26
	},
	{
	"step": 2025,
	"epoch": 0.5732889801118267,
	"wallclock": "2026-05-23T06:11:37.953666",
	"loss": 0.1276,
	"grad_norm": 0.8630328178405762,
	"learning_rate": 8.369773538653756e-06,
	"step_time_sec": 113.87
	},
	{
	"step": 2030,
	"epoch": 0.5747045084577819,
	"wallclock": "2026-05-23T06:13:33.538279",
	"loss": 0.1139,
	"grad_norm": 0.7153676748275757,
	"learning_rate": 8.361296642663977e-06,
	"step_time_sec": 115.58
	},
	{
	"step": 2035,
	"epoch": 0.576120036803737,
	"wallclock": "2026-05-23T06:15:28.201077",
	"loss": 0.1186,
	"grad_norm": 1.0687501430511475,
	"learning_rate": 8.352802081753304e-06,
	"step_time_sec": 114.66
	},
	{
	"step": 2040,
	"epoch": 0.5775355651496922,
	"wallclock": "2026-05-23T06:17:21.826972",
	"loss": 0.0957,
	"grad_norm": 0.7276541590690613,
	"learning_rate": 8.344289900563955e-06,
	"step_time_sec": 113.63
	},
	{
	"step": 2045,
	"epoch": 0.5789510934956472,
	"wallclock": "2026-05-23T06:19:15.755614",
	"loss": 0.1418,
	"grad_norm": 1.2831865549087524,
	"learning_rate": 8.335760143830753e-06,
	"step_time_sec": 113.93
	},
	{
	"step": 2050,
	"epoch": 0.5803666218416024,
	"wallclock": "2026-05-23T06:21:10.146824",
	"loss": 0.0902,
	"grad_norm": 0.8044394850730896,
	"learning_rate": 8.327212856380886e-06,
	"step_time_sec": 114.39,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2055,
	"epoch": 0.5817821501875575,
	"wallclock": "2026-05-23T06:23:03.760022",
	"loss": 0.1254,
	"grad_norm": 0.8785029053688049,
	"learning_rate": 8.318648083133675e-06,
	"step_time_sec": 113.61
	},
	{
	"step": 2060,
	"epoch": 0.5831976785335127,
	"wallclock": "2026-05-23T06:24:58.159811",
	"loss": 0.1295,
	"grad_norm": 0.8821666240692139,
	"learning_rate": 8.310065869100332e-06,
	"step_time_sec": 114.4
	},
	{
	"step": 2065,
	"epoch": 0.5846132068794677,
	"wallclock": "2026-05-23T06:26:51.514557",
	"loss": 0.1296,
	"grad_norm": 1.0319464206695557,
	"learning_rate": 8.301466259383729e-06,
	"step_time_sec": 113.35
	},
	{
	"step": 2070,
	"epoch": 0.5860287352254229,
	"wallclock": "2026-05-23T06:28:45.591485",
	"loss": 0.1134,
	"grad_norm": 0.7893862724304199,
	"learning_rate": 8.292849299178158e-06,
	"step_time_sec": 114.08
	},
	{
	"step": 2075,
	"epoch": 0.587444263571378,
	"wallclock": "2026-05-23T06:30:40.034770",
	"loss": 0.1123,
	"grad_norm": 0.8960036635398865,
	"learning_rate": 8.284215033769098e-06,
	"step_time_sec": 114.44
	},
	{
	"step": 2080,
	"epoch": 0.5888597919173332,
	"wallclock": "2026-05-23T06:32:33.013250",
	"loss": 0.1019,
	"grad_norm": 0.7732668519020081,
	"learning_rate": 8.275563508532972e-06,
	"step_time_sec": 112.98
	},
	{
	"step": 2085,
	"epoch": 0.5902753202632883,
	"wallclock": "2026-05-23T06:34:26.451713",
	"loss": 0.1159,
	"grad_norm": 1.014701008796692,
	"learning_rate": 8.266894768936907e-06,
	"step_time_sec": 113.44
	},
	{
	"step": 2090,
	"epoch": 0.5916908486092434,
	"wallclock": "2026-05-23T06:36:20.092613",
	"loss": 0.117,
	"grad_norm": 1.0048466920852661,
	"learning_rate": 8.258208860538498e-06,
	"step_time_sec": 113.64
	},
	{
	"step": 2095,
	"epoch": 0.5931063769551985,
	"wallclock": "2026-05-23T06:38:13.619925",
	"loss": 0.1295,
	"grad_norm": 1.0775166749954224,
	"learning_rate": 8.249505828985575e-06,
	"step_time_sec": 113.53
	},
	{
	"step": 2100,
	"epoch": 0.5945219053011537,
	"wallclock": "2026-05-23T06:40:07.681597",
	"loss": 0.1198,
	"grad_norm": 1.339026689529419,
	"learning_rate": 8.240785720015954e-06,
	"step_time_sec": 114.06,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2100,
	"epoch": 0.5945219053011537,
	"wallclock": "2026-05-23T06:40:59.897976",
	"eval_loss": 0.1282491832971573,
	"eval_runtime": 52.1233,
	"eval_samples_per_second": 4.796,
	"eval_steps_per_second": 1.209,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2105,
	"epoch": 0.5959374336471088,
	"wallclock": "2026-05-23T06:44:35.507980",
	"loss": 0.0943,
	"grad_norm": 0.7660958766937256,
	"learning_rate": 8.232048579457194e-06,
	"step_time_sec": 267.83
	},
	{
	"step": 2110,
	"epoch": 0.5973529619930639,
	"wallclock": "2026-05-23T06:46:29.777766",
	"loss": 0.11,
	"grad_norm": 0.9617125391960144,
	"learning_rate": 8.22329445322637e-06,
	"step_time_sec": 114.27
	},
	{
	"step": 2115,
	"epoch": 0.598768490339019,
	"wallclock": "2026-05-23T06:48:22.536086",
	"loss": 0.1132,
	"grad_norm": 1.1251046657562256,
	"learning_rate": 8.214523387329815e-06,
	"step_time_sec": 112.76
	},
	{
	"step": 2120,
	"epoch": 0.6001840186849742,
	"wallclock": "2026-05-23T06:50:15.285691",
	"loss": 0.1012,
	"grad_norm": 0.8359034657478333,
	"learning_rate": 8.205735427862897e-06,
	"step_time_sec": 112.75
	},
	{
	"step": 2125,
	"epoch": 0.6015995470309293,
	"wallclock": "2026-05-23T06:52:10.239923",
	"loss": 0.0948,
	"grad_norm": 0.8290632963180542,
	"learning_rate": 8.196930621009756e-06,
	"step_time_sec": 114.95
	},
	{
	"step": 2130,
	"epoch": 0.6030150753768844,
	"wallclock": "2026-05-23T06:54:03.899054",
	"loss": 0.1103,
	"grad_norm": 0.707132875919342,
	"learning_rate": 8.188109013043076e-06,
	"step_time_sec": 113.66
	},
	{
	"step": 2135,
	"epoch": 0.6044306037228395,
	"wallclock": "2026-05-23T06:55:56.905229",
	"loss": 0.111,
	"grad_norm": 0.940647542476654,
	"learning_rate": 8.179270650323839e-06,
	"step_time_sec": 113.01
	},
	{
	"step": 2140,
	"epoch": 0.6058461320687947,
	"wallclock": "2026-05-23T06:57:51.331282",
	"loss": 0.1101,
	"grad_norm": 0.7413908243179321,
	"learning_rate": 8.170415579301076e-06,
	"step_time_sec": 114.43
	},
	{
	"step": 2145,
	"epoch": 0.6072616604147498,
	"wallclock": "2026-05-23T06:59:44.905917",
	"loss": 0.1021,
	"grad_norm": 1.1988078355789185,
	"learning_rate": 8.161543846511628e-06,
	"step_time_sec": 113.57
	},
	{
	"step": 2150,
	"epoch": 0.608677188760705,
	"wallclock": "2026-05-23T07:01:39.153468",
	"loss": 0.1143,
	"grad_norm": 1.0968750715255737,
	"learning_rate": 8.152655498579903e-06,
	"step_time_sec": 114.25,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2155,
	"epoch": 0.61009271710666,
	"wallclock": "2026-05-23T07:03:33.733115",
	"loss": 0.1268,
	"grad_norm": 0.8552664518356323,
	"learning_rate": 8.143750582217625e-06,
	"step_time_sec": 114.58
	},
	{
	"step": 2160,
	"epoch": 0.6115082454526152,
	"wallclock": "2026-05-23T07:05:27.710732",
	"loss": 0.1103,
	"grad_norm": 0.7791701555252075,
	"learning_rate": 8.13482914422359e-06,
	"step_time_sec": 113.98
	},
	{
	"step": 2165,
	"epoch": 0.6129237737985703,
	"wallclock": "2026-05-23T07:07:22.028971",
	"loss": 0.1155,
	"grad_norm": 0.7360658645629883,
	"learning_rate": 8.125891231483425e-06,
	"step_time_sec": 114.32
	},
	{
	"step": 2170,
	"epoch": 0.6143393021445255,
	"wallclock": "2026-05-23T07:09:16.562706",
	"loss": 0.1132,
	"grad_norm": 1.0679337978363037,
	"learning_rate": 8.11693689096934e-06,
	"step_time_sec": 114.53
	},
	{
	"step": 2175,
	"epoch": 0.6157548304904805,
	"wallclock": "2026-05-23T07:11:10.858404",
	"loss": 0.129,
	"grad_norm": 0.9493758082389832,
	"learning_rate": 8.107966169739871e-06,
	"step_time_sec": 114.3
	},
	{
	"step": 2180,
	"epoch": 0.6171703588364357,
	"wallclock": "2026-05-23T07:13:03.638564",
	"loss": 0.1302,
	"grad_norm": 0.9018224477767944,
	"learning_rate": 8.09897911493965e-06,
	"step_time_sec": 112.78
	},
	{
	"step": 2185,
	"epoch": 0.6185858871823908,
	"wallclock": "2026-05-23T07:14:57.306827",
	"loss": 0.1218,
	"grad_norm": 0.8794463276863098,
	"learning_rate": 8.089975773799143e-06,
	"step_time_sec": 113.67
	},
	{
	"step": 2190,
	"epoch": 0.620001415528346,
	"wallclock": "2026-05-23T07:16:51.323807",
	"loss": 0.11,
	"grad_norm": 0.8043993711471558,
	"learning_rate": 8.080956193634409e-06,
	"step_time_sec": 114.02
	},
	{
	"step": 2195,
	"epoch": 0.6214169438743011,
	"wallclock": "2026-05-23T07:18:45.611509",
	"loss": 0.0976,
	"grad_norm": 1.1800931692123413,
	"learning_rate": 8.07192042184685e-06,
	"step_time_sec": 114.29
	},
	{
	"step": 2200,
	"epoch": 0.6228324722202562,
	"wallclock": "2026-05-23T07:20:38.621541",
	"loss": 0.1349,
	"grad_norm": 1.5049303770065308,
	"learning_rate": 8.062868505922958e-06,
	"step_time_sec": 113.01,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2200,
	"epoch": 0.6228324722202562,
	"wallclock": "2026-05-23T07:21:30.438443",
	"eval_loss": 0.12787169218063354,
	"eval_runtime": 51.72,
	"eval_samples_per_second": 4.834,
	"eval_steps_per_second": 1.218,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2205,
	"epoch": 0.6242480005662113,
	"wallclock": "2026-05-23T07:25:03.848081",
	"loss": 0.1167,
	"grad_norm": 0.8288029432296753,
	"learning_rate": 8.053800493434072e-06,
	"step_time_sec": 265.23
	},
	{
	"step": 2210,
	"epoch": 0.6256635289121665,
	"wallclock": "2026-05-23T07:26:56.740627",
	"loss": 0.1079,
	"grad_norm": 0.8604945540428162,
	"learning_rate": 8.044716432036126e-06,
	"step_time_sec": 112.89
	},
	{
	"step": 2215,
	"epoch": 0.6270790572581216,
	"wallclock": "2026-05-23T07:28:54.914996",
	"loss": 0.1164,
	"grad_norm": 0.997947633266449,
	"learning_rate": 8.035616369469392e-06,
	"step_time_sec": 118.17
	},
	{
	"step": 2220,
	"epoch": 0.6284945856040767,
	"wallclock": "2026-05-23T07:30:49.126331",
	"loss": 0.102,
	"grad_norm": 0.8771962523460388,
	"learning_rate": 8.02650035355824e-06,
	"step_time_sec": 114.21
	},
	{
	"step": 2225,
	"epoch": 0.6299101139500318,
	"wallclock": "2026-05-23T07:32:43.224804",
	"loss": 0.1177,
	"grad_norm": 0.909534752368927,
	"learning_rate": 8.017368432210875e-06,
	"step_time_sec": 114.1
	},
	{
	"step": 2230,
	"epoch": 0.631325642295987,
	"wallclock": "2026-05-23T07:34:37.246776",
	"loss": 0.1316,
	"grad_norm": 1.185617446899414,
	"learning_rate": 8.008220653419097e-06,
	"step_time_sec": 114.02
	},
	{
	"step": 2235,
	"epoch": 0.6327411706419421,
	"wallclock": "2026-05-23T07:36:31.707708",
	"loss": 0.0931,
	"grad_norm": 0.9247961044311523,
	"learning_rate": 7.99905706525804e-06,
	"step_time_sec": 114.46
	},
	{
	"step": 2240,
	"epoch": 0.6341566989878973,
	"wallclock": "2026-05-23T07:38:24.836647",
	"loss": 0.0937,
	"grad_norm": 0.9448702931404114,
	"learning_rate": 7.989877715885925e-06,
	"step_time_sec": 113.13
	},
	{
	"step": 2245,
	"epoch": 0.6355722273338523,
	"wallclock": "2026-05-23T07:40:18.101149",
	"loss": 0.1124,
	"grad_norm": 0.9247167110443115,
	"learning_rate": 7.980682653543799e-06,
	"step_time_sec": 113.26
	},
	{
	"step": 2250,
	"epoch": 0.6369877556798075,
	"wallclock": "2026-05-23T07:42:13.210519",
	"loss": 0.1081,
	"grad_norm": 1.228428602218628,
	"learning_rate": 7.97147192655529e-06,
	"step_time_sec": 115.11,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2255,
	"epoch": 0.6384032840257626,
	"wallclock": "2026-05-23T07:44:07.337158",
	"loss": 0.1082,
	"grad_norm": 0.8680895566940308,
	"learning_rate": 7.962245583326354e-06,
	"step_time_sec": 114.13
	},
	{
	"step": 2260,
	"epoch": 0.6398188123717178,
	"wallclock": "2026-05-23T07:46:01.112153",
	"loss": 0.1073,
	"grad_norm": 0.7317308783531189,
	"learning_rate": 7.953003672345009e-06,
	"step_time_sec": 113.77
	},
	{
	"step": 2265,
	"epoch": 0.6412343407176728,
	"wallclock": "2026-05-23T07:47:55.256008",
	"loss": 0.1213,
	"grad_norm": 0.9891361594200134,
	"learning_rate": 7.943746242181091e-06,
	"step_time_sec": 114.14
	},
	{
	"step": 2270,
	"epoch": 0.642649869063628,
	"wallclock": "2026-05-23T07:49:48.031699",
	"loss": 0.1084,
	"grad_norm": 0.8852012753486633,
	"learning_rate": 7.934473341485998e-06,
	"step_time_sec": 112.78
	},
	{
	"step": 2275,
	"epoch": 0.6440653974095831,
	"wallclock": "2026-05-23T07:51:41.760762",
	"loss": 0.1015,
	"grad_norm": 0.6731085181236267,
	"learning_rate": 7.925185018992426e-06,
	"step_time_sec": 113.73
	},
	{
	"step": 2280,
	"epoch": 0.6454809257555383,
	"wallclock": "2026-05-23T07:53:37.755943",
	"loss": 0.0927,
	"grad_norm": 0.8080906271934509,
	"learning_rate": 7.91588132351412e-06,
	"step_time_sec": 116.0
	},
	{
	"step": 2285,
	"epoch": 0.6468964541014934,
	"wallclock": "2026-05-23T07:55:31.246122",
	"loss": 0.117,
	"grad_norm": 0.9637818336486816,
	"learning_rate": 7.906562303945622e-06,
	"step_time_sec": 113.49
	},
	{
	"step": 2290,
	"epoch": 0.6483119824474485,
	"wallclock": "2026-05-23T07:57:25.355025",
	"loss": 0.1148,
	"grad_norm": 0.8999826908111572,
	"learning_rate": 7.897228009262003e-06,
	"step_time_sec": 114.11
	},
	{
	"step": 2295,
	"epoch": 0.6497275107934036,
	"wallclock": "2026-05-23T07:59:20.568291",
	"loss": 0.1202,
	"grad_norm": 0.655300498008728,
	"learning_rate": 7.887878488518608e-06,
	"step_time_sec": 115.21
	},
	{
	"step": 2300,
	"epoch": 0.6511430391393588,
	"wallclock": "2026-05-23T08:01:15.440455",
	"loss": 0.1164,
	"grad_norm": 1.327991247177124,
	"learning_rate": 7.878513790850805e-06,
	"step_time_sec": 114.87,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2300,
	"epoch": 0.6511430391393588,
	"wallclock": "2026-05-23T08:02:07.666082",
	"eval_loss": 0.12934190034866333,
	"eval_runtime": 52.1298,
	"eval_samples_per_second": 4.796,
	"eval_steps_per_second": 1.209,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2305,
	"epoch": 0.6525585674853139,
	"wallclock": "2026-05-23T08:05:41.525707",
	"loss": 0.0931,
	"grad_norm": 1.3085259199142456,
	"learning_rate": 7.869133965473723e-06,
	"step_time_sec": 266.09
	},
	{
	"step": 2310,
	"epoch": 0.653974095831269,
	"wallclock": "2026-05-23T08:07:39.677572",
	"loss": 0.1252,
	"grad_norm": 0.9861677289009094,
	"learning_rate": 7.859739061681992e-06,
	"step_time_sec": 118.15
	},
	{
	"step": 2315,
	"epoch": 0.6553896241772241,
	"wallclock": "2026-05-23T08:09:33.975162",
	"loss": 0.1131,
	"grad_norm": 0.685297966003418,
	"learning_rate": 7.850329128849482e-06,
	"step_time_sec": 114.3
	},
	{
	"step": 2320,
	"epoch": 0.6568051525231793,
	"wallclock": "2026-05-23T08:11:28.536426",
	"loss": 0.1087,
	"grad_norm": 0.8919675946235657,
	"learning_rate": 7.840904216429053e-06,
	"step_time_sec": 114.56
	},
	{
	"step": 2325,
	"epoch": 0.6582206808691344,
	"wallclock": "2026-05-23T08:13:23.250581",
	"loss": 0.1037,
	"grad_norm": 0.9594758152961731,
	"learning_rate": 7.83146437395228e-06,
	"step_time_sec": 114.71
	},
	{
	"step": 2330,
	"epoch": 0.6596362092150896,
	"wallclock": "2026-05-23T08:15:17.659280",
	"loss": 0.1021,
	"grad_norm": 0.79726243019104,
	"learning_rate": 7.82200965102921e-06,
	"step_time_sec": 114.41
	},
	{
	"step": 2335,
	"epoch": 0.6610517375610446,
	"wallclock": "2026-05-23T08:17:10.906487",
	"loss": 0.1267,
	"grad_norm": 1.4677671194076538,
	"learning_rate": 7.812540097348085e-06,
	"step_time_sec": 113.25
	},
	{
	"step": 2340,
	"epoch": 0.6624672659069998,
	"wallclock": "2026-05-23T08:19:05.623865",
	"loss": 0.1022,
	"grad_norm": 0.8115029335021973,
	"learning_rate": 7.803055762675096e-06,
	"step_time_sec": 114.72
	},
	{
	"step": 2345,
	"epoch": 0.6638827942529549,
	"wallclock": "2026-05-23T08:21:00.057684",
	"loss": 0.097,
	"grad_norm": 0.7353535890579224,
	"learning_rate": 7.793556696854105e-06,
	"step_time_sec": 114.43
	},
	{
	"step": 2350,
	"epoch": 0.6652983225989101,
	"wallclock": "2026-05-23T08:22:52.623668",
	"loss": 0.1056,
	"grad_norm": 0.9155029058456421,
	"learning_rate": 7.784042949806401e-06,
	"step_time_sec": 112.57,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2355,
	"epoch": 0.6667138509448651,
	"wallclock": "2026-05-23T08:24:46.327258",
	"loss": 0.119,
	"grad_norm": 1.1471012830734253,
	"learning_rate": 7.77451457153042e-06,
	"step_time_sec": 113.7
	},
	{
	"step": 2360,
	"epoch": 0.6681293792908203,
	"wallclock": "2026-05-23T08:26:40.729225",
	"loss": 0.1122,
	"grad_norm": 1.1479600667953491,
	"learning_rate": 7.764971612101497e-06,
	"step_time_sec": 114.4
	},
	{
	"step": 2365,
	"epoch": 0.6695449076367754,
	"wallclock": "2026-05-23T08:28:34.893479",
	"loss": 0.1187,
	"grad_norm": 0.990744411945343,
	"learning_rate": 7.755414121671596e-06,
	"step_time_sec": 114.16
	},
	{
	"step": 2370,
	"epoch": 0.6709604359827306,
	"wallclock": "2026-05-23T08:30:29.655994",
	"loss": 0.1045,
	"grad_norm": 0.8785448670387268,
	"learning_rate": 7.745842150469043e-06,
	"step_time_sec": 114.76
	},
	{
	"step": 2375,
	"epoch": 0.6723759643286856,
	"wallclock": "2026-05-23T08:32:24.847718",
	"loss": 0.1015,
	"grad_norm": 1.0024092197418213,
	"learning_rate": 7.736255748798272e-06,
	"step_time_sec": 115.19
	},
	{
	"step": 2380,
	"epoch": 0.6737914926746408,
	"wallclock": "2026-05-23T08:34:19.407078",
	"loss": 0.1087,
	"grad_norm": 1.0146054029464722,
	"learning_rate": 7.726654967039546e-06,
	"step_time_sec": 114.56
	},
	{
	"step": 2385,
	"epoch": 0.6752070210205959,
	"wallclock": "2026-05-23T08:36:13.103873",
	"loss": 0.1194,
	"grad_norm": 1.0869743824005127,
	"learning_rate": 7.717039855648711e-06,
	"step_time_sec": 113.7
	},
	{
	"step": 2390,
	"epoch": 0.6766225493665511,
	"wallclock": "2026-05-23T08:38:07.793063",
	"loss": 0.1053,
	"grad_norm": 0.6551274061203003,
	"learning_rate": 7.707410465156916e-06,
	"step_time_sec": 114.69
	},
	{
	"step": 2395,
	"epoch": 0.6780380777125062,
	"wallclock": "2026-05-23T08:40:01.316930",
	"loss": 0.0985,
	"grad_norm": 0.9398195147514343,
	"learning_rate": 7.69776684617035e-06,
	"step_time_sec": 113.52
	},
	{
	"step": 2400,
	"epoch": 0.6794536060584613,
	"wallclock": "2026-05-23T08:41:54.704114",
	"loss": 0.1208,
	"grad_norm": 1.1209269762039185,
	"learning_rate": 7.688109049369984e-06,
	"step_time_sec": 113.39,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2400,
	"epoch": 0.6794536060584613,
	"wallclock": "2026-05-23T08:42:47.203641",
	"eval_loss": 0.11854572594165802,
	"eval_runtime": 52.4158,
	"eval_samples_per_second": 4.77,
	"eval_steps_per_second": 1.202,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2405,
	"epoch": 0.6808691344044164,
	"wallclock": "2026-05-23T08:46:24.285045",
	"loss": 0.1037,
	"grad_norm": 0.8943494558334351,
	"learning_rate": 7.678437125511293e-06,
	"step_time_sec": 269.58
	},
	{
	"step": 2410,
	"epoch": 0.6822846627503716,
	"wallclock": "2026-05-23T08:48:17.119278",
	"loss": 0.1201,
	"grad_norm": 1.3184447288513184,
	"learning_rate": 7.668751125423997e-06,
	"step_time_sec": 112.83
	},
	{
	"step": 2415,
	"epoch": 0.6837001910963267,
	"wallclock": "2026-05-23T08:50:10.316231",
	"loss": 0.127,
	"grad_norm": 1.2354567050933838,
	"learning_rate": 7.659051100011796e-06,
	"step_time_sec": 113.2
	},
	{
	"step": 2420,
	"epoch": 0.6851157194422818,
	"wallclock": "2026-05-23T08:52:04.524428",
	"loss": 0.0854,
	"grad_norm": 0.7846460342407227,
	"learning_rate": 7.649337100252091e-06,
	"step_time_sec": 114.21
	},
	{
	"step": 2425,
	"epoch": 0.6865312477882369,
	"wallclock": "2026-05-23T08:53:59.953373",
	"loss": 0.1035,
	"grad_norm": 0.6973745226860046,
	"learning_rate": 7.639609177195732e-06,
	"step_time_sec": 115.43
	},
	{
	"step": 2430,
	"epoch": 0.6879467761341921,
	"wallclock": "2026-05-23T08:55:54.650826",
	"loss": 0.1035,
	"grad_norm": 0.8783355951309204,
	"learning_rate": 7.629867381966739e-06,
	"step_time_sec": 114.7
	},
	{
	"step": 2435,
	"epoch": 0.6893623044801472,
	"wallclock": "2026-05-23T08:57:49.808654",
	"loss": 0.1103,
	"grad_norm": 0.8976749777793884,
	"learning_rate": 7.6201117657620284e-06,
	"step_time_sec": 115.16
	},
	{
	"step": 2440,
	"epoch": 0.6907778328261024,
	"wallclock": "2026-05-23T08:59:43.041184",
	"loss": 0.1041,
	"grad_norm": 1.3639253377914429,
	"learning_rate": 7.610342379851159e-06,
	"step_time_sec": 113.23
	},
	{
	"step": 2445,
	"epoch": 0.6921933611720574,
	"wallclock": "2026-05-23T09:01:36.414580",
	"loss": 0.1172,
	"grad_norm": 1.34951651096344,
	"learning_rate": 7.600559275576054e-06,
	"step_time_sec": 113.37
	},
	{
	"step": 2450,
	"epoch": 0.6936088895180126,
	"wallclock": "2026-05-23T09:03:31.256289",
	"loss": 0.1272,
	"grad_norm": 1.2545363903045654,
	"learning_rate": 7.590762504350729e-06,
	"step_time_sec": 114.84,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 69.86
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2455,
	"epoch": 0.6950244178639677,
	"wallclock": "2026-05-23T09:05:26.347778",
	"loss": 0.1098,
	"grad_norm": 0.902570903301239,
	"learning_rate": 7.580952117661028e-06,
	"step_time_sec": 115.09
	},
	{
	"step": 2460,
	"epoch": 0.6964399462099229,
	"wallclock": "2026-05-23T09:07:22.291465",
	"loss": 0.1261,
	"grad_norm": 1.299424171447754,
	"learning_rate": 7.571128167064347e-06,
	"step_time_sec": 115.94
	},
	{
	"step": 2465,
	"epoch": 0.6978554745558779,
	"wallclock": "2026-05-23T09:09:16.390275",
	"loss": 0.1101,
	"grad_norm": 0.9918133020401001,
	"learning_rate": 7.5612907041893645e-06,
	"step_time_sec": 114.1
	},
	{
	"step": 2470,
	"epoch": 0.6992710029018331,
	"wallclock": "2026-05-23T09:11:10.300186",
	"loss": 0.0887,
	"grad_norm": 0.9212543964385986,
	"learning_rate": 7.551439780735775e-06,
	"step_time_sec": 113.91
	},
	{
	"step": 2475,
	"epoch": 0.7006865312477882,
	"wallclock": "2026-05-23T09:13:02.291441",
	"loss": 0.1198,
	"grad_norm": 1.1632072925567627,
	"learning_rate": 7.541575448474012e-06,
	"step_time_sec": 111.99
	},
	{
	"step": 2480,
	"epoch": 0.7021020595937434,
	"wallclock": "2026-05-23T09:14:55.310823",
	"loss": 0.0919,
	"grad_norm": 0.9132311940193176,
	"learning_rate": 7.531697759244978e-06,
	"step_time_sec": 113.02
	},
	{
	"step": 2485,
	"epoch": 0.7035175879396985,
	"wallclock": "2026-05-23T09:16:49.595016",
	"loss": 0.1046,
	"grad_norm": 0.9931870698928833,
	"learning_rate": 7.521806764959769e-06,
	"step_time_sec": 114.28
	},
	{
	"step": 2490,
	"epoch": 0.7049331162856536,
	"wallclock": "2026-05-23T09:18:43.462544",
	"loss": 0.0934,
	"grad_norm": 0.810712993144989,
	"learning_rate": 7.511902517599407e-06,
	"step_time_sec": 113.87
	},
	{
	"step": 2495,
	"epoch": 0.7063486446316087,
	"wallclock": "2026-05-23T09:20:37.403219",
	"loss": 0.1027,
	"grad_norm": 1.004841685295105,
	"learning_rate": 7.501985069214561e-06,
	"step_time_sec": 113.94
	},
	{
	"step": 2500,
	"epoch": 0.7077641729775639,
	"wallclock": "2026-05-23T09:22:33.235203",
	"loss": 0.0982,
	"grad_norm": 0.7684575319290161,
	"learning_rate": 7.492054471925282e-06,
	"step_time_sec": 115.83,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2500,
	"epoch": 0.7077641729775639,
	"wallclock": "2026-05-23T09:23:26.146278",
	"eval_loss": 0.11603201180696487,
	"eval_runtime": 52.8156,
	"eval_samples_per_second": 4.733,
	"eval_steps_per_second": 1.193,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2505,
	"epoch": 0.709179701323519,
	"wallclock": "2026-05-23T09:27:05.152438",
	"loss": 0.1083,
	"grad_norm": 0.8736166954040527,
	"learning_rate": 7.482110777920719e-06,
	"step_time_sec": 271.92
	},
	{
	"step": 2510,
	"epoch": 0.7105952296694741,
	"wallclock": "2026-05-23T09:28:58.645822",
	"loss": 0.1197,
	"grad_norm": 1.1975699663162231,
	"learning_rate": 7.472154039458851e-06,
	"step_time_sec": 113.49
	},
	{
	"step": 2515,
	"epoch": 0.7120107580154292,
	"wallclock": "2026-05-23T09:30:54.443603",
	"loss": 0.1261,
	"grad_norm": 1.4840281009674072,
	"learning_rate": 7.462184308866209e-06,
	"step_time_sec": 115.8
	},
	{
	"step": 2520,
	"epoch": 0.7134262863613844,
	"wallclock": "2026-05-23T09:32:48.921941",
	"loss": 0.1001,
	"grad_norm": 0.9024205803871155,
	"learning_rate": 7.452201638537605e-06,
	"step_time_sec": 114.48
	},
	{
	"step": 2525,
	"epoch": 0.7148418147073395,
	"wallclock": "2026-05-23T09:34:43.594377",
	"loss": 0.0883,
	"grad_norm": 2.425753355026245,
	"learning_rate": 7.442206080935852e-06,
	"step_time_sec": 114.67
	},
	{
	"step": 2530,
	"epoch": 0.7162573430532947,
	"wallclock": "2026-05-23T09:36:38.043629",
	"loss": 0.1033,
	"grad_norm": 0.9202796816825867,
	"learning_rate": 7.432197688591494e-06,
	"step_time_sec": 114.45
	},
	{
	"step": 2535,
	"epoch": 0.7176728713992497,
	"wallclock": "2026-05-23T09:38:33.443082",
	"loss": 0.1229,
	"grad_norm": 0.8916212320327759,
	"learning_rate": 7.422176514102524e-06,
	"step_time_sec": 115.4
	},
	{
	"step": 2540,
	"epoch": 0.7190883997452049,
	"wallclock": "2026-05-23T09:40:26.131948",
	"loss": 0.0948,
	"grad_norm": 0.7314426898956299,
	"learning_rate": 7.41214261013411e-06,
	"step_time_sec": 112.69
	},
	{
	"step": 2545,
	"epoch": 0.72050392809116,
	"wallclock": "2026-05-23T09:42:19.625497",
	"loss": 0.1031,
	"grad_norm": 1.2673311233520508,
	"learning_rate": 7.402096029418317e-06,
	"step_time_sec": 113.49
	},
	{
	"step": 2550,
	"epoch": 0.7219194564371152,
	"wallclock": "2026-05-23T09:44:13.852248",
	"loss": 0.1199,
	"grad_norm": 0.9767388701438904,
	"learning_rate": 7.3920368247538384e-06,
	"step_time_sec": 114.23,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2555,
	"epoch": 0.7233349847830702,
	"wallclock": "2026-05-23T09:46:07.447283",
	"loss": 0.1087,
	"grad_norm": 1.0202505588531494,
	"learning_rate": 7.381965049005703e-06,
	"step_time_sec": 113.6
	},
	{
	"step": 2560,
	"epoch": 0.7247505131290254,
	"wallclock": "2026-05-23T09:48:01.720028",
	"loss": 0.0971,
	"grad_norm": 1.1415823698043823,
	"learning_rate": 7.371880755105008e-06,
	"step_time_sec": 114.27
	},
	{
	"step": 2565,
	"epoch": 0.7261660414749805,
	"wallclock": "2026-05-23T09:49:56.656471",
	"loss": 0.1001,
	"grad_norm": 1.0273898839950562,
	"learning_rate": 7.361783996048641e-06,
	"step_time_sec": 114.94
	},
	{
	"step": 2570,
	"epoch": 0.7275815698209357,
	"wallclock": "2026-05-23T09:51:49.820193",
	"loss": 0.1057,
	"grad_norm": 1.1736416816711426,
	"learning_rate": 7.3516748248989955e-06,
	"step_time_sec": 113.16
	},
	{
	"step": 2575,
	"epoch": 0.7289970981668908,
	"wallclock": "2026-05-23T09:53:43.050372",
	"loss": 0.1056,
	"grad_norm": 0.8515759706497192,
	"learning_rate": 7.341553294783699e-06,
	"step_time_sec": 113.23
	},
	{
	"step": 2580,
	"epoch": 0.7304126265128459,
	"wallclock": "2026-05-23T09:55:37.522835",
	"loss": 0.1058,
	"grad_norm": 0.8394744992256165,
	"learning_rate": 7.3314194588953256e-06,
	"step_time_sec": 114.47
	},
	{
	"step": 2585,
	"epoch": 0.731828154858801,
	"wallclock": "2026-05-23T09:57:31.953180",
	"loss": 0.1082,
	"grad_norm": 0.7621601819992065,
	"learning_rate": 7.3212733704911235e-06,
	"step_time_sec": 114.43
	},
	{
	"step": 2590,
	"epoch": 0.7332436832047562,
	"wallclock": "2026-05-23T09:59:25.144746",
	"loss": 0.1147,
	"grad_norm": 1.1607191562652588,
	"learning_rate": 7.311115082892733e-06,
	"step_time_sec": 113.19
	},
	{
	"step": 2595,
	"epoch": 0.7346592115507113,
	"wallclock": "2026-05-23T10:01:19.943656",
	"loss": 0.1141,
	"grad_norm": 0.9936063289642334,
	"learning_rate": 7.300944649485908e-06,
	"step_time_sec": 114.8
	},
	{
	"step": 2600,
	"epoch": 0.7360747398966664,
	"wallclock": "2026-05-23T10:03:14.923839",
	"loss": 0.1048,
	"grad_norm": 0.7679593563079834,
	"learning_rate": 7.2907621237202275e-06,
	"step_time_sec": 114.98,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2600,
	"epoch": 0.7360747398966664,
	"wallclock": "2026-05-23T10:04:07.231100",
	"eval_loss": 0.11498851329088211,
	"eval_runtime": 52.2032,
	"eval_samples_per_second": 4.789,
	"eval_steps_per_second": 1.207,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2605,
	"epoch": 0.7374902682426215,
	"wallclock": "2026-05-23T10:07:42.813659",
	"loss": 0.0785,
	"grad_norm": 0.8581358790397644,
	"learning_rate": 7.280567559108825e-06,
	"step_time_sec": 267.89
	},
	{
	"step": 2610,
	"epoch": 0.7389057965885767,
	"wallclock": "2026-05-23T10:09:36.902094",
	"loss": 0.0795,
	"grad_norm": 1.4470053911209106,
	"learning_rate": 7.270361009228104e-06,
	"step_time_sec": 114.09
	},
	{
	"step": 2615,
	"epoch": 0.7403213249345318,
	"wallclock": "2026-05-23T10:11:32.049560",
	"loss": 0.1029,
	"grad_norm": 1.1154381036758423,
	"learning_rate": 7.260142527717449e-06,
	"step_time_sec": 115.15
	},
	{
	"step": 2620,
	"epoch": 0.741736853280487,
	"wallclock": "2026-05-23T10:13:28.524157",
	"loss": 0.114,
	"grad_norm": 1.143662929534912,
	"learning_rate": 7.249912168278954e-06,
	"step_time_sec": 116.47
	},
	{
	"step": 2625,
	"epoch": 0.743152381626442,
	"wallclock": "2026-05-23T10:15:25.719237",
	"loss": 0.1157,
	"grad_norm": 1.3383020162582397,
	"learning_rate": 7.23966998467714e-06,
	"step_time_sec": 117.2
	},
	{
	"step": 2630,
	"epoch": 0.7445679099723972,
	"wallclock": "2026-05-23T10:17:20.106607",
	"loss": 0.097,
	"grad_norm": 1.3460333347320557,
	"learning_rate": 7.229416030738661e-06,
	"step_time_sec": 114.39
	},
	{
	"step": 2635,
	"epoch": 0.7459834383183523,
	"wallclock": "2026-05-23T10:19:12.833927",
	"loss": 0.0934,
	"grad_norm": 1.0922449827194214,
	"learning_rate": 7.219150360352032e-06,
	"step_time_sec": 112.73
	},
	{
	"step": 2640,
	"epoch": 0.7473989666643075,
	"wallclock": "2026-05-23T10:21:07.756043",
	"loss": 0.1099,
	"grad_norm": 0.9513120651245117,
	"learning_rate": 7.208873027467345e-06,
	"step_time_sec": 114.92
	},
	{
	"step": 2645,
	"epoch": 0.7488144950102625,
	"wallclock": "2026-05-23T10:23:00.826108",
	"loss": 0.1106,
	"grad_norm": 0.9753119945526123,
	"learning_rate": 7.198584086095979e-06,
	"step_time_sec": 113.07
	},
	{
	"step": 2650,
	"epoch": 0.7502300233562177,
	"wallclock": "2026-05-23T10:24:56.030014",
	"loss": 0.0936,
	"grad_norm": 1.4077311754226685,
	"learning_rate": 7.188283590310322e-06,
	"step_time_sec": 115.2,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2655,
	"epoch": 0.7516455517021728,
	"wallclock": "2026-05-23T10:26:50.125758",
	"loss": 0.1239,
	"grad_norm": 0.8350121378898621,
	"learning_rate": 7.177971594243486e-06,
	"step_time_sec": 114.1
	},
	{
	"step": 2660,
	"epoch": 0.753061080048128,
	"wallclock": "2026-05-23T10:28:44.428938",
	"loss": 0.1024,
	"grad_norm": 1.0880407094955444,
	"learning_rate": 7.167648152089017e-06,
	"step_time_sec": 114.3
	},
	{
	"step": 2665,
	"epoch": 0.754476608394083,
	"wallclock": "2026-05-23T10:30:38.443004",
	"loss": 0.1,
	"grad_norm": 1.0360862016677856,
	"learning_rate": 7.157313318100622e-06,
	"step_time_sec": 114.01
	},
	{
	"step": 2670,
	"epoch": 0.7558921367400382,
	"wallclock": "2026-05-23T10:32:32.126033",
	"loss": 0.1126,
	"grad_norm": 1.0407313108444214,
	"learning_rate": 7.14696714659187e-06,
	"step_time_sec": 113.68
	},
	{
	"step": 2675,
	"epoch": 0.7573076650859933,
	"wallclock": "2026-05-23T10:34:25.914981",
	"loss": 0.0933,
	"grad_norm": 1.346449613571167,
	"learning_rate": 7.136609691935914e-06,
	"step_time_sec": 113.79
	},
	{
	"step": 2680,
	"epoch": 0.7587231934319485,
	"wallclock": "2026-05-23T10:36:21.156179",
	"loss": 0.0893,
	"grad_norm": 1.2292298078536987,
	"learning_rate": 7.1262410085652075e-06,
	"step_time_sec": 115.24
	},
	{
	"step": 2685,
	"epoch": 0.7601387217779036,
	"wallclock": "2026-05-23T10:38:15.006638",
	"loss": 0.1224,
	"grad_norm": 1.2744159698486328,
	"learning_rate": 7.115861150971215e-06,
	"step_time_sec": 113.85
	},
	{
	"step": 2690,
	"epoch": 0.7615542501238587,
	"wallclock": "2026-05-23T10:40:09.527798",
	"loss": 0.0863,
	"grad_norm": 1.0019073486328125,
	"learning_rate": 7.105470173704121e-06,
	"step_time_sec": 114.52
	},
	{
	"step": 2695,
	"epoch": 0.7629697784698138,
	"wallclock": "2026-05-23T10:42:03.509958",
	"loss": 0.098,
	"grad_norm": 1.0547888278961182,
	"learning_rate": 7.095068131372552e-06,
	"step_time_sec": 113.98
	},
	{
	"step": 2700,
	"epoch": 0.764385306815769,
	"wallclock": "2026-05-23T10:44:00.051414",
	"loss": 0.116,
	"grad_norm": 0.9419006109237671,
	"learning_rate": 7.0846550786432885e-06,
	"step_time_sec": 116.54,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2700,
	"epoch": 0.764385306815769,
	"wallclock": "2026-05-23T10:44:52.913063",
	"eval_loss": 0.110720694065094,
	"eval_runtime": 52.7686,
	"eval_samples_per_second": 4.738,
	"eval_steps_per_second": 1.194,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2705,
	"epoch": 0.7658008351617241,
	"wallclock": "2026-05-23T10:48:31.237934",
	"loss": 0.0998,
	"grad_norm": 1.0532370805740356,
	"learning_rate": 7.074231070240969e-06,
	"step_time_sec": 271.19
	},
	{
	"step": 2710,
	"epoch": 0.7672163635076792,
	"wallclock": "2026-05-23T10:50:25.703822",
	"loss": 0.1059,
	"grad_norm": 1.1707059144973755,
	"learning_rate": 7.063796160947811e-06,
	"step_time_sec": 114.47
	},
	{
	"step": 2715,
	"epoch": 0.7686318918536343,
	"wallclock": "2026-05-23T10:52:20.230127",
	"loss": 0.0836,
	"grad_norm": 1.0319560766220093,
	"learning_rate": 7.0533504056033234e-06,
	"step_time_sec": 114.53
	},
	{
	"step": 2720,
	"epoch": 0.7700474201995895,
	"wallclock": "2026-05-23T10:54:15.428683",
	"loss": 0.0971,
	"grad_norm": 1.1601600646972656,
	"learning_rate": 7.042893859104008e-06,
	"step_time_sec": 115.2
	},
	{
	"step": 2725,
	"epoch": 0.7714629485455446,
	"wallclock": "2026-05-23T10:56:09.560972",
	"loss": 0.0808,
	"grad_norm": 1.0438365936279297,
	"learning_rate": 7.032426576403084e-06,
	"step_time_sec": 114.13
	},
	{
	"step": 2730,
	"epoch": 0.7728784768914998,
	"wallclock": "2026-05-23T10:58:03.848888",
	"loss": 0.102,
	"grad_norm": 1.1061596870422363,
	"learning_rate": 7.021948612510194e-06,
	"step_time_sec": 114.29
	},
	{
	"step": 2735,
	"epoch": 0.7742940052374548,
	"wallclock": "2026-05-23T10:59:58.320211",
	"loss": 0.0984,
	"grad_norm": 0.7871215343475342,
	"learning_rate": 7.011460022491111e-06,
	"step_time_sec": 114.47
	},
	{
	"step": 2740,
	"epoch": 0.77570953358341,
	"wallclock": "2026-05-23T11:01:53.123512",
	"loss": 0.0861,
	"grad_norm": 0.9695367813110352,
	"learning_rate": 7.000960861467454e-06,
	"step_time_sec": 114.8
	},
	{
	"step": 2745,
	"epoch": 0.7771250619293651,
	"wallclock": "2026-05-23T11:03:47.400982",
	"loss": 0.0988,
	"grad_norm": 0.9494866132736206,
	"learning_rate": 6.990451184616399e-06,
	"step_time_sec": 114.28
	},
	{
	"step": 2750,
	"epoch": 0.7785405902753203,
	"wallclock": "2026-05-23T11:05:41.439834",
	"loss": 0.0848,
	"grad_norm": 0.8476992249488831,
	"learning_rate": 6.979931047170382e-06,
	"step_time_sec": 114.04,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2755,
	"epoch": 0.7799561186212753,
	"wallclock": "2026-05-23T11:07:35.107884",
	"loss": 0.0877,
	"grad_norm": 0.9056459069252014,
	"learning_rate": 6.969400504416816e-06,
	"step_time_sec": 113.67
	},
	{
	"step": 2760,
	"epoch": 0.7813716469672305,
	"wallclock": "2026-05-23T11:09:27.251632",
	"loss": 0.0942,
	"grad_norm": 1.1086695194244385,
	"learning_rate": 6.9588596116978015e-06,
	"step_time_sec": 112.14
	},
	{
	"step": 2765,
	"epoch": 0.7827871753131856,
	"wallclock": "2026-05-23T11:11:21.586762",
	"loss": 0.1023,
	"grad_norm": 1.655490756034851,
	"learning_rate": 6.948308424409824e-06,
	"step_time_sec": 114.34
	},
	{
	"step": 2770,
	"epoch": 0.7842027036591408,
	"wallclock": "2026-05-23T11:13:15.016276",
	"loss": 0.1057,
	"grad_norm": 0.9345031380653381,
	"learning_rate": 6.937746998003477e-06,
	"step_time_sec": 113.43
	},
	{
	"step": 2775,
	"epoch": 0.785618232005096,
	"wallclock": "2026-05-23T11:15:09.371971",
	"loss": 0.0827,
	"grad_norm": 1.2220042943954468,
	"learning_rate": 6.927175387983165e-06,
	"step_time_sec": 114.36
	},
	{
	"step": 2780,
	"epoch": 0.787033760351051,
	"wallclock": "2026-05-23T11:17:03.650861",
	"loss": 0.1028,
	"grad_norm": 0.8835825324058533,
	"learning_rate": 6.9165936499068065e-06,
	"step_time_sec": 114.28
	},
	{
	"step": 2785,
	"epoch": 0.7884492886970061,
	"wallclock": "2026-05-23T11:18:57.806390",
	"loss": 0.095,
	"grad_norm": 1.1001851558685303,
	"learning_rate": 6.906001839385551e-06,
	"step_time_sec": 114.16
	},
	{
	"step": 2790,
	"epoch": 0.7898648170429613,
	"wallclock": "2026-05-23T11:20:52.228547",
	"loss": 0.0906,
	"grad_norm": 0.7298992276191711,
	"learning_rate": 6.895400012083482e-06,
	"step_time_sec": 114.42
	},
	{
	"step": 2795,
	"epoch": 0.7912803453889165,
	"wallclock": "2026-05-23T11:22:47.415434",
	"loss": 0.1135,
	"grad_norm": 0.8096187710762024,
	"learning_rate": 6.884788223717326e-06,
	"step_time_sec": 115.19
	},
	{
	"step": 2800,
	"epoch": 0.7926958737348715,
	"wallclock": "2026-05-23T11:24:42.100846",
	"loss": 0.0896,
	"grad_norm": 0.7147625088691711,
	"learning_rate": 6.874166530056153e-06,
	"step_time_sec": 114.69,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2800,
	"epoch": 0.7926958737348715,
	"wallclock": "2026-05-23T11:25:35.071421",
	"eval_loss": 0.10768646746873856,
	"eval_runtime": 52.8634,
	"eval_samples_per_second": 4.729,
	"eval_steps_per_second": 1.192,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2805,
	"epoch": 0.7941114020808266,
	"wallclock": "2026-05-23T11:29:12.349456",
	"loss": 0.104,
	"grad_norm": 1.1961441040039062,
	"learning_rate": 6.863534986921098e-06,
	"step_time_sec": 270.25
	},
	{
	"step": 2810,
	"epoch": 0.7955269304267818,
	"wallclock": "2026-05-23T11:31:06.641212",
	"loss": 0.0879,
	"grad_norm": 0.8926189541816711,
	"learning_rate": 6.852893650185051e-06,
	"step_time_sec": 114.29
	},
	{
	"step": 2815,
	"epoch": 0.796942458772737,
	"wallclock": "2026-05-23T11:33:01.446223",
	"loss": 0.0953,
	"grad_norm": 0.6535293459892273,
	"learning_rate": 6.842242575772374e-06,
	"step_time_sec": 114.81
	},
	{
	"step": 2820,
	"epoch": 0.7983579871186921,
	"wallclock": "2026-05-23T11:34:55.451278",
	"loss": 0.0921,
	"grad_norm": 1.124362587928772,
	"learning_rate": 6.831581819658608e-06,
	"step_time_sec": 114.01
	},
	{
	"step": 2825,
	"epoch": 0.7997735154646471,
	"wallclock": "2026-05-23T11:36:49.662998",
	"loss": 0.1037,
	"grad_norm": 0.7776113152503967,
	"learning_rate": 6.820911437870169e-06,
	"step_time_sec": 114.21
	},
	{
	"step": 2830,
	"epoch": 0.8011890438106023,
	"wallclock": "2026-05-23T11:38:45.282209",
	"loss": 0.0958,
	"grad_norm": 1.1590611934661865,
	"learning_rate": 6.810231486484064e-06,
	"step_time_sec": 115.62
	},
	{
	"step": 2835,
	"epoch": 0.8026045721565574,
	"wallclock": "2026-05-23T11:40:40.066510",
	"loss": 0.0928,
	"grad_norm": 0.9135128259658813,
	"learning_rate": 6.79954202162759e-06,
	"step_time_sec": 114.78
	},
	{
	"step": 2840,
	"epoch": 0.8040201005025126,
	"wallclock": "2026-05-23T11:42:35.293647",
	"loss": 0.1171,
	"grad_norm": 1.5331295728683472,
	"learning_rate": 6.788843099478041e-06,
	"step_time_sec": 115.23
	},
	{
	"step": 2845,
	"epoch": 0.8054356288484676,
	"wallclock": "2026-05-23T11:44:32.410482",
	"loss": 0.0892,
	"grad_norm": 0.802897036075592,
	"learning_rate": 6.778134776262413e-06,
	"step_time_sec": 117.12
	},
	{
	"step": 2850,
	"epoch": 0.8068511571944228,
	"wallclock": "2026-05-23T11:46:26.926697",
	"loss": 0.1081,
	"grad_norm": 1.0739949941635132,
	"learning_rate": 6.76741710825711e-06,
	"step_time_sec": 114.52,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2855,
	"epoch": 0.808266685540378,
	"wallclock": "2026-05-23T11:48:20.898137",
	"loss": 0.0906,
	"grad_norm": 1.2039380073547363,
	"learning_rate": 6.756690151787643e-06,
	"step_time_sec": 113.97
	},
	{
	"step": 2860,
	"epoch": 0.8096822138863331,
	"wallclock": "2026-05-23T11:50:16.624972",
	"loss": 0.0765,
	"grad_norm": 0.9947606325149536,
	"learning_rate": 6.74595396322834e-06,
	"step_time_sec": 115.73
	},
	{
	"step": 2865,
	"epoch": 0.8110977422322883,
	"wallclock": "2026-05-23T11:52:08.742942",
	"loss": 0.0886,
	"grad_norm": 1.0721163749694824,
	"learning_rate": 6.735208599002048e-06,
	"step_time_sec": 112.12
	},
	{
	"step": 2870,
	"epoch": 0.8125132705782433,
	"wallclock": "2026-05-23T11:54:01.649122",
	"loss": 0.0956,
	"grad_norm": 0.9984346628189087,
	"learning_rate": 6.724454115579832e-06,
	"step_time_sec": 112.91
	},
	{
	"step": 2875,
	"epoch": 0.8139287989241984,
	"wallclock": "2026-05-23T11:55:55.986094",
	"loss": 0.1013,
	"grad_norm": 0.8976569771766663,
	"learning_rate": 6.713690569480685e-06,
	"step_time_sec": 114.34
	},
	{
	"step": 2880,
	"epoch": 0.8153443272701536,
	"wallclock": "2026-05-23T11:57:50.253656",
	"loss": 0.11,
	"grad_norm": 1.3766424655914307,
	"learning_rate": 6.7029180172712295e-06,
	"step_time_sec": 114.27
	},
	{
	"step": 2885,
	"epoch": 0.8167598556161088,
	"wallclock": "2026-05-23T11:59:45.942765",
	"loss": 0.0871,
	"grad_norm": 0.7033481597900391,
	"learning_rate": 6.6921365155654126e-06,
	"step_time_sec": 115.69
	},
	{
	"step": 2890,
	"epoch": 0.8181753839620638,
	"wallclock": "2026-05-23T12:01:42.248219",
	"loss": 0.0872,
	"grad_norm": 1.1330105066299438,
	"learning_rate": 6.6813461210242215e-06,
	"step_time_sec": 116.31
	},
	{
	"step": 2895,
	"epoch": 0.819590912308019,
	"wallclock": "2026-05-23T12:03:36.053753",
	"loss": 0.1055,
	"grad_norm": 1.2184752225875854,
	"learning_rate": 6.670546890355374e-06,
	"step_time_sec": 113.81
	},
	{
	"step": 2900,
	"epoch": 0.8210064406539741,
	"wallclock": "2026-05-23T12:05:30.028128",
	"loss": 0.1058,
	"grad_norm": 0.665178656578064,
	"learning_rate": 6.659738880313025e-06,
	"step_time_sec": 113.97,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2900,
	"epoch": 0.8210064406539741,
	"wallclock": "2026-05-23T12:06:22.012953",
	"eval_loss": 0.10808777064085007,
	"eval_runtime": 51.8846,
	"eval_samples_per_second": 4.818,
	"eval_steps_per_second": 1.214,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2905,
	"epoch": 0.8224219689999293,
	"wallclock": "2026-05-23T12:09:56.926177",
	"loss": 0.0969,
	"grad_norm": 1.386168122291565,
	"learning_rate": 6.648922147697471e-06,
	"step_time_sec": 266.9
	},
	{
	"step": 2910,
	"epoch": 0.8238374973458844,
	"wallclock": "2026-05-23T12:11:52.616991",
	"loss": 0.0787,
	"grad_norm": 1.0408498048782349,
	"learning_rate": 6.63809674935485e-06,
	"step_time_sec": 115.69
	},
	{
	"step": 2915,
	"epoch": 0.8252530256918394,
	"wallclock": "2026-05-23T12:13:47.509339",
	"loss": 0.106,
	"grad_norm": 1.0766488313674927,
	"learning_rate": 6.6272627421768366e-06,
	"step_time_sec": 114.89
	},
	{
	"step": 2920,
	"epoch": 0.8266685540377946,
	"wallclock": "2026-05-23T12:15:43.081952",
	"loss": 0.0859,
	"grad_norm": 0.8988505005836487,
	"learning_rate": 6.616420183100353e-06,
	"step_time_sec": 115.57
	},
	{
	"step": 2925,
	"epoch": 0.8280840823837498,
	"wallclock": "2026-05-23T12:17:37.913984",
	"loss": 0.09,
	"grad_norm": 1.0285881757736206,
	"learning_rate": 6.605569129107263e-06,
	"step_time_sec": 114.83
	},
	{
	"step": 2930,
	"epoch": 0.8294996107297049,
	"wallclock": "2026-05-23T12:19:32.363447",
	"loss": 0.0921,
	"grad_norm": 1.0034139156341553,
	"learning_rate": 6.594709637224075e-06,
	"step_time_sec": 114.45
	},
	{
	"step": 2935,
	"epoch": 0.83091513907566,
	"wallclock": "2026-05-23T12:21:27.369008",
	"loss": 0.0802,
	"grad_norm": 0.8240336775779724,
	"learning_rate": 6.583841764521641e-06,
	"step_time_sec": 115.01
	},
	{
	"step": 2940,
	"epoch": 0.8323306674216151,
	"wallclock": "2026-05-23T12:23:23.007495",
	"loss": 0.095,
	"grad_norm": 1.2371604442596436,
	"learning_rate": 6.572965568114859e-06,
	"step_time_sec": 115.64
	},
	{
	"step": 2945,
	"epoch": 0.8337461957675703,
	"wallclock": "2026-05-23T12:25:16.996557",
	"loss": 0.095,
	"grad_norm": 1.1819149255752563,
	"learning_rate": 6.562081105162369e-06,
	"step_time_sec": 113.99
	},
	{
	"step": 2950,
	"epoch": 0.8351617241135254,
	"wallclock": "2026-05-23T12:27:11.125332",
	"loss": 0.08,
	"grad_norm": 1.0016002655029297,
	"learning_rate": 6.551188432866257e-06,
	"step_time_sec": 114.13,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 2955,
	"epoch": 0.8365772524594804,
	"wallclock": "2026-05-23T12:29:06.207323",
	"loss": 0.1015,
	"grad_norm": 1.2419204711914062,
	"learning_rate": 6.5402876084717514e-06,
	"step_time_sec": 115.08
	},
	{
	"step": 2960,
	"epoch": 0.8379927808054356,
	"wallclock": "2026-05-23T12:31:00.634331",
	"loss": 0.0848,
	"grad_norm": 1.0234307050704956,
	"learning_rate": 6.529378689266923e-06,
	"step_time_sec": 114.43
	},
	{
	"step": 2965,
	"epoch": 0.8394083091513908,
	"wallclock": "2026-05-23T12:32:54.709674",
	"loss": 0.1004,
	"grad_norm": 1.3117458820343018,
	"learning_rate": 6.518461732582385e-06,
	"step_time_sec": 114.08
	},
	{
	"step": 2970,
	"epoch": 0.8408238374973459,
	"wallclock": "2026-05-23T12:34:50.639025",
	"loss": 0.0861,
	"grad_norm": 0.6640080213546753,
	"learning_rate": 6.507536795790989e-06,
	"step_time_sec": 115.93
	},
	{
	"step": 2975,
	"epoch": 0.8422393658433011,
	"wallclock": "2026-05-23T12:36:44.816198",
	"loss": 0.0921,
	"grad_norm": 0.7706874012947083,
	"learning_rate": 6.496603936307525e-06,
	"step_time_sec": 114.18
	},
	{
	"step": 2980,
	"epoch": 0.8436548941892561,
	"wallclock": "2026-05-23T12:38:41.632400",
	"loss": 0.0774,
	"grad_norm": 0.9700288772583008,
	"learning_rate": 6.4856632115884245e-06,
	"step_time_sec": 116.82
	},
	{
	"step": 2985,
	"epoch": 0.8450704225352113,
	"wallclock": "2026-05-23T12:40:37.751686",
	"loss": 0.0827,
	"grad_norm": 1.0276799201965332,
	"learning_rate": 6.4747146791314456e-06,
	"step_time_sec": 116.12
	},
	{
	"step": 2990,
	"epoch": 0.8464859508811664,
	"wallclock": "2026-05-23T12:42:31.949658",
	"loss": 0.1038,
	"grad_norm": 1.124481439590454,
	"learning_rate": 6.4637583964753855e-06,
	"step_time_sec": 114.2
	},
	{
	"step": 2995,
	"epoch": 0.8479014792271216,
	"wallclock": "2026-05-23T12:44:25.803641",
	"loss": 0.1034,
	"grad_norm": 1.4556708335876465,
	"learning_rate": 6.452794421199772e-06,
	"step_time_sec": 113.85
	},
	{
	"step": 3000,
	"epoch": 0.8493170075730766,
	"wallclock": "2026-05-23T12:46:20.662475",
	"loss": 0.0808,
	"grad_norm": 0.7637086510658264,
	"learning_rate": 6.441822810924555e-06,
	"step_time_sec": 114.86,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3000,
	"epoch": 0.8493170075730766,
	"wallclock": "2026-05-23T12:47:14.237339",
	"eval_loss": 0.10439032316207886,
	"eval_runtime": 53.4665,
	"eval_samples_per_second": 4.676,
	"eval_steps_per_second": 1.178,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3005,
	"epoch": 0.8507325359190318,
	"wallclock": "2026-05-23T12:50:47.509195",
	"loss": 0.0871,
	"grad_norm": 1.2917267084121704,
	"learning_rate": 6.430843623309815e-06,
	"step_time_sec": 266.85
	},
	{
	"step": 3010,
	"epoch": 0.8521480642649869,
	"wallclock": "2026-05-23T12:52:42.040424",
	"loss": 0.0832,
	"grad_norm": 1.129804015159607,
	"learning_rate": 6.419856916055453e-06,
	"step_time_sec": 114.53
	},
	{
	"step": 3015,
	"epoch": 0.8535635926109421,
	"wallclock": "2026-05-23T12:54:39.916099",
	"loss": 0.0821,
	"grad_norm": 0.72309809923172,
	"learning_rate": 6.408862746900884e-06,
	"step_time_sec": 117.88
	},
	{
	"step": 3020,
	"epoch": 0.8549791209568972,
	"wallclock": "2026-05-23T12:56:33.338244",
	"loss": 0.0764,
	"grad_norm": 0.6796430349349976,
	"learning_rate": 6.397861173624745e-06,
	"step_time_sec": 113.42
	},
	{
	"step": 3025,
	"epoch": 0.8563946493028523,
	"wallclock": "2026-05-23T12:58:26.302630",
	"loss": 0.0984,
	"grad_norm": 1.0264241695404053,
	"learning_rate": 6.386852254044582e-06,
	"step_time_sec": 112.96
	},
	{
	"step": 3030,
	"epoch": 0.8578101776488074,
	"wallclock": "2026-05-23T13:00:19.802002",
	"loss": 0.0875,
	"grad_norm": 1.4211701154708862,
	"learning_rate": 6.375836046016547e-06,
	"step_time_sec": 113.5
	},
	{
	"step": 3035,
	"epoch": 0.8592257059947626,
	"wallclock": "2026-05-23T13:02:13.721659",
	"loss": 0.0833,
	"grad_norm": 1.0724290609359741,
	"learning_rate": 6.3648126074350955e-06,
	"step_time_sec": 113.92
	},
	{
	"step": 3040,
	"epoch": 0.8606412343407177,
	"wallclock": "2026-05-23T13:04:08.151856",
	"loss": 0.0943,
	"grad_norm": 0.9527065753936768,
	"learning_rate": 6.353781996232689e-06,
	"step_time_sec": 114.43
	},
	{
	"step": 3045,
	"epoch": 0.8620567626866728,
	"wallclock": "2026-05-23T13:06:02.084910",
	"loss": 0.0915,
	"grad_norm": 0.9171473979949951,
	"learning_rate": 6.342744270379471e-06,
	"step_time_sec": 113.93
	},
	{
	"step": 3050,
	"epoch": 0.8634722910326279,
	"wallclock": "2026-05-23T13:07:56.129979",
	"loss": 0.0772,
	"grad_norm": 1.1974050998687744,
	"learning_rate": 6.331699487882987e-06,
	"step_time_sec": 114.05,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3055,
	"epoch": 0.8648878193785831,
	"wallclock": "2026-05-23T13:09:50.014721",
	"loss": 0.079,
	"grad_norm": 1.2516535520553589,
	"learning_rate": 6.320647706787866e-06,
	"step_time_sec": 113.88
	},
	{
	"step": 3060,
	"epoch": 0.8663033477245382,
	"wallclock": "2026-05-23T13:11:43.877111",
	"loss": 0.0819,
	"grad_norm": 0.8899274468421936,
	"learning_rate": 6.30958898517551e-06,
	"step_time_sec": 113.86
	},
	{
	"step": 3065,
	"epoch": 0.8677188760704934,
	"wallclock": "2026-05-23T13:13:37.608088",
	"loss": 0.0766,
	"grad_norm": 0.6620562076568604,
	"learning_rate": 6.298523381163805e-06,
	"step_time_sec": 113.73
	},
	{
	"step": 3070,
	"epoch": 0.8691344044164484,
	"wallclock": "2026-05-23T13:15:31.210530",
	"loss": 0.0868,
	"grad_norm": 1.2216447591781616,
	"learning_rate": 6.287450952906802e-06,
	"step_time_sec": 113.6
	},
	{
	"step": 3075,
	"epoch": 0.8705499327624036,
	"wallclock": "2026-05-23T13:17:25.173111",
	"loss": 0.0823,
	"grad_norm": 1.8554191589355469,
	"learning_rate": 6.276371758594416e-06,
	"step_time_sec": 113.96
	},
	{
	"step": 3080,
	"epoch": 0.8719654611083587,
	"wallclock": "2026-05-23T13:19:19.783902",
	"loss": 0.1078,
	"grad_norm": 1.097886085510254,
	"learning_rate": 6.265285856452123e-06,
	"step_time_sec": 114.61
	},
	{
	"step": 3085,
	"epoch": 0.8733809894543139,
	"wallclock": "2026-05-23T13:21:13.021188",
	"loss": 0.1032,
	"grad_norm": 0.9588475227355957,
	"learning_rate": 6.254193304740648e-06,
	"step_time_sec": 113.24
	},
	{
	"step": 3090,
	"epoch": 0.8747965178002689,
	"wallclock": "2026-05-23T13:23:05.522960",
	"loss": 0.0746,
	"grad_norm": 0.9044705629348755,
	"learning_rate": 6.243094161755664e-06,
	"step_time_sec": 112.5
	},
	{
	"step": 3095,
	"epoch": 0.876212046146224,
	"wallclock": "2026-05-23T13:25:01.305677",
	"loss": 0.0996,
	"grad_norm": 1.350035309791565,
	"learning_rate": 6.231988485827483e-06,
	"step_time_sec": 115.78
	},
	{
	"step": 3100,
	"epoch": 0.8776275744921792,
	"wallclock": "2026-05-23T13:26:54.684490",
	"loss": 0.0947,
	"grad_norm": 1.00934898853302,
	"learning_rate": 6.220876335320752e-06,
	"step_time_sec": 113.38,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3100,
	"epoch": 0.8776275744921792,
	"wallclock": "2026-05-23T13:27:47.250665",
	"eval_loss": 0.10196959972381592,
	"eval_runtime": 52.4629,
	"eval_samples_per_second": 4.765,
	"eval_steps_per_second": 1.201,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3105,
	"epoch": 0.8790431028381344,
	"wallclock": "2026-05-23T13:31:22.745504",
	"loss": 0.076,
	"grad_norm": 1.0037931203842163,
	"learning_rate": 6.209757768634142e-06,
	"step_time_sec": 268.06
	},
	{
	"step": 3110,
	"epoch": 0.8804586311840895,
	"wallclock": "2026-05-23T13:33:17.015868",
	"loss": 0.1029,
	"grad_norm": 1.383480191230774,
	"learning_rate": 6.1986328442000425e-06,
	"step_time_sec": 114.27
	},
	{
	"step": 3115,
	"epoch": 0.8818741595300446,
	"wallclock": "2026-05-23T13:35:09.821778",
	"loss": 0.0865,
	"grad_norm": 1.2162877321243286,
	"learning_rate": 6.18750162048426e-06,
	"step_time_sec": 112.81
	},
	{
	"step": 3120,
	"epoch": 0.8832896878759997,
	"wallclock": "2026-05-23T13:37:02.349154",
	"loss": 0.0919,
	"grad_norm": 0.8934468626976013,
	"learning_rate": 6.176364155985701e-06,
	"step_time_sec": 112.53
	},
	{
	"step": 3125,
	"epoch": 0.8847052162219549,
	"wallclock": "2026-05-23T13:38:56.196594",
	"loss": 0.0939,
	"grad_norm": 0.848867654800415,
	"learning_rate": 6.165220509236076e-06,
	"step_time_sec": 113.85
	},
	{
	"step": 3130,
	"epoch": 0.88612074456791,
	"wallclock": "2026-05-23T13:40:49.415671",
	"loss": 0.0871,
	"grad_norm": 1.3182566165924072,
	"learning_rate": 6.1540707387995775e-06,
	"step_time_sec": 113.22
	},
	{
	"step": 3135,
	"epoch": 0.887536272913865,
	"wallclock": "2026-05-23T13:42:44.238969",
	"loss": 0.1092,
	"grad_norm": 1.0121556520462036,
	"learning_rate": 6.1429149032725875e-06,
	"step_time_sec": 114.82
	},
	{
	"step": 3140,
	"epoch": 0.8889518012598202,
	"wallclock": "2026-05-23T13:44:39.595399",
	"loss": 0.0762,
	"grad_norm": 1.2405686378479004,
	"learning_rate": 6.13175306128336e-06,
	"step_time_sec": 115.36
	},
	{
	"step": 3145,
	"epoch": 0.8903673296057754,
	"wallclock": "2026-05-23T13:46:34.620333",
	"loss": 0.0945,
	"grad_norm": 1.2402104139328003,
	"learning_rate": 6.120585271491713e-06,
	"step_time_sec": 115.02
	},
	{
	"step": 3150,
	"epoch": 0.8917828579517305,
	"wallclock": "2026-05-23T13:48:29.023383",
	"loss": 0.0857,
	"grad_norm": 0.910408616065979,
	"learning_rate": 6.1094115925887235e-06,
	"step_time_sec": 114.4,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3155,
	"epoch": 0.8931983862976857,
	"wallclock": "2026-05-23T13:50:23.390785",
	"loss": 0.0891,
	"grad_norm": 0.9833782315254211,
	"learning_rate": 6.098232083296423e-06,
	"step_time_sec": 114.37
	},
	{
	"step": 3160,
	"epoch": 0.8946139146436407,
	"wallclock": "2026-05-23T13:52:17.597934",
	"loss": 0.0749,
	"grad_norm": 1.2741199731826782,
	"learning_rate": 6.087046802367476e-06,
	"step_time_sec": 114.21
	},
	{
	"step": 3165,
	"epoch": 0.8960294429895959,
	"wallclock": "2026-05-23T13:54:11.564969",
	"loss": 0.0801,
	"grad_norm": 1.4001483917236328,
	"learning_rate": 6.075855808584886e-06,
	"step_time_sec": 113.97
	},
	{
	"step": 3170,
	"epoch": 0.897444971335551,
	"wallclock": "2026-05-23T13:56:05.962888",
	"loss": 0.0825,
	"grad_norm": 0.909929633140564,
	"learning_rate": 6.064659160761676e-06,
	"step_time_sec": 114.4
	},
	{
	"step": 3175,
	"epoch": 0.8988604996815062,
	"wallclock": "2026-05-23T13:58:01.036489",
	"loss": 0.0584,
	"grad_norm": 0.8718348145484924,
	"learning_rate": 6.053456917740585e-06,
	"step_time_sec": 115.07
	},
	{
	"step": 3180,
	"epoch": 0.9002760280274612,
	"wallclock": "2026-05-23T13:59:54.455386",
	"loss": 0.0979,
	"grad_norm": 1.4148125648498535,
	"learning_rate": 6.042249138393753e-06,
	"step_time_sec": 113.42
	},
	{
	"step": 3185,
	"epoch": 0.9016915563734164,
	"wallclock": "2026-05-23T14:01:49.207549",
	"loss": 0.0914,
	"grad_norm": 0.9834646582603455,
	"learning_rate": 6.031035881622422e-06,
	"step_time_sec": 114.75
	},
	{
	"step": 3190,
	"epoch": 0.9031070847193715,
	"wallclock": "2026-05-23T14:03:45.252526",
	"loss": 0.1002,
	"grad_norm": 1.3153408765792847,
	"learning_rate": 6.019817206356615e-06,
	"step_time_sec": 116.04
	},
	{
	"step": 3195,
	"epoch": 0.9045226130653267,
	"wallclock": "2026-05-23T14:05:40.611460",
	"loss": 0.0856,
	"grad_norm": 0.9440031051635742,
	"learning_rate": 6.008593171554833e-06,
	"step_time_sec": 115.36
	},
	{
	"step": 3200,
	"epoch": 0.9059381414112817,
	"wallclock": "2026-05-23T14:07:53.973146",
	"loss": 0.0969,
	"grad_norm": 1.2231155633926392,
	"learning_rate": 5.997363836203744e-06,
	"step_time_sec": 133.36,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3200,
	"epoch": 0.9059381414112817,
	"wallclock": "2026-05-23T14:09:02.006751",
	"eval_loss": 0.09937935322523117,
	"eval_runtime": 67.9272,
	"eval_samples_per_second": 3.68,
	"eval_steps_per_second": 0.927,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3205,
	"epoch": 0.9073536697572369,
	"wallclock": "2026-05-23T14:12:39.937912",
	"loss": 0.1062,
	"grad_norm": 1.7902098894119263,
	"learning_rate": 5.98612925931787e-06,
	"step_time_sec": 285.96
	},
	{
	"step": 3210,
	"epoch": 0.908769198103192,
	"wallclock": "2026-05-23T14:14:33.769972",
	"loss": 0.0924,
	"grad_norm": 1.207891583442688,
	"learning_rate": 5.974889499939283e-06,
	"step_time_sec": 113.83
	},
	{
	"step": 3215,
	"epoch": 0.9101847264491472,
	"wallclock": "2026-05-23T14:16:28.806370",
	"loss": 0.0685,
	"grad_norm": 1.0537505149841309,
	"learning_rate": 5.96364461713729e-06,
	"step_time_sec": 115.04
	},
	{
	"step": 3220,
	"epoch": 0.9116002547951023,
	"wallclock": "2026-05-23T14:18:23.631952",
	"loss": 0.0881,
	"grad_norm": 1.5671195983886719,
	"learning_rate": 5.952394670008119e-06,
	"step_time_sec": 114.83
	},
	{
	"step": 3225,
	"epoch": 0.9130157831410574,
	"wallclock": "2026-05-23T14:20:17.612828",
	"loss": 0.1033,
	"grad_norm": 1.521396517753601,
	"learning_rate": 5.94113971767462e-06,
	"step_time_sec": 113.98
	},
	{
	"step": 3230,
	"epoch": 0.9144313114870125,
	"wallclock": "2026-05-23T14:22:11.445585",
	"loss": 0.0618,
	"grad_norm": 0.9208618402481079,
	"learning_rate": 5.9298798192859434e-06,
	"step_time_sec": 113.83
	},
	{
	"step": 3235,
	"epoch": 0.9158468398329677,
	"wallclock": "2026-05-23T14:24:06.144035",
	"loss": 0.0873,
	"grad_norm": 1.1370309591293335,
	"learning_rate": 5.9186150340172325e-06,
	"step_time_sec": 114.7
	},
	{
	"step": 3240,
	"epoch": 0.9172623681789228,
	"wallclock": "2026-05-23T14:25:59.240016",
	"loss": 0.0803,
	"grad_norm": 1.02957022190094,
	"learning_rate": 5.907345421069314e-06,
	"step_time_sec": 113.1
	},
	{
	"step": 3245,
	"epoch": 0.9186778965248779,
	"wallclock": "2026-05-23T14:27:52.197012",
	"loss": 0.0811,
	"grad_norm": 1.390236496925354,
	"learning_rate": 5.896071039668388e-06,
	"step_time_sec": 112.96
	},
	{
	"step": 3250,
	"epoch": 0.920093424870833,
	"wallclock": "2026-05-23T14:29:46.705683",
	"loss": 0.0873,
	"grad_norm": 1.451936960220337,
	"learning_rate": 5.8847919490657114e-06,
	"step_time_sec": 114.51,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3255,
	"epoch": 0.9215089532167882,
	"wallclock": "2026-05-23T14:31:40.040364",
	"loss": 0.087,
	"grad_norm": 1.092909574508667,
	"learning_rate": 5.873508208537291e-06,
	"step_time_sec": 113.33
	},
	{
	"step": 3260,
	"epoch": 0.9229244815627433,
	"wallclock": "2026-05-23T14:33:33.153697",
	"loss": 0.0701,
	"grad_norm": 1.0500355958938599,
	"learning_rate": 5.8622198773835725e-06,
	"step_time_sec": 113.11
	},
	{
	"step": 3265,
	"epoch": 0.9243400099086985,
	"wallclock": "2026-05-23T14:35:26.975118",
	"loss": 0.0858,
	"grad_norm": 1.4215220212936401,
	"learning_rate": 5.850927014929124e-06,
	"step_time_sec": 113.82
	},
	{
	"step": 3270,
	"epoch": 0.9257555382546535,
	"wallclock": "2026-05-23T14:37:21.438405",
	"loss": 0.0904,
	"grad_norm": 1.1870381832122803,
	"learning_rate": 5.83962968052233e-06,
	"step_time_sec": 114.46
	},
	{
	"step": 3275,
	"epoch": 0.9271710666006087,
	"wallclock": "2026-05-23T14:39:15.451984",
	"loss": 0.0791,
	"grad_norm": 0.9800876379013062,
	"learning_rate": 5.828327933535075e-06,
	"step_time_sec": 114.01
	},
	{
	"step": 3280,
	"epoch": 0.9285865949465638,
	"wallclock": "2026-05-23T14:41:09.339469",
	"loss": 0.0825,
	"grad_norm": 1.2808606624603271,
	"learning_rate": 5.817021833362434e-06,
	"step_time_sec": 113.89
	},
	{
	"step": 3285,
	"epoch": 0.930002123292519,
	"wallclock": "2026-05-23T14:43:02.863576",
	"loss": 0.1006,
	"grad_norm": 0.8630105257034302,
	"learning_rate": 5.805711439422361e-06,
	"step_time_sec": 113.52
	},
	{
	"step": 3290,
	"epoch": 0.931417651638474,
	"wallclock": "2026-05-23T14:44:56.304812",
	"loss": 0.0951,
	"grad_norm": 1.7691140174865723,
	"learning_rate": 5.794396811155372e-06,
	"step_time_sec": 113.44
	},
	{
	"step": 3295,
	"epoch": 0.9328331799844292,
	"wallclock": "2026-05-23T14:46:51.225086",
	"loss": 0.0859,
	"grad_norm": 1.175764799118042,
	"learning_rate": 5.78307800802424e-06,
	"step_time_sec": 114.92
	},
	{
	"step": 3300,
	"epoch": 0.9342487083303843,
	"wallclock": "2026-05-23T14:48:45.011673",
	"loss": 0.0789,
	"grad_norm": 1.243912696838379,
	"learning_rate": 5.771755089513678e-06,
	"step_time_sec": 113.79,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3300,
	"epoch": 0.9342487083303843,
	"wallclock": "2026-05-23T14:49:37.428370",
	"eval_loss": 0.09591619670391083,
	"eval_runtime": 52.3234,
	"eval_samples_per_second": 4.778,
	"eval_steps_per_second": 1.204,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3305,
	"epoch": 0.9356642366763395,
	"wallclock": "2026-05-23T14:53:13.024206",
	"loss": 0.0852,
	"grad_norm": 1.0862802267074585,
	"learning_rate": 5.760428115130021e-06,
	"step_time_sec": 268.01
	},
	{
	"step": 3310,
	"epoch": 0.9370797650222946,
	"wallclock": "2026-05-23T14:55:06.032103",
	"loss": 0.0869,
	"grad_norm": 1.217329502105713,
	"learning_rate": 5.749097144400929e-06,
	"step_time_sec": 113.01
	},
	{
	"step": 3315,
	"epoch": 0.9384952933682497,
	"wallclock": "2026-05-23T14:57:00.935813",
	"loss": 0.0695,
	"grad_norm": 0.9838262796401978,
	"learning_rate": 5.737762236875057e-06,
	"step_time_sec": 114.9
	},
	{
	"step": 3320,
	"epoch": 0.9399108217142048,
	"wallclock": "2026-05-23T14:58:55.441455",
	"loss": 0.0866,
	"grad_norm": 1.0086387395858765,
	"learning_rate": 5.726423452121751e-06,
	"step_time_sec": 114.51
	},
	{
	"step": 3325,
	"epoch": 0.94132635006016,
	"wallclock": "2026-05-23T15:00:49.538622",
	"loss": 0.0939,
	"grad_norm": 1.14065420627594,
	"learning_rate": 5.7150808497307345e-06,
	"step_time_sec": 114.1
	},
	{
	"step": 3330,
	"epoch": 0.9427418784061151,
	"wallclock": "2026-05-23T15:02:45.245821",
	"loss": 0.0974,
	"grad_norm": 1.3234528303146362,
	"learning_rate": 5.7037344893117956e-06,
	"step_time_sec": 115.71
	},
	{
	"step": 3335,
	"epoch": 0.9441574067520702,
	"wallclock": "2026-05-23T15:04:37.650997",
	"loss": 0.0788,
	"grad_norm": 1.4045474529266357,
	"learning_rate": 5.692384430494466e-06,
	"step_time_sec": 112.41
	},
	{
	"step": 3340,
	"epoch": 0.9455729350980253,
	"wallclock": "2026-05-23T15:06:32.368133",
	"loss": 0.0849,
	"grad_norm": 1.256629228591919,
	"learning_rate": 5.6810307329277226e-06,
	"step_time_sec": 114.72
	},
	{
	"step": 3345,
	"epoch": 0.9469884634439805,
	"wallclock": "2026-05-23T15:08:26.827602",
	"loss": 0.0824,
	"grad_norm": 1.130339503288269,
	"learning_rate": 5.669673456279659e-06,
	"step_time_sec": 114.46
	},
	{
	"step": 3350,
	"epoch": 0.9484039917899356,
	"wallclock": "2026-05-23T15:10:21.207468",
	"loss": 0.0693,
	"grad_norm": 1.282491683959961,
	"learning_rate": 5.65831266023718e-06,
	"step_time_sec": 114.38,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3355,
	"epoch": 0.9498195201358908,
	"wallclock": "2026-05-23T15:12:15.228993",
	"loss": 0.0891,
	"grad_norm": 1.3946020603179932,
	"learning_rate": 5.646948404505686e-06,
	"step_time_sec": 114.02
	},
	{
	"step": 3360,
	"epoch": 0.9512350484818458,
	"wallclock": "2026-05-23T15:14:09.438263",
	"loss": 0.0761,
	"grad_norm": 1.1103034019470215,
	"learning_rate": 5.635580748808763e-06,
	"step_time_sec": 114.21
	},
	{
	"step": 3365,
	"epoch": 0.952650576827801,
	"wallclock": "2026-05-23T15:16:05.154445",
	"loss": 0.0839,
	"grad_norm": 1.1873400211334229,
	"learning_rate": 5.624209752887858e-06,
	"step_time_sec": 115.72
	},
	{
	"step": 3370,
	"epoch": 0.9540661051737561,
	"wallclock": "2026-05-23T15:17:59.804004",
	"loss": 0.0777,
	"grad_norm": 0.7737529277801514,
	"learning_rate": 5.612835476501979e-06,
	"step_time_sec": 114.65
	},
	{
	"step": 3375,
	"epoch": 0.9554816335197113,
	"wallclock": "2026-05-23T15:19:54.892005",
	"loss": 0.0812,
	"grad_norm": 0.9554314613342285,
	"learning_rate": 5.601457979427369e-06,
	"step_time_sec": 115.09
	},
	{
	"step": 3380,
	"epoch": 0.9568971618656663,
	"wallclock": "2026-05-23T15:21:50.036983",
	"loss": 0.0792,
	"grad_norm": 1.1392946243286133,
	"learning_rate": 5.5900773214572016e-06,
	"step_time_sec": 115.14
	},
	{
	"step": 3385,
	"epoch": 0.9583126902116215,
	"wallclock": "2026-05-23T15:23:43.201325",
	"loss": 0.0727,
	"grad_norm": 1.3224341869354248,
	"learning_rate": 5.578693562401257e-06,
	"step_time_sec": 113.16
	},
	{
	"step": 3390,
	"epoch": 0.9597282185575766,
	"wallclock": "2026-05-23T15:25:36.809850",
	"loss": 0.0755,
	"grad_norm": 1.0473873615264893,
	"learning_rate": 5.567306762085619e-06,
	"step_time_sec": 113.61
	},
	{
	"step": 3395,
	"epoch": 0.9611437469035318,
	"wallclock": "2026-05-23T15:27:31.712929",
	"loss": 0.086,
	"grad_norm": 0.9381260871887207,
	"learning_rate": 5.555916980352349e-06,
	"step_time_sec": 114.9
	},
	{
	"step": 3400,
	"epoch": 0.9625592752494869,
	"wallclock": "2026-05-23T15:29:26.406120",
	"loss": 0.0665,
	"grad_norm": 1.002871036529541,
	"learning_rate": 5.544524277059179e-06,
	"step_time_sec": 114.69,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3400,
	"epoch": 0.9625592752494869,
	"wallclock": "2026-05-23T15:30:19.956625",
	"eval_loss": 0.09332611411809921,
	"eval_runtime": 53.4588,
	"eval_samples_per_second": 4.676,
	"eval_steps_per_second": 1.178,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3405,
	"epoch": 0.963974803595442,
	"wallclock": "2026-05-23T15:33:54.931063",
	"loss": 0.0858,
	"grad_norm": 1.1658086776733398,
	"learning_rate": 5.5331287120791954e-06,
	"step_time_sec": 268.52
	},
	{
	"step": 3410,
	"epoch": 0.9653903319413971,
	"wallclock": "2026-05-23T15:35:48.621597",
	"loss": 0.0581,
	"grad_norm": 0.7146378755569458,
	"learning_rate": 5.5217303453005225e-06,
	"step_time_sec": 113.69
	},
	{
	"step": 3415,
	"epoch": 0.9668058602873523,
	"wallclock": "2026-05-23T15:37:42.046818",
	"loss": 0.0755,
	"grad_norm": 1.1899656057357788,
	"learning_rate": 5.51032923662601e-06,
	"step_time_sec": 113.43
	},
	{
	"step": 3420,
	"epoch": 0.9682213886333074,
	"wallclock": "2026-05-23T15:39:35.748693",
	"loss": 0.0946,
	"grad_norm": 1.0844637155532837,
	"learning_rate": 5.498925445972918e-06,
	"step_time_sec": 113.7
	},
	{
	"step": 3425,
	"epoch": 0.9696369169792625,
	"wallclock": "2026-05-23T15:41:30.464137",
	"loss": 0.0793,
	"grad_norm": 1.2279070615768433,
	"learning_rate": 5.4875190332726e-06,
	"step_time_sec": 114.72
	},
	{
	"step": 3430,
	"epoch": 0.9710524453252176,
	"wallclock": "2026-05-23T15:43:26.510045",
	"loss": 0.0798,
	"grad_norm": 0.8382053971290588,
	"learning_rate": 5.476110058470192e-06,
	"step_time_sec": 116.05
	},
	{
	"step": 3435,
	"epoch": 0.9724679736711728,
	"wallclock": "2026-05-23T15:45:21.432258",
	"loss": 0.0813,
	"grad_norm": 0.9018872976303101,
	"learning_rate": 5.464698581524292e-06,
	"step_time_sec": 114.92
	},
	{
	"step": 3440,
	"epoch": 0.9738835020171279,
	"wallclock": "2026-05-23T15:47:17.457363",
	"loss": 0.0759,
	"grad_norm": 1.4535553455352783,
	"learning_rate": 5.453284662406646e-06,
	"step_time_sec": 116.03
	},
	{
	"step": 3445,
	"epoch": 0.9752990303630831,
	"wallclock": "2026-05-23T15:49:11.750836",
	"loss": 0.0817,
	"grad_norm": 1.2279826402664185,
	"learning_rate": 5.4418683611018416e-06,
	"step_time_sec": 114.29
	},
	{
	"step": 3450,
	"epoch": 0.9767145587090381,
	"wallclock": "2026-05-23T15:51:05.914914",
	"loss": 0.074,
	"grad_norm": 1.2694281339645386,
	"learning_rate": 5.430449737606978e-06,
	"step_time_sec": 114.16,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3455,
	"epoch": 0.9781300870549933,
	"wallclock": "2026-05-23T15:53:02.864640",
	"loss": 0.088,
	"grad_norm": 1.1676980257034302,
	"learning_rate": 5.4190288519313626e-06,
	"step_time_sec": 116.95
	},
	{
	"step": 3460,
	"epoch": 0.9795456154009484,
	"wallclock": "2026-05-23T15:54:57.888514",
	"loss": 0.0917,
	"grad_norm": 1.2617217302322388,
	"learning_rate": 5.407605764096193e-06,
	"step_time_sec": 115.02
	},
	{
	"step": 3465,
	"epoch": 0.9809611437469036,
	"wallclock": "2026-05-23T15:56:52.536839",
	"loss": 0.0839,
	"grad_norm": 2.16770339012146,
	"learning_rate": 5.396180534134234e-06,
	"step_time_sec": 114.65
	},
	{
	"step": 3470,
	"epoch": 0.9823766720928586,
	"wallclock": "2026-05-23T15:58:47.764833",
	"loss": 0.077,
	"grad_norm": 1.0116336345672607,
	"learning_rate": 5.384753222089515e-06,
	"step_time_sec": 115.23
	},
	{
	"step": 3475,
	"epoch": 0.9837922004388138,
	"wallclock": "2026-05-23T16:00:43.362477",
	"loss": 0.0812,
	"grad_norm": 1.185133457183838,
	"learning_rate": 5.373323888017003e-06,
	"step_time_sec": 115.6
	},
	{
	"step": 3480,
	"epoch": 0.9852077287847689,
	"wallclock": "2026-05-23T16:02:37.887940",
	"loss": 0.0719,
	"grad_norm": 1.3264069557189941,
	"learning_rate": 5.361892591982291e-06,
	"step_time_sec": 114.53
	},
	{
	"step": 3485,
	"epoch": 0.9866232571307241,
	"wallclock": "2026-05-23T16:04:31.882696",
	"loss": 0.064,
	"grad_norm": 0.7329959273338318,
	"learning_rate": 5.350459394061287e-06,
	"step_time_sec": 113.99
	},
	{
	"step": 3490,
	"epoch": 0.9880387854766791,
	"wallclock": "2026-05-23T16:06:25.692519",
	"loss": 0.0819,
	"grad_norm": 0.8542604446411133,
	"learning_rate": 5.339024354339892e-06,
	"step_time_sec": 113.81
	},
	{
	"step": 3495,
	"epoch": 0.9894543138226343,
	"wallclock": "2026-05-23T16:08:20.147221",
	"loss": 0.0867,
	"grad_norm": 1.266552448272705,
	"learning_rate": 5.327587532913685e-06,
	"step_time_sec": 114.45
	},
	{
	"step": 3500,
	"epoch": 0.9908698421685894,
	"wallclock": "2026-05-23T16:10:14.094051",
	"loss": 0.0898,
	"grad_norm": 1.8799265623092651,
	"learning_rate": 5.31614898988761e-06,
	"step_time_sec": 113.95,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3500,
	"epoch": 0.9908698421685894,
	"wallclock": "2026-05-23T16:11:07.029960",
	"eval_loss": 0.08754169940948486,
	"eval_runtime": 52.8398,
	"eval_samples_per_second": 4.731,
	"eval_steps_per_second": 1.192,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3505,
	"epoch": 0.9922853705145446,
	"wallclock": "2026-05-23T16:14:43.226754",
	"loss": 0.0769,
	"grad_norm": 1.471697211265564,
	"learning_rate": 5.3047087853756585e-06,
	"step_time_sec": 269.13
	},
	{
	"step": 3510,
	"epoch": 0.9937008988604997,
	"wallclock": "2026-05-23T16:16:37.120854",
	"loss": 0.0858,
	"grad_norm": 1.3194319009780884,
	"learning_rate": 5.2932669795005545e-06,
	"step_time_sec": 113.89
	},
	{
	"step": 3515,
	"epoch": 0.9951164272064548,
	"wallclock": "2026-05-23T16:18:30.428191",
	"loss": 0.0649,
	"grad_norm": 1.7350393533706665,
	"learning_rate": 5.281823632393436e-06,
	"step_time_sec": 113.31
	},
	{
	"step": 3520,
	"epoch": 0.9965319555524099,
	"wallclock": "2026-05-23T16:20:22.921865",
	"loss": 0.08,
	"grad_norm": 1.3547072410583496,
	"learning_rate": 5.270378804193543e-06,
	"step_time_sec": 112.49
	},
	{
	"step": 3525,
	"epoch": 0.9979474838983651,
	"wallclock": "2026-05-23T16:22:17.038164",
	"loss": 0.0836,
	"grad_norm": 1.2849969863891602,
	"learning_rate": 5.258932555047897e-06,
	"step_time_sec": 114.12
	},
	{
	"step": 3530,
	"epoch": 0.9993630122443202,
	"wallclock": "2026-05-23T16:24:11.663981",
	"loss": 0.0811,
	"grad_norm": 0.9789690971374512,
	"learning_rate": 5.247484945110988e-06,
	"step_time_sec": 114.63
	},
	{
	"step": 3535,
	"epoch": 1.0007785405902754,
	"wallclock": "2026-05-23T16:26:14.307733",
	"loss": 0.0578,
	"grad_norm": 0.6540358066558838,
	"learning_rate": 5.23603603454446e-06,
	"step_time_sec": 122.64
	},
	{
	"step": 3540,
	"epoch": 1.0021940689362305,
	"wallclock": "2026-05-23T16:28:05.823018",
	"loss": 0.0478,
	"grad_norm": 0.8033650517463684,
	"learning_rate": 5.2245858835167854e-06,
	"step_time_sec": 111.52
	},
	{
	"step": 3545,
	"epoch": 1.0036095972821857,
	"wallclock": "2026-05-23T16:29:56.996787",
	"loss": 0.0555,
	"grad_norm": 1.4636964797973633,
	"learning_rate": 5.213134552202963e-06,
	"step_time_sec": 111.17
	},
	{
	"step": 3550,
	"epoch": 1.0050251256281406,
	"wallclock": "2026-05-23T16:31:49.397682",
	"loss": 0.0424,
	"grad_norm": 0.8096024990081787,
	"learning_rate": 5.201682100784194e-06,
	"step_time_sec": 112.4,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3555,
	"epoch": 1.0064406539740958,
	"wallclock": "2026-05-23T16:33:40.456471",
	"loss": 0.0427,
	"grad_norm": 1.144333839416504,
	"learning_rate": 5.190228589447559e-06,
	"step_time_sec": 111.06
	},
	{
	"step": 3560,
	"epoch": 1.007856182320051,
	"wallclock": "2026-05-23T16:35:31.855205",
	"loss": 0.0432,
	"grad_norm": 1.8258119821548462,
	"learning_rate": 5.1787740783857164e-06,
	"step_time_sec": 111.4
	},
	{
	"step": 3565,
	"epoch": 1.009271710666006,
	"wallclock": "2026-05-23T16:37:24.317151",
	"loss": 0.0428,
	"grad_norm": 1.1291868686676025,
	"learning_rate": 5.167318627796577e-06,
	"step_time_sec": 112.46
	},
	{
	"step": 3570,
	"epoch": 1.0106872390119612,
	"wallclock": "2026-05-23T16:39:16.531936",
	"loss": 0.0518,
	"grad_norm": 2.1567795276641846,
	"learning_rate": 5.155862297882985e-06,
	"step_time_sec": 112.21
	},
	{
	"step": 3575,
	"epoch": 1.0121027673579164,
	"wallclock": "2026-05-23T16:41:08.942223",
	"loss": 0.045,
	"grad_norm": 1.2312395572662354,
	"learning_rate": 5.1444051488524115e-06,
	"step_time_sec": 112.41
	},
	{
	"step": 3580,
	"epoch": 1.0135182957038715,
	"wallclock": "2026-05-23T16:43:01.368164",
	"loss": 0.0472,
	"grad_norm": 1.38804030418396,
	"learning_rate": 5.13294724091663e-06,
	"step_time_sec": 112.43
	},
	{
	"step": 3585,
	"epoch": 1.0149338240498267,
	"wallclock": "2026-05-23T16:44:53.319138",
	"loss": 0.052,
	"grad_norm": 1.0492668151855469,
	"learning_rate": 5.1214886342914e-06,
	"step_time_sec": 111.95
	},
	{
	"step": 3590,
	"epoch": 1.0163493523957818,
	"wallclock": "2026-05-23T16:46:44.915175",
	"loss": 0.0447,
	"grad_norm": 0.9781032204627991,
	"learning_rate": 5.110029389196155e-06,
	"step_time_sec": 111.6
	},
	{
	"step": 3595,
	"epoch": 1.0177648807417368,
	"wallclock": "2026-05-23T16:48:37.406030",
	"loss": 0.0549,
	"grad_norm": 1.2402184009552002,
	"learning_rate": 5.0985695658536875e-06,
	"step_time_sec": 112.49
	},
	{
	"step": 3600,
	"epoch": 1.019180409087692,
	"wallclock": "2026-05-23T16:50:28.649642",
	"loss": 0.0433,
	"grad_norm": 1.0172066688537598,
	"learning_rate": 5.08710922448982e-06,
	"step_time_sec": 111.24,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3600,
	"epoch": 1.019180409087692,
	"wallclock": "2026-05-23T16:51:23.450008",
	"eval_loss": 0.08236898481845856,
	"eval_runtime": 54.7048,
	"eval_samples_per_second": 4.57,
	"eval_steps_per_second": 1.152,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3605,
	"epoch": 1.020595937433647,
	"wallclock": "2026-05-23T16:55:03.292833",
	"loss": 0.0511,
	"grad_norm": 1.146644949913025,
	"learning_rate": 5.0756484253331075e-06,
	"step_time_sec": 274.64
	},
	{
	"step": 3610,
	"epoch": 1.0220114657796022,
	"wallclock": "2026-05-23T16:56:56.732361",
	"loss": 0.0483,
	"grad_norm": 1.9536317586898804,
	"learning_rate": 5.0641872286145025e-06,
	"step_time_sec": 113.44
	},
	{
	"step": 3615,
	"epoch": 1.0234269941255574,
	"wallclock": "2026-05-23T16:58:49.705561",
	"loss": 0.0479,
	"grad_norm": 0.8863971829414368,
	"learning_rate": 5.052725694567052e-06,
	"step_time_sec": 112.97
	},
	{
	"step": 3620,
	"epoch": 1.0248425224715125,
	"wallclock": "2026-05-23T17:00:43.544919",
	"loss": 0.0442,
	"grad_norm": 0.6922377943992615,
	"learning_rate": 5.0412638834255755e-06,
	"step_time_sec": 113.84
	},
	{
	"step": 3625,
	"epoch": 1.0262580508174677,
	"wallclock": "2026-05-23T17:02:36.269444",
	"loss": 0.0559,
	"grad_norm": 1.2457826137542725,
	"learning_rate": 5.029801855426345e-06,
	"step_time_sec": 112.72
	},
	{
	"step": 3630,
	"epoch": 1.0276735791634228,
	"wallclock": "2026-05-23T17:04:30.429515",
	"loss": 0.0469,
	"grad_norm": 1.0091979503631592,
	"learning_rate": 5.018339670806775e-06,
	"step_time_sec": 114.16
	},
	{
	"step": 3635,
	"epoch": 1.0290891075093778,
	"wallclock": "2026-05-23T17:06:23.820278",
	"loss": 0.0491,
	"grad_norm": 1.115814208984375,
	"learning_rate": 5.006877389805106e-06,
	"step_time_sec": 113.39
	},
	{
	"step": 3640,
	"epoch": 1.030504635855333,
	"wallclock": "2026-05-23T17:08:16.705614",
	"loss": 0.0435,
	"grad_norm": 1.3016657829284668,
	"learning_rate": 4.995415072660077e-06,
	"step_time_sec": 112.89
	},
	{
	"step": 3645,
	"epoch": 1.031920164201288,
	"wallclock": "2026-05-23T17:10:11.282102",
	"loss": 0.0492,
	"grad_norm": 1.312011957168579,
	"learning_rate": 4.983952779610626e-06,
	"step_time_sec": 114.58
	},
	{
	"step": 3650,
	"epoch": 1.0333356925472432,
	"wallclock": "2026-05-23T17:12:06.127157",
	"loss": 0.0436,
	"grad_norm": 0.9364621639251709,
	"learning_rate": 4.9724905708955575e-06,
	"step_time_sec": 114.85,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3655,
	"epoch": 1.0347512208931984,
	"wallclock": "2026-05-23T17:14:00.741230",
	"loss": 0.0565,
	"grad_norm": 1.8892085552215576,
	"learning_rate": 4.9610285067532345e-06,
	"step_time_sec": 114.61
	},
	{
	"step": 3660,
	"epoch": 1.0361667492391535,
	"wallclock": "2026-05-23T17:15:55.594162",
	"loss": 0.0476,
	"grad_norm": 0.8621354103088379,
	"learning_rate": 4.949566647421264e-06,
	"step_time_sec": 114.85
	},
	{
	"step": 3665,
	"epoch": 1.0375822775851087,
	"wallclock": "2026-05-23T17:17:49.683934",
	"loss": 0.0406,
	"grad_norm": 0.8497494459152222,
	"learning_rate": 4.938105053136173e-06,
	"step_time_sec": 114.09
	},
	{
	"step": 3670,
	"epoch": 1.0389978059310638,
	"wallclock": "2026-05-23T17:19:44.142869",
	"loss": 0.0365,
	"grad_norm": 1.4974132776260376,
	"learning_rate": 4.926643784133095e-06,
	"step_time_sec": 114.46
	},
	{
	"step": 3675,
	"epoch": 1.040413334277019,
	"wallclock": "2026-05-23T17:21:38.802035",
	"loss": 0.0487,
	"grad_norm": 0.9692957997322083,
	"learning_rate": 4.915182900645454e-06,
	"step_time_sec": 114.66
	},
	{
	"step": 3680,
	"epoch": 1.0418288626229741,
	"wallclock": "2026-05-23T17:23:32.339493",
	"loss": 0.0506,
	"grad_norm": 1.0823785066604614,
	"learning_rate": 4.903722462904653e-06,
	"step_time_sec": 113.54
	},
	{
	"step": 3685,
	"epoch": 1.043244390968929,
	"wallclock": "2026-05-23T17:25:27.273367",
	"loss": 0.0385,
	"grad_norm": 0.6259887218475342,
	"learning_rate": 4.892262531139747e-06,
	"step_time_sec": 114.93
	},
	{
	"step": 3690,
	"epoch": 1.0446599193148842,
	"wallclock": "2026-05-23T17:27:22.317617",
	"loss": 0.0461,
	"grad_norm": 0.6526616811752319,
	"learning_rate": 4.880803165577132e-06,
	"step_time_sec": 115.04
	},
	{
	"step": 3695,
	"epoch": 1.0460754476608394,
	"wallclock": "2026-05-23T17:29:17.202916",
	"loss": 0.0497,
	"grad_norm": 1.2579582929611206,
	"learning_rate": 4.869344426440234e-06,
	"step_time_sec": 114.89
	},
	{
	"step": 3700,
	"epoch": 1.0474909760067945,
	"wallclock": "2026-05-23T17:31:10.559777",
	"loss": 0.0453,
	"grad_norm": 1.414987325668335,
	"learning_rate": 4.857886373949179e-06,
	"step_time_sec": 113.36,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3700,
	"epoch": 1.0474909760067945,
	"wallclock": "2026-05-23T17:32:02.738420",
	"eval_loss": 0.08643540740013123,
	"eval_runtime": 52.0828,
	"eval_samples_per_second": 4.8,
	"eval_steps_per_second": 1.21,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3705,
	"epoch": 1.0489065043527497,
	"wallclock": "2026-05-23T17:35:38.532817",
	"loss": 0.0536,
	"grad_norm": 1.0652250051498413,
	"learning_rate": 4.846429068320488e-06,
	"step_time_sec": 267.97
	},
	{
	"step": 3710,
	"epoch": 1.0503220326987048,
	"wallclock": "2026-05-23T17:37:30.356092",
	"loss": 0.0482,
	"grad_norm": 1.0449877977371216,
	"learning_rate": 4.834972569766762e-06,
	"step_time_sec": 111.82
	},
	{
	"step": 3715,
	"epoch": 1.05173756104466,
	"wallclock": "2026-05-23T17:39:23.408283",
	"loss": 0.0397,
	"grad_norm": 0.9513642191886902,
	"learning_rate": 4.823516938496352e-06,
	"step_time_sec": 113.05
	},
	{
	"step": 3720,
	"epoch": 1.0531530893906151,
	"wallclock": "2026-05-23T17:41:16.527974",
	"loss": 0.0328,
	"grad_norm": 1.774491548538208,
	"learning_rate": 4.812062234713054e-06,
	"step_time_sec": 113.12
	},
	{
	"step": 3725,
	"epoch": 1.05456861773657,
	"wallclock": "2026-05-23T17:43:08.761213",
	"loss": 0.0485,
	"grad_norm": 1.2329373359680176,
	"learning_rate": 4.800608518615793e-06,
	"step_time_sec": 112.23
	},
	{
	"step": 3730,
	"epoch": 1.0559841460825252,
	"wallclock": "2026-05-23T17:45:02.615351",
	"loss": 0.0527,
	"grad_norm": 1.060661792755127,
	"learning_rate": 4.789155850398301e-06,
	"step_time_sec": 113.85
	},
	{
	"step": 3735,
	"epoch": 1.0573996744284804,
	"wallclock": "2026-05-23T17:46:56.000441",
	"loss": 0.0642,
	"grad_norm": 1.075607180595398,
	"learning_rate": 4.777704290248799e-06,
	"step_time_sec": 113.39
	},
	{
	"step": 3740,
	"epoch": 1.0588152027744355,
	"wallclock": "2026-05-23T17:48:49.574582",
	"loss": 0.0388,
	"grad_norm": 0.9697294235229492,
	"learning_rate": 4.766253898349694e-06,
	"step_time_sec": 113.57
	},
	{
	"step": 3745,
	"epoch": 1.0602307311203907,
	"wallclock": "2026-05-23T17:50:41.983236",
	"loss": 0.0409,
	"grad_norm": 1.6531593799591064,
	"learning_rate": 4.754804734877245e-06,
	"step_time_sec": 112.41
	},
	{
	"step": 3750,
	"epoch": 1.0616462594663458,
	"wallclock": "2026-05-23T17:52:35.437590",
	"loss": 0.0355,
	"grad_norm": 1.1890569925308228,
	"learning_rate": 4.743356860001256e-06,
	"step_time_sec": 113.45,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3755,
	"epoch": 1.063061787812301,
	"wallclock": "2026-05-23T17:54:28.614407",
	"loss": 0.0418,
	"grad_norm": 1.71039879322052,
	"learning_rate": 4.731910333884766e-06,
	"step_time_sec": 113.18
	},
	{
	"step": 3760,
	"epoch": 1.0644773161582561,
	"wallclock": "2026-05-23T17:56:21.627594",
	"loss": 0.0414,
	"grad_norm": 2.179187774658203,
	"learning_rate": 4.720465216683718e-06,
	"step_time_sec": 113.01
	},
	{
	"step": 3765,
	"epoch": 1.0658928445042113,
	"wallclock": "2026-05-23T17:58:15.543251",
	"loss": 0.0499,
	"grad_norm": 1.6056452989578247,
	"learning_rate": 4.70902156854665e-06,
	"step_time_sec": 113.92
	},
	{
	"step": 3770,
	"epoch": 1.0673083728501664,
	"wallclock": "2026-05-23T18:00:08.857393",
	"loss": 0.0444,
	"grad_norm": 1.382399320602417,
	"learning_rate": 4.697579449614389e-06,
	"step_time_sec": 113.31
	},
	{
	"step": 3775,
	"epoch": 1.0687239011961214,
	"wallclock": "2026-05-23T18:02:01.237195",
	"loss": 0.0639,
	"grad_norm": 1.6109445095062256,
	"learning_rate": 4.686138920019717e-06,
	"step_time_sec": 112.38
	},
	{
	"step": 3780,
	"epoch": 1.0701394295420765,
	"wallclock": "2026-05-23T18:03:54.810260",
	"loss": 0.0491,
	"grad_norm": 1.0975931882858276,
	"learning_rate": 4.674700039887062e-06,
	"step_time_sec": 113.57
	},
	{
	"step": 3785,
	"epoch": 1.0715549578880317,
	"wallclock": "2026-05-23T18:05:49.257162",
	"loss": 0.0489,
	"grad_norm": 0.7262698411941528,
	"learning_rate": 4.6632628693321925e-06,
	"step_time_sec": 114.45
	},
	{
	"step": 3790,
	"epoch": 1.0729704862339868,
	"wallclock": "2026-05-23T18:07:42.422565",
	"loss": 0.0488,
	"grad_norm": 1.3172861337661743,
	"learning_rate": 4.651827468461885e-06,
	"step_time_sec": 113.17
	},
	{
	"step": 3795,
	"epoch": 1.074386014579942,
	"wallclock": "2026-05-23T18:09:36.139435",
	"loss": 0.0466,
	"grad_norm": 1.1381676197052002,
	"learning_rate": 4.640393897373614e-06,
	"step_time_sec": 113.72
	},
	{
	"step": 3800,
	"epoch": 1.0758015429258971,
	"wallclock": "2026-05-23T18:11:30.211725",
	"loss": 0.0403,
	"grad_norm": 1.1041913032531738,
	"learning_rate": 4.628962216155249e-06,
	"step_time_sec": 114.07,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3800,
	"epoch": 1.0758015429258971,
	"wallclock": "2026-05-23T18:12:22.307956",
	"eval_loss": 0.08441882580518723,
	"eval_runtime": 51.9948,
	"eval_samples_per_second": 4.808,
	"eval_steps_per_second": 1.212,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3805,
	"epoch": 1.0772170712718523,
	"wallclock": "2026-05-23T18:15:57.451185",
	"loss": 0.0379,
	"grad_norm": 1.2826017141342163,
	"learning_rate": 4.617532484884715e-06,
	"step_time_sec": 267.24
	},
	{
	"step": 3810,
	"epoch": 1.0786325996178074,
	"wallclock": "2026-05-23T18:17:50.121618",
	"loss": 0.0338,
	"grad_norm": 1.091307282447815,
	"learning_rate": 4.606104763629693e-06,
	"step_time_sec": 112.67
	},
	{
	"step": 3815,
	"epoch": 1.0800481279637624,
	"wallclock": "2026-05-23T18:19:44.910197",
	"loss": 0.058,
	"grad_norm": 1.0848028659820557,
	"learning_rate": 4.594679112447307e-06,
	"step_time_sec": 114.79
	},
	{
	"step": 3820,
	"epoch": 1.0814636563097175,
	"wallclock": "2026-05-23T18:21:40.024155",
	"loss": 0.049,
	"grad_norm": 1.1905133724212646,
	"learning_rate": 4.5832555913837925e-06,
	"step_time_sec": 115.11
	},
	{
	"step": 3825,
	"epoch": 1.0828791846556727,
	"wallclock": "2026-05-23T18:23:34.370594",
	"loss": 0.067,
	"grad_norm": 1.21793532371521,
	"learning_rate": 4.571834260474195e-06,
	"step_time_sec": 114.35
	},
	{
	"step": 3830,
	"epoch": 1.0842947130016278,
	"wallclock": "2026-05-23T18:25:28.664784",
	"loss": 0.0395,
	"grad_norm": 1.1224967241287231,
	"learning_rate": 4.560415179742052e-06,
	"step_time_sec": 114.29
	},
	{
	"step": 3835,
	"epoch": 1.085710241347583,
	"wallclock": "2026-05-23T18:27:22.873783",
	"loss": 0.0559,
	"grad_norm": 0.9353971481323242,
	"learning_rate": 4.5489984091990735e-06,
	"step_time_sec": 114.21
	},
	{
	"step": 3840,
	"epoch": 1.0871257696935381,
	"wallclock": "2026-05-23T18:29:17.206871",
	"loss": 0.0554,
	"grad_norm": 0.6831589937210083,
	"learning_rate": 4.537584008844823e-06,
	"step_time_sec": 114.33
	},
	{
	"step": 3845,
	"epoch": 1.0885412980394933,
	"wallclock": "2026-05-23T18:31:12.398612",
	"loss": 0.0525,
	"grad_norm": 1.0940909385681152,
	"learning_rate": 4.526172038666419e-06,
	"step_time_sec": 115.19
	},
	{
	"step": 3850,
	"epoch": 1.0899568263854484,
	"wallclock": "2026-05-23T18:33:06.117469",
	"loss": 0.0573,
	"grad_norm": 0.8475215435028076,
	"learning_rate": 4.514762558638199e-06,
	"step_time_sec": 113.72,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3855,
	"epoch": 1.0913723547314036,
	"wallclock": "2026-05-23T18:34:59.556884",
	"loss": 0.0483,
	"grad_norm": 1.0420924425125122,
	"learning_rate": 4.503355628721417e-06,
	"step_time_sec": 113.44
	},
	{
	"step": 3860,
	"epoch": 1.0927878830773585,
	"wallclock": "2026-05-23T18:36:53.139554",
	"loss": 0.0524,
	"grad_norm": 1.5134800672531128,
	"learning_rate": 4.491951308863926e-06,
	"step_time_sec": 113.58
	},
	{
	"step": 3865,
	"epoch": 1.0942034114233137,
	"wallclock": "2026-05-23T18:38:46.961705",
	"loss": 0.0327,
	"grad_norm": 1.369831919670105,
	"learning_rate": 4.480549658999862e-06,
	"step_time_sec": 113.82
	},
	{
	"step": 3870,
	"epoch": 1.0956189397692688,
	"wallclock": "2026-05-23T18:40:39.105763",
	"loss": 0.0467,
	"grad_norm": 1.45563542842865,
	"learning_rate": 4.469150739049327e-06,
	"step_time_sec": 112.14
	},
	{
	"step": 3875,
	"epoch": 1.097034468115224,
	"wallclock": "2026-05-23T18:42:31.937185",
	"loss": 0.0471,
	"grad_norm": 0.9477264881134033,
	"learning_rate": 4.45775460891808e-06,
	"step_time_sec": 112.83
	},
	{
	"step": 3880,
	"epoch": 1.0984499964611791,
	"wallclock": "2026-05-23T18:44:25.360640",
	"loss": 0.0492,
	"grad_norm": 0.7854604721069336,
	"learning_rate": 4.446361328497215e-06,
	"step_time_sec": 113.42
	},
	{
	"step": 3885,
	"epoch": 1.0998655248071343,
	"wallclock": "2026-05-23T18:46:17.165445",
	"loss": 0.0427,
	"grad_norm": 0.7942948341369629,
	"learning_rate": 4.434970957662849e-06,
	"step_time_sec": 111.8
	},
	{
	"step": 3890,
	"epoch": 1.1012810531530894,
	"wallclock": "2026-05-23T18:48:10.450485",
	"loss": 0.043,
	"grad_norm": 1.1920311450958252,
	"learning_rate": 4.423583556275814e-06,
	"step_time_sec": 113.29
	},
	{
	"step": 3895,
	"epoch": 1.1026965814990446,
	"wallclock": "2026-05-23T18:50:04.687540",
	"loss": 0.0502,
	"grad_norm": 1.4759620428085327,
	"learning_rate": 4.41219918418133e-06,
	"step_time_sec": 114.24
	},
	{
	"step": 3900,
	"epoch": 1.1041121098449997,
	"wallclock": "2026-05-23T18:51:57.525567",
	"loss": 0.0514,
	"grad_norm": 1.4128731489181519,
	"learning_rate": 4.400817901208697e-06,
	"step_time_sec": 112.84,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3900,
	"epoch": 1.1041121098449997,
	"wallclock": "2026-05-23T18:52:50.285022",
	"eval_loss": 0.08410802483558655,
	"eval_runtime": 52.6672,
	"eval_samples_per_second": 4.747,
	"eval_steps_per_second": 1.196,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3900,
	"epoch": 1.1041121098449997,
	"wallclock": "2026-05-23T18:54:34.984762",
	"train_runtime": 61042.0543,
	"train_samples_per_second": 3.703,
	"train_steps_per_second": 0.116,
	"total_flos": 1.0157637889163264e+16,
	"train_loss": 0.0625501875159068,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 33.45,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	},
	{
	"step": 3900,
	"epoch": 1.1041121098449997,
	"wallclock": "2026-05-23T18:55:51.257083",
	"eval_loss": 0.08236898481845856,
	"eval_runtime": 62.4976,
	"eval_samples_per_second": 4.0,
	"eval_steps_per_second": 1.008,
	"gpu": [
	{
	"gpu": 0,
	"mem_allocated_gb": 39.05,
	"mem_reserved_gb": 74.24
	},
	{
	"gpu": 1,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 2,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	},
	{
	"gpu": 3,
	"mem_allocated_gb": 0.0,
	"mem_reserved_gb": 0.0
	}
	]
	}
	]