GreekTTS-1.5 / checkpoint-264000 /trainer_state.json

moiraai2024

Uploading final model weights

95a8061 verified 8 months ago

58.8 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.8540145985401457,
	"eval_steps": 500,
	"global_step": 264000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01167883211678832,
	"grad_norm": 0.7469853758811951,
	"learning_rate": 0.00019976817349031748,
	"loss": 4.9807,
	"step": 800
	},
	{
	"epoch": 0.02335766423357664,
	"grad_norm": 1.120423436164856,
	"learning_rate": 0.00019953459514303025,
	"loss": 4.6712,
	"step": 1600
	},
	{
	"epoch": 0.035036496350364967,
	"grad_norm": 1.064866542816162,
	"learning_rate": 0.00019930101679574305,
	"loss": 4.5512,
	"step": 2400
	},
	{
	"epoch": 0.04671532846715328,
	"grad_norm": 0.8409781455993652,
	"learning_rate": 0.00019906743844845583,
	"loss": 4.4947,
	"step": 3200
	},
	{
	"epoch": 0.058394160583941604,
	"grad_norm": 1.03812575340271,
	"learning_rate": 0.00019883386010116863,
	"loss": 4.4487,
	"step": 4000
	},
	{
	"epoch": 0.07007299270072993,
	"grad_norm": 0.6089211106300354,
	"learning_rate": 0.00019860028175388143,
	"loss": 4.4197,
	"step": 4800
	},
	{
	"epoch": 0.08175182481751825,
	"grad_norm": 1.2314237356185913,
	"learning_rate": 0.00019836670340659423,
	"loss": 4.3931,
	"step": 5600
	},
	{
	"epoch": 0.09343065693430656,
	"grad_norm": 0.6221948862075806,
	"learning_rate": 0.000198133125059307,
	"loss": 4.3595,
	"step": 6400
	},
	{
	"epoch": 0.10510948905109489,
	"grad_norm": 0.7354845404624939,
	"learning_rate": 0.0001978995467120198,
	"loss": 4.3489,
	"step": 7200
	},
	{
	"epoch": 0.11678832116788321,
	"grad_norm": 0.47563284635543823,
	"learning_rate": 0.00019766596836473258,
	"loss": 4.3167,
	"step": 8000
	},
	{
	"epoch": 0.12846715328467154,
	"grad_norm": 0.5970898270606995,
	"learning_rate": 0.0001974323900174454,
	"loss": 4.3059,
	"step": 8800
	},
	{
	"epoch": 0.14014598540145987,
	"grad_norm": 1.0531948804855347,
	"learning_rate": 0.0001971988116701582,
	"loss": 4.294,
	"step": 9600
	},
	{
	"epoch": 0.15182481751824817,
	"grad_norm": 0.6124999523162842,
	"learning_rate": 0.000196965233322871,
	"loss": 4.288,
	"step": 10400
	},
	{
	"epoch": 0.1635036496350365,
	"grad_norm": 0.43388164043426514,
	"learning_rate": 0.00019673165497558376,
	"loss": 4.273,
	"step": 11200
	},
	{
	"epoch": 0.17518248175182483,
	"grad_norm": 1.2883777618408203,
	"learning_rate": 0.00019649807662829656,
	"loss": 4.2696,
	"step": 12000
	},
	{
	"epoch": 0.18686131386861313,
	"grad_norm": 1.0502655506134033,
	"learning_rate": 0.00019626449828100937,
	"loss": 4.2584,
	"step": 12800
	},
	{
	"epoch": 0.19854014598540146,
	"grad_norm": 1.0939903259277344,
	"learning_rate": 0.00019603091993372217,
	"loss": 4.2377,
	"step": 13600
	},
	{
	"epoch": 0.21021897810218979,
	"grad_norm": 0.732036828994751,
	"learning_rate": 0.00019579734158643494,
	"loss": 4.2274,
	"step": 14400
	},
	{
	"epoch": 0.22189781021897811,
	"grad_norm": 0.7493735551834106,
	"learning_rate": 0.00019556376323914774,
	"loss": 4.2382,
	"step": 15200
	},
	{
	"epoch": 0.23357664233576642,
	"grad_norm": 0.7022084593772888,
	"learning_rate": 0.00019533018489186052,
	"loss": 4.241,
	"step": 16000
	},
	{
	"epoch": 0.24525547445255474,
	"grad_norm": 0.6069856882095337,
	"learning_rate": 0.00019509660654457335,
	"loss": 4.2072,
	"step": 16800
	},
	{
	"epoch": 0.2569343065693431,
	"grad_norm": 0.9912208318710327,
	"learning_rate": 0.00019486302819728612,
	"loss": 4.2133,
	"step": 17600
	},
	{
	"epoch": 0.2686131386861314,
	"grad_norm": 0.6228162050247192,
	"learning_rate": 0.00019462944984999892,
	"loss": 4.2074,
	"step": 18400
	},
	{
	"epoch": 0.28029197080291973,
	"grad_norm": 0.6577867269515991,
	"learning_rate": 0.0001943958715027117,
	"loss": 4.1989,
	"step": 19200
	},
	{
	"epoch": 0.291970802919708,
	"grad_norm": 0.5231236815452576,
	"learning_rate": 0.0001941622931554245,
	"loss": 4.1921,
	"step": 20000
	},
	{
	"epoch": 0.30364963503649633,
	"grad_norm": 0.7894455194473267,
	"learning_rate": 0.0001939287148081373,
	"loss": 4.1899,
	"step": 20800
	},
	{
	"epoch": 0.31532846715328466,
	"grad_norm": 0.7088421583175659,
	"learning_rate": 0.0001936951364608501,
	"loss": 4.1795,
	"step": 21600
	},
	{
	"epoch": 0.327007299270073,
	"grad_norm": 0.7622804045677185,
	"learning_rate": 0.00019346155811356288,
	"loss": 4.1789,
	"step": 22400
	},
	{
	"epoch": 0.3386861313868613,
	"grad_norm": 0.41267886757850647,
	"learning_rate": 0.00019322797976627568,
	"loss": 4.1695,
	"step": 23200
	},
	{
	"epoch": 0.35036496350364965,
	"grad_norm": 0.6643211245536804,
	"learning_rate": 0.00019299440141898848,
	"loss": 4.1714,
	"step": 24000
	},
	{
	"epoch": 0.362043795620438,
	"grad_norm": 1.1012191772460938,
	"learning_rate": 0.00019276082307170128,
	"loss": 4.1677,
	"step": 24800
	},
	{
	"epoch": 0.37372262773722625,
	"grad_norm": 0.5746153593063354,
	"learning_rate": 0.00019252724472441405,
	"loss": 4.1463,
	"step": 25600
	},
	{
	"epoch": 0.3854014598540146,
	"grad_norm": 0.6068096160888672,
	"learning_rate": 0.00019229366637712686,
	"loss": 4.1643,
	"step": 26400
	},
	{
	"epoch": 0.3970802919708029,
	"grad_norm": 0.4222017228603363,
	"learning_rate": 0.00019206008802983963,
	"loss": 4.1627,
	"step": 27200
	},
	{
	"epoch": 0.40875912408759124,
	"grad_norm": 1.108417272567749,
	"learning_rate": 0.00019182650968255246,
	"loss": 4.1555,
	"step": 28000
	},
	{
	"epoch": 0.42043795620437957,
	"grad_norm": 0.847973644733429,
	"learning_rate": 0.00019159293133526523,
	"loss": 4.1604,
	"step": 28800
	},
	{
	"epoch": 0.4321167883211679,
	"grad_norm": 0.7368318438529968,
	"learning_rate": 0.00019135935298797804,
	"loss": 4.1497,
	"step": 29600
	},
	{
	"epoch": 0.44379562043795623,
	"grad_norm": 1.041403889656067,
	"learning_rate": 0.0001911257746406908,
	"loss": 4.1417,
	"step": 30400
	},
	{
	"epoch": 0.4554744525547445,
	"grad_norm": 0.6244940757751465,
	"learning_rate": 0.0001908921962934036,
	"loss": 4.1642,
	"step": 31200
	},
	{
	"epoch": 0.46715328467153283,
	"grad_norm": 0.871951162815094,
	"learning_rate": 0.0001906586179461164,
	"loss": 4.1358,
	"step": 32000
	},
	{
	"epoch": 0.47883211678832116,
	"grad_norm": 1.751654028892517,
	"learning_rate": 0.00019042503959882921,
	"loss": 4.1393,
	"step": 32800
	},
	{
	"epoch": 0.4905109489051095,
	"grad_norm": 0.8029406070709229,
	"learning_rate": 0.000190191461251542,
	"loss": 4.132,
	"step": 33600
	},
	{
	"epoch": 0.5021897810218978,
	"grad_norm": 1.084448218345642,
	"learning_rate": 0.0001899578829042548,
	"loss": 4.1323,
	"step": 34400
	},
	{
	"epoch": 0.5138686131386861,
	"grad_norm": 0.8661244511604309,
	"learning_rate": 0.00018972430455696756,
	"loss": 4.1388,
	"step": 35200
	},
	{
	"epoch": 0.5255474452554745,
	"grad_norm": 0.7281563878059387,
	"learning_rate": 0.0001894907262096804,
	"loss": 4.1354,
	"step": 36000
	},
	{
	"epoch": 0.5372262773722628,
	"grad_norm": 0.9080061912536621,
	"learning_rate": 0.00018925714786239317,
	"loss": 4.1294,
	"step": 36800
	},
	{
	"epoch": 0.5489051094890511,
	"grad_norm": 0.7405328750610352,
	"learning_rate": 0.00018902356951510597,
	"loss": 4.1279,
	"step": 37600
	},
	{
	"epoch": 0.5605839416058395,
	"grad_norm": 0.5771759748458862,
	"learning_rate": 0.00018878999116781874,
	"loss": 4.1094,
	"step": 38400
	},
	{
	"epoch": 0.5722627737226277,
	"grad_norm": 0.7671827077865601,
	"learning_rate": 0.00018855641282053155,
	"loss": 4.1127,
	"step": 39200
	},
	{
	"epoch": 0.583941605839416,
	"grad_norm": 0.7648681998252869,
	"learning_rate": 0.00018832283447324435,
	"loss": 4.1126,
	"step": 40000
	},
	{
	"epoch": 0.5956204379562043,
	"grad_norm": 0.8951389789581299,
	"learning_rate": 0.00018808925612595715,
	"loss": 4.1117,
	"step": 40800
	},
	{
	"epoch": 0.6072992700729927,
	"grad_norm": 0.6852630972862244,
	"learning_rate": 0.00018785567777866992,
	"loss": 4.1218,
	"step": 41600
	},
	{
	"epoch": 0.618978102189781,
	"grad_norm": 0.8639559745788574,
	"learning_rate": 0.00018762209943138272,
	"loss": 4.1041,
	"step": 42400
	},
	{
	"epoch": 0.6306569343065693,
	"grad_norm": 0.7715902924537659,
	"learning_rate": 0.0001873885210840955,
	"loss": 4.1104,
	"step": 43200
	},
	{
	"epoch": 0.6423357664233577,
	"grad_norm": 0.9155542254447937,
	"learning_rate": 0.00018715494273680833,
	"loss": 4.1059,
	"step": 44000
	},
	{
	"epoch": 0.654014598540146,
	"grad_norm": 0.780484676361084,
	"learning_rate": 0.0001869213643895211,
	"loss": 4.0958,
	"step": 44800
	},
	{
	"epoch": 0.6656934306569343,
	"grad_norm": 0.6784650087356567,
	"learning_rate": 0.0001866877860422339,
	"loss": 4.0841,
	"step": 45600
	},
	{
	"epoch": 0.6773722627737226,
	"grad_norm": 1.1621425151824951,
	"learning_rate": 0.00018645420769494668,
	"loss": 4.1108,
	"step": 46400
	},
	{
	"epoch": 0.689051094890511,
	"grad_norm": 0.47390952706336975,
	"learning_rate": 0.00018622062934765948,
	"loss": 4.0979,
	"step": 47200
	},
	{
	"epoch": 0.7007299270072993,
	"grad_norm": 0.690737247467041,
	"learning_rate": 0.00018598705100037228,
	"loss": 4.0978,
	"step": 48000
	},
	{
	"epoch": 0.7124087591240876,
	"grad_norm": 1.1309623718261719,
	"learning_rate": 0.00018575347265308508,
	"loss": 4.097,
	"step": 48800
	},
	{
	"epoch": 0.724087591240876,
	"grad_norm": 0.6210489869117737,
	"learning_rate": 0.00018551989430579786,
	"loss": 4.0909,
	"step": 49600
	},
	{
	"epoch": 0.7357664233576642,
	"grad_norm": 0.673042356967926,
	"learning_rate": 0.00018528631595851066,
	"loss": 4.0867,
	"step": 50400
	},
	{
	"epoch": 0.7474452554744525,
	"grad_norm": 0.5582263469696045,
	"learning_rate": 0.00018505273761122346,
	"loss": 4.0917,
	"step": 51200
	},
	{
	"epoch": 0.7591240875912408,
	"grad_norm": 0.6824519634246826,
	"learning_rate": 0.00018481915926393626,
	"loss": 4.0833,
	"step": 52000
	},
	{
	"epoch": 0.7708029197080292,
	"grad_norm": 0.7440599799156189,
	"learning_rate": 0.00018458558091664904,
	"loss": 4.0798,
	"step": 52800
	},
	{
	"epoch": 0.7824817518248175,
	"grad_norm": 0.7103509902954102,
	"learning_rate": 0.00018435200256936184,
	"loss": 4.0903,
	"step": 53600
	},
	{
	"epoch": 0.7941605839416058,
	"grad_norm": 0.9494150280952454,
	"learning_rate": 0.0001841184242220746,
	"loss": 4.0924,
	"step": 54400
	},
	{
	"epoch": 0.8058394160583942,
	"grad_norm": 0.7308784127235413,
	"learning_rate": 0.0001838848458747874,
	"loss": 4.0965,
	"step": 55200
	},
	{
	"epoch": 0.8175182481751825,
	"grad_norm": 0.7546706199645996,
	"learning_rate": 0.00018365126752750021,
	"loss": 4.0852,
	"step": 56000
	},
	{
	"epoch": 0.8291970802919708,
	"grad_norm": 0.6851491928100586,
	"learning_rate": 0.00018341768918021302,
	"loss": 4.0805,
	"step": 56800
	},
	{
	"epoch": 0.8408759124087591,
	"grad_norm": 0.6497614979743958,
	"learning_rate": 0.0001831841108329258,
	"loss": 4.0908,
	"step": 57600
	},
	{
	"epoch": 0.8525547445255475,
	"grad_norm": 0.8901756405830383,
	"learning_rate": 0.0001829505324856386,
	"loss": 4.0665,
	"step": 58400
	},
	{
	"epoch": 0.8642335766423358,
	"grad_norm": 0.7579403519630432,
	"learning_rate": 0.0001827169541383514,
	"loss": 4.0739,
	"step": 59200
	},
	{
	"epoch": 0.8759124087591241,
	"grad_norm": 0.7560231685638428,
	"learning_rate": 0.0001824833757910642,
	"loss": 4.0696,
	"step": 60000
	},
	{
	"epoch": 0.8875912408759125,
	"grad_norm": 0.9320287108421326,
	"learning_rate": 0.00018224979744377697,
	"loss": 4.0674,
	"step": 60800
	},
	{
	"epoch": 0.8992700729927007,
	"grad_norm": 0.6470750570297241,
	"learning_rate": 0.00018201621909648977,
	"loss": 4.0664,
	"step": 61600
	},
	{
	"epoch": 0.910948905109489,
	"grad_norm": 0.7757769227027893,
	"learning_rate": 0.00018178264074920255,
	"loss": 4.0676,
	"step": 62400
	},
	{
	"epoch": 0.9226277372262773,
	"grad_norm": 0.9148152470588684,
	"learning_rate": 0.00018154906240191535,
	"loss": 4.0629,
	"step": 63200
	},
	{
	"epoch": 0.9343065693430657,
	"grad_norm": 0.7893709540367126,
	"learning_rate": 0.00018131548405462815,
	"loss": 4.0714,
	"step": 64000
	},
	{
	"epoch": 0.945985401459854,
	"grad_norm": 0.7790332436561584,
	"learning_rate": 0.00018108190570734095,
	"loss": 4.0618,
	"step": 64800
	},
	{
	"epoch": 0.9576642335766423,
	"grad_norm": 1.025794267654419,
	"learning_rate": 0.00018084832736005372,
	"loss": 4.0622,
	"step": 65600
	},
	{
	"epoch": 0.9693430656934306,
	"grad_norm": 0.9819601774215698,
	"learning_rate": 0.00018061474901276653,
	"loss": 4.056,
	"step": 66400
	},
	{
	"epoch": 0.981021897810219,
	"grad_norm": 0.7966727018356323,
	"learning_rate": 0.00018038117066547933,
	"loss": 4.0645,
	"step": 67200
	},
	{
	"epoch": 0.9927007299270073,
	"grad_norm": 0.5256748199462891,
	"learning_rate": 0.00018014759231819213,
	"loss": 4.0625,
	"step": 68000
	},
	{
	"epoch": 1.0043795620437956,
	"grad_norm": 1.0585341453552246,
	"learning_rate": 0.0001799140139709049,
	"loss": 4.0299,
	"step": 68800
	},
	{
	"epoch": 1.0160583941605839,
	"grad_norm": 0.568466067314148,
	"learning_rate": 0.0001796804356236177,
	"loss": 3.982,
	"step": 69600
	},
	{
	"epoch": 1.0277372262773723,
	"grad_norm": 0.651147186756134,
	"learning_rate": 0.00017944685727633048,
	"loss": 3.9653,
	"step": 70400
	},
	{
	"epoch": 1.0394160583941605,
	"grad_norm": 0.8875618577003479,
	"learning_rate": 0.00017921327892904328,
	"loss": 3.9868,
	"step": 71200
	},
	{
	"epoch": 1.051094890510949,
	"grad_norm": 0.9252369999885559,
	"learning_rate": 0.00017897970058175608,
	"loss": 3.9729,
	"step": 72000
	},
	{
	"epoch": 1.0627737226277372,
	"grad_norm": 0.5309298634529114,
	"learning_rate": 0.00017874612223446888,
	"loss": 3.9855,
	"step": 72800
	},
	{
	"epoch": 1.0744525547445256,
	"grad_norm": 0.7743874192237854,
	"learning_rate": 0.00017851254388718166,
	"loss": 3.9786,
	"step": 73600
	},
	{
	"epoch": 1.0861313868613138,
	"grad_norm": 0.6744789481163025,
	"learning_rate": 0.00017827896553989446,
	"loss": 3.9776,
	"step": 74400
	},
	{
	"epoch": 1.0978102189781023,
	"grad_norm": 0.8282249569892883,
	"learning_rate": 0.00017804538719260726,
	"loss": 3.9781,
	"step": 75200
	},
	{
	"epoch": 1.1094890510948905,
	"grad_norm": 1.0976659059524536,
	"learning_rate": 0.00017781180884532004,
	"loss": 3.9795,
	"step": 76000
	},
	{
	"epoch": 1.121167883211679,
	"grad_norm": 0.560089647769928,
	"learning_rate": 0.00017757823049803284,
	"loss": 3.9812,
	"step": 76800
	},
	{
	"epoch": 1.1328467153284671,
	"grad_norm": 0.9681680798530579,
	"learning_rate": 0.00017734465215074564,
	"loss": 3.9711,
	"step": 77600
	},
	{
	"epoch": 1.1445255474452556,
	"grad_norm": 0.5735695958137512,
	"learning_rate": 0.00017711107380345844,
	"loss": 3.9784,
	"step": 78400
	},
	{
	"epoch": 1.1562043795620438,
	"grad_norm": 0.49498119950294495,
	"learning_rate": 0.00017687749545617121,
	"loss": 3.9843,
	"step": 79200
	},
	{
	"epoch": 1.167883211678832,
	"grad_norm": 1.0702383518218994,
	"learning_rate": 0.00017664391710888402,
	"loss": 3.9929,
	"step": 80000
	},
	{
	"epoch": 1.1795620437956205,
	"grad_norm": 1.3075828552246094,
	"learning_rate": 0.00017641033876159682,
	"loss": 3.9816,
	"step": 80800
	},
	{
	"epoch": 1.1912408759124087,
	"grad_norm": 1.111781120300293,
	"learning_rate": 0.0001761767604143096,
	"loss": 3.9792,
	"step": 81600
	},
	{
	"epoch": 1.2029197080291971,
	"grad_norm": 0.9853603839874268,
	"learning_rate": 0.0001759431820670224,
	"loss": 3.9846,
	"step": 82400
	},
	{
	"epoch": 1.2145985401459853,
	"grad_norm": 0.6544378399848938,
	"learning_rate": 0.0001757096037197352,
	"loss": 3.9781,
	"step": 83200
	},
	{
	"epoch": 1.2262773722627738,
	"grad_norm": 1.1322039365768433,
	"learning_rate": 0.00017547602537244797,
	"loss": 3.9898,
	"step": 84000
	},
	{
	"epoch": 1.237956204379562,
	"grad_norm": 0.7854397892951965,
	"learning_rate": 0.00017524244702516077,
	"loss": 3.9751,
	"step": 84800
	},
	{
	"epoch": 1.2496350364963504,
	"grad_norm": 1.025718092918396,
	"learning_rate": 0.00017500886867787357,
	"loss": 3.9901,
	"step": 85600
	},
	{
	"epoch": 1.2613138686131387,
	"grad_norm": 0.7675819993019104,
	"learning_rate": 0.00017477529033058637,
	"loss": 3.984,
	"step": 86400
	},
	{
	"epoch": 1.2729927007299269,
	"grad_norm": 0.8988509774208069,
	"learning_rate": 0.00017454171198329915,
	"loss": 3.9918,
	"step": 87200
	},
	{
	"epoch": 1.2846715328467153,
	"grad_norm": 1.1059536933898926,
	"learning_rate": 0.00017430813363601195,
	"loss": 3.9813,
	"step": 88000
	},
	{
	"epoch": 1.2963503649635038,
	"grad_norm": 0.5204365253448486,
	"learning_rate": 0.00017407455528872475,
	"loss": 3.9744,
	"step": 88800
	},
	{
	"epoch": 1.308029197080292,
	"grad_norm": 0.9890186786651611,
	"learning_rate": 0.00017384097694143753,
	"loss": 3.9834,
	"step": 89600
	},
	{
	"epoch": 1.3197080291970802,
	"grad_norm": 1.2235816717147827,
	"learning_rate": 0.00017360739859415033,
	"loss": 3.993,
	"step": 90400
	},
	{
	"epoch": 1.3313868613138686,
	"grad_norm": 1.0497245788574219,
	"learning_rate": 0.00017337382024686313,
	"loss": 3.9901,
	"step": 91200
	},
	{
	"epoch": 1.343065693430657,
	"grad_norm": 0.926929235458374,
	"learning_rate": 0.0001731402418995759,
	"loss": 3.9742,
	"step": 92000
	},
	{
	"epoch": 1.3547445255474453,
	"grad_norm": 0.7672074437141418,
	"learning_rate": 0.0001729066635522887,
	"loss": 3.9956,
	"step": 92800
	},
	{
	"epoch": 1.3664233576642335,
	"grad_norm": 0.5817465782165527,
	"learning_rate": 0.0001726730852050015,
	"loss": 3.9828,
	"step": 93600
	},
	{
	"epoch": 1.378102189781022,
	"grad_norm": 0.7459368109703064,
	"learning_rate": 0.0001724395068577143,
	"loss": 3.983,
	"step": 94400
	},
	{
	"epoch": 1.3897810218978102,
	"grad_norm": 0.9725570678710938,
	"learning_rate": 0.00017220592851042708,
	"loss": 3.9791,
	"step": 95200
	},
	{
	"epoch": 1.4014598540145986,
	"grad_norm": 1.300221562385559,
	"learning_rate": 0.00017197235016313988,
	"loss": 3.986,
	"step": 96000
	},
	{
	"epoch": 1.4131386861313868,
	"grad_norm": 0.6552464962005615,
	"learning_rate": 0.00017173877181585269,
	"loss": 3.9816,
	"step": 96800
	},
	{
	"epoch": 1.4248175182481753,
	"grad_norm": 1.0207213163375854,
	"learning_rate": 0.00017150519346856546,
	"loss": 3.9733,
	"step": 97600
	},
	{
	"epoch": 1.4364963503649635,
	"grad_norm": 0.9970253109931946,
	"learning_rate": 0.00017127161512127826,
	"loss": 3.9834,
	"step": 98400
	},
	{
	"epoch": 1.448175182481752,
	"grad_norm": 0.908315896987915,
	"learning_rate": 0.00017103803677399106,
	"loss": 3.9877,
	"step": 99200
	},
	{
	"epoch": 1.4598540145985401,
	"grad_norm": 0.9726221561431885,
	"learning_rate": 0.00017080445842670384,
	"loss": 3.977,
	"step": 100000
	},
	{
	"epoch": 1.4715328467153284,
	"grad_norm": 0.7048055529594421,
	"learning_rate": 0.00017057088007941664,
	"loss": 3.986,
	"step": 100800
	},
	{
	"epoch": 1.4832116788321168,
	"grad_norm": 0.5860503911972046,
	"learning_rate": 0.00017033730173212944,
	"loss": 3.9723,
	"step": 101600
	},
	{
	"epoch": 1.4948905109489052,
	"grad_norm": 1.0115162134170532,
	"learning_rate": 0.00017010372338484224,
	"loss": 3.9777,
	"step": 102400
	},
	{
	"epoch": 1.5065693430656935,
	"grad_norm": 0.9691118597984314,
	"learning_rate": 0.00016987014503755502,
	"loss": 3.9749,
	"step": 103200
	},
	{
	"epoch": 1.5182481751824817,
	"grad_norm": 0.7307090759277344,
	"learning_rate": 0.00016963656669026782,
	"loss": 3.98,
	"step": 104000
	},
	{
	"epoch": 1.5299270072992701,
	"grad_norm": 0.9633815288543701,
	"learning_rate": 0.00016940298834298062,
	"loss": 3.9814,
	"step": 104800
	},
	{
	"epoch": 1.5416058394160586,
	"grad_norm": 0.8716799020767212,
	"learning_rate": 0.00016916940999569342,
	"loss": 3.9799,
	"step": 105600
	},
	{
	"epoch": 1.5532846715328468,
	"grad_norm": 1.063167691230774,
	"learning_rate": 0.0001689358316484062,
	"loss": 3.9828,
	"step": 106400
	},
	{
	"epoch": 1.564963503649635,
	"grad_norm": 0.9315568804740906,
	"learning_rate": 0.000168702253301119,
	"loss": 3.9801,
	"step": 107200
	},
	{
	"epoch": 1.5766423357664232,
	"grad_norm": 1.408599853515625,
	"learning_rate": 0.00016846867495383177,
	"loss": 3.9741,
	"step": 108000
	},
	{
	"epoch": 1.5883211678832116,
	"grad_norm": 0.958906352519989,
	"learning_rate": 0.00016823509660654457,
	"loss": 3.9745,
	"step": 108800
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.124635934829712,
	"learning_rate": 0.00016800151825925737,
	"loss": 3.9809,
	"step": 109600
	},
	{
	"epoch": 1.6116788321167883,
	"grad_norm": 0.8791921138763428,
	"learning_rate": 0.00016776793991197018,
	"loss": 3.9703,
	"step": 110400
	},
	{
	"epoch": 1.6233576642335765,
	"grad_norm": 0.6150586009025574,
	"learning_rate": 0.00016753436156468295,
	"loss": 3.9944,
	"step": 111200
	},
	{
	"epoch": 1.635036496350365,
	"grad_norm": 0.9286842942237854,
	"learning_rate": 0.00016730078321739575,
	"loss": 3.972,
	"step": 112000
	},
	{
	"epoch": 1.6467153284671534,
	"grad_norm": 1.3587080240249634,
	"learning_rate": 0.00016706720487010855,
	"loss": 3.9649,
	"step": 112800
	},
	{
	"epoch": 1.6583941605839416,
	"grad_norm": 1.1084531545639038,
	"learning_rate": 0.00016683362652282136,
	"loss": 3.9833,
	"step": 113600
	},
	{
	"epoch": 1.6700729927007298,
	"grad_norm": 0.8050103783607483,
	"learning_rate": 0.00016660004817553413,
	"loss": 3.9743,
	"step": 114400
	},
	{
	"epoch": 1.6817518248175183,
	"grad_norm": 0.8709130883216858,
	"learning_rate": 0.00016636646982824693,
	"loss": 3.9626,
	"step": 115200
	},
	{
	"epoch": 1.6934306569343067,
	"grad_norm": 0.6005585789680481,
	"learning_rate": 0.0001661328914809597,
	"loss": 3.9638,
	"step": 116000
	},
	{
	"epoch": 1.705109489051095,
	"grad_norm": 1.2463181018829346,
	"learning_rate": 0.0001658993131336725,
	"loss": 3.9788,
	"step": 116800
	},
	{
	"epoch": 1.7167883211678832,
	"grad_norm": 1.1946378946304321,
	"learning_rate": 0.0001656657347863853,
	"loss": 3.9697,
	"step": 117600
	},
	{
	"epoch": 1.7284671532846714,
	"grad_norm": 0.7879184484481812,
	"learning_rate": 0.0001654321564390981,
	"loss": 3.9621,
	"step": 118400
	},
	{
	"epoch": 1.7401459854014598,
	"grad_norm": 1.1674267053604126,
	"learning_rate": 0.00016519857809181088,
	"loss": 3.9646,
	"step": 119200
	},
	{
	"epoch": 1.7518248175182483,
	"grad_norm": 0.980387270450592,
	"learning_rate": 0.00016496499974452369,
	"loss": 3.972,
	"step": 120000
	},
	{
	"epoch": 1.7635036496350365,
	"grad_norm": 0.9502540826797485,
	"learning_rate": 0.0001647314213972365,
	"loss": 3.9702,
	"step": 120800
	},
	{
	"epoch": 1.7751824817518247,
	"grad_norm": 0.6683688759803772,
	"learning_rate": 0.0001644978430499493,
	"loss": 3.9704,
	"step": 121600
	},
	{
	"epoch": 1.7868613138686131,
	"grad_norm": 1.1526950597763062,
	"learning_rate": 0.00016426426470266206,
	"loss": 3.9644,
	"step": 122400
	},
	{
	"epoch": 1.7985401459854016,
	"grad_norm": 0.8221763968467712,
	"learning_rate": 0.00016403068635537486,
	"loss": 3.9677,
	"step": 123200
	},
	{
	"epoch": 1.8102189781021898,
	"grad_norm": 1.111382246017456,
	"learning_rate": 0.00016379710800808764,
	"loss": 3.9787,
	"step": 124000
	},
	{
	"epoch": 1.821897810218978,
	"grad_norm": 1.3993886709213257,
	"learning_rate": 0.00016356352966080044,
	"loss": 3.9848,
	"step": 124800
	},
	{
	"epoch": 1.8335766423357664,
	"grad_norm": 0.9269404411315918,
	"learning_rate": 0.00016332995131351324,
	"loss": 3.9477,
	"step": 125600
	},
	{
	"epoch": 1.845255474452555,
	"grad_norm": 0.9304395318031311,
	"learning_rate": 0.00016309637296622604,
	"loss": 3.9742,
	"step": 126400
	},
	{
	"epoch": 1.856934306569343,
	"grad_norm": 1.1939619779586792,
	"learning_rate": 0.00016286279461893882,
	"loss": 3.9732,
	"step": 127200
	},
	{
	"epoch": 1.8686131386861313,
	"grad_norm": 0.963022768497467,
	"learning_rate": 0.00016262921627165162,
	"loss": 3.9625,
	"step": 128000
	},
	{
	"epoch": 1.8802919708029195,
	"grad_norm": 0.8013544082641602,
	"learning_rate": 0.00016239563792436442,
	"loss": 3.9648,
	"step": 128800
	},
	{
	"epoch": 1.891970802919708,
	"grad_norm": 1.1415009498596191,
	"learning_rate": 0.00016216205957707722,
	"loss": 3.9715,
	"step": 129600
	},
	{
	"epoch": 1.9036496350364964,
	"grad_norm": 0.9819127917289734,
	"learning_rate": 0.00016192848122979,
	"loss": 3.9624,
	"step": 130400
	},
	{
	"epoch": 1.9153284671532846,
	"grad_norm": 0.7112650871276855,
	"learning_rate": 0.0001616949028825028,
	"loss": 3.9607,
	"step": 131200
	},
	{
	"epoch": 1.9270072992700729,
	"grad_norm": 0.7825914025306702,
	"learning_rate": 0.00016146132453521557,
	"loss": 3.9492,
	"step": 132000
	},
	{
	"epoch": 1.9386861313868613,
	"grad_norm": 1.136427402496338,
	"learning_rate": 0.0001612277461879284,
	"loss": 3.9607,
	"step": 132800
	},
	{
	"epoch": 1.9503649635036497,
	"grad_norm": 1.004979133605957,
	"learning_rate": 0.00016099416784064118,
	"loss": 3.9734,
	"step": 133600
	},
	{
	"epoch": 1.962043795620438,
	"grad_norm": 1.0205179452896118,
	"learning_rate": 0.00016076058949335398,
	"loss": 3.9629,
	"step": 134400
	},
	{
	"epoch": 1.9737226277372262,
	"grad_norm": 0.6552355885505676,
	"learning_rate": 0.00016052701114606675,
	"loss": 3.9705,
	"step": 135200
	},
	{
	"epoch": 1.9854014598540146,
	"grad_norm": 0.9943566918373108,
	"learning_rate": 0.00016029343279877955,
	"loss": 3.9582,
	"step": 136000
	},
	{
	"epoch": 1.997080291970803,
	"grad_norm": 1.0246118307113647,
	"learning_rate": 0.00016005985445149236,
	"loss": 3.9668,
	"step": 136800
	},
	{
	"epoch": 2.0087591240875913,
	"grad_norm": 0.783827006816864,
	"learning_rate": 0.00015982627610420516,
	"loss": 3.881,
	"step": 137600
	},
	{
	"epoch": 2.0204379562043795,
	"grad_norm": 0.7887817025184631,
	"learning_rate": 0.00015959269775691793,
	"loss": 3.8402,
	"step": 138400
	},
	{
	"epoch": 2.0321167883211677,
	"grad_norm": 0.9230135679244995,
	"learning_rate": 0.00015935911940963073,
	"loss": 3.8429,
	"step": 139200
	},
	{
	"epoch": 2.0437956204379564,
	"grad_norm": 0.9154564738273621,
	"learning_rate": 0.0001591255410623435,
	"loss": 3.8557,
	"step": 140000
	},
	{
	"epoch": 2.0554744525547446,
	"grad_norm": 1.6573781967163086,
	"learning_rate": 0.00015889196271505634,
	"loss": 3.8501,
	"step": 140800
	},
	{
	"epoch": 2.067153284671533,
	"grad_norm": 0.9853724241256714,
	"learning_rate": 0.0001586583843677691,
	"loss": 3.847,
	"step": 141600
	},
	{
	"epoch": 2.078832116788321,
	"grad_norm": 1.1365453004837036,
	"learning_rate": 0.0001584248060204819,
	"loss": 3.8616,
	"step": 142400
	},
	{
	"epoch": 2.0905109489051097,
	"grad_norm": 1.0716379880905151,
	"learning_rate": 0.00015819122767319469,
	"loss": 3.8607,
	"step": 143200
	},
	{
	"epoch": 2.102189781021898,
	"grad_norm": 0.862193763256073,
	"learning_rate": 0.0001579576493259075,
	"loss": 3.8566,
	"step": 144000
	},
	{
	"epoch": 2.113868613138686,
	"grad_norm": 0.6875022649765015,
	"learning_rate": 0.0001577240709786203,
	"loss": 3.8737,
	"step": 144800
	},
	{
	"epoch": 2.1255474452554743,
	"grad_norm": 0.7993234992027283,
	"learning_rate": 0.0001574904926313331,
	"loss": 3.8699,
	"step": 145600
	},
	{
	"epoch": 2.137226277372263,
	"grad_norm": 1.0347297191619873,
	"learning_rate": 0.00015725691428404587,
	"loss": 3.8774,
	"step": 146400
	},
	{
	"epoch": 2.1489051094890512,
	"grad_norm": 0.8707027435302734,
	"learning_rate": 0.00015702333593675867,
	"loss": 3.8687,
	"step": 147200
	},
	{
	"epoch": 2.1605839416058394,
	"grad_norm": 1.2627824544906616,
	"learning_rate": 0.00015678975758947144,
	"loss": 3.8672,
	"step": 148000
	},
	{
	"epoch": 2.1722627737226277,
	"grad_norm": 1.1346710920333862,
	"learning_rate": 0.00015655617924218427,
	"loss": 3.8797,
	"step": 148800
	},
	{
	"epoch": 2.183941605839416,
	"grad_norm": 1.2239959239959717,
	"learning_rate": 0.00015632260089489704,
	"loss": 3.8604,
	"step": 149600
	},
	{
	"epoch": 2.1956204379562045,
	"grad_norm": 1.1624715328216553,
	"learning_rate": 0.00015608902254760985,
	"loss": 3.8678,
	"step": 150400
	},
	{
	"epoch": 2.2072992700729928,
	"grad_norm": 0.9525280594825745,
	"learning_rate": 0.00015585544420032262,
	"loss": 3.8617,
	"step": 151200
	},
	{
	"epoch": 2.218978102189781,
	"grad_norm": 0.6676674485206604,
	"learning_rate": 0.00015562186585303542,
	"loss": 3.8645,
	"step": 152000
	},
	{
	"epoch": 2.230656934306569,
	"grad_norm": 1.4291656017303467,
	"learning_rate": 0.00015538828750574822,
	"loss": 3.8721,
	"step": 152800
	},
	{
	"epoch": 2.242335766423358,
	"grad_norm": 2.071485996246338,
	"learning_rate": 0.00015515470915846102,
	"loss": 3.881,
	"step": 153600
	},
	{
	"epoch": 2.254014598540146,
	"grad_norm": 1.3130428791046143,
	"learning_rate": 0.0001549211308111738,
	"loss": 3.8798,
	"step": 154400
	},
	{
	"epoch": 2.2656934306569343,
	"grad_norm": 1.0672556161880493,
	"learning_rate": 0.0001546875524638866,
	"loss": 3.8767,
	"step": 155200
	},
	{
	"epoch": 2.2773722627737225,
	"grad_norm": 0.8703996539115906,
	"learning_rate": 0.0001544539741165994,
	"loss": 3.8696,
	"step": 156000
	},
	{
	"epoch": 2.289051094890511,
	"grad_norm": 1.0338706970214844,
	"learning_rate": 0.0001542203957693122,
	"loss": 3.8857,
	"step": 156800
	},
	{
	"epoch": 2.3007299270072994,
	"grad_norm": 0.9246997833251953,
	"learning_rate": 0.00015398681742202498,
	"loss": 3.884,
	"step": 157600
	},
	{
	"epoch": 2.3124087591240876,
	"grad_norm": 0.7899117469787598,
	"learning_rate": 0.00015375323907473778,
	"loss": 3.8891,
	"step": 158400
	},
	{
	"epoch": 2.324087591240876,
	"grad_norm": 0.545261800289154,
	"learning_rate": 0.00015351966072745055,
	"loss": 3.8702,
	"step": 159200
	},
	{
	"epoch": 2.335766423357664,
	"grad_norm": 0.6720581650733948,
	"learning_rate": 0.00015328608238016338,
	"loss": 3.8962,
	"step": 160000
	},
	{
	"epoch": 2.3474452554744527,
	"grad_norm": 0.7954906821250916,
	"learning_rate": 0.00015305250403287616,
	"loss": 3.8752,
	"step": 160800
	},
	{
	"epoch": 2.359124087591241,
	"grad_norm": 0.6123435497283936,
	"learning_rate": 0.00015281892568558896,
	"loss": 3.8838,
	"step": 161600
	},
	{
	"epoch": 2.370802919708029,
	"grad_norm": 1.0467143058776855,
	"learning_rate": 0.00015258534733830173,
	"loss": 3.8798,
	"step": 162400
	},
	{
	"epoch": 2.3824817518248174,
	"grad_norm": 0.9251344799995422,
	"learning_rate": 0.00015235176899101453,
	"loss": 3.8801,
	"step": 163200
	},
	{
	"epoch": 2.394160583941606,
	"grad_norm": 1.2078486680984497,
	"learning_rate": 0.00015211819064372734,
	"loss": 3.8815,
	"step": 164000
	},
	{
	"epoch": 2.4058394160583942,
	"grad_norm": 1.1758290529251099,
	"learning_rate": 0.00015188461229644014,
	"loss": 3.8854,
	"step": 164800
	},
	{
	"epoch": 2.4175182481751825,
	"grad_norm": 1.2341893911361694,
	"learning_rate": 0.0001516510339491529,
	"loss": 3.8736,
	"step": 165600
	},
	{
	"epoch": 2.4291970802919707,
	"grad_norm": 0.85239177942276,
	"learning_rate": 0.00015141745560186571,
	"loss": 3.8821,
	"step": 166400
	},
	{
	"epoch": 2.4408759124087593,
	"grad_norm": 0.7495572566986084,
	"learning_rate": 0.0001511838772545785,
	"loss": 3.8852,
	"step": 167200
	},
	{
	"epoch": 2.4525547445255476,
	"grad_norm": 0.9310500621795654,
	"learning_rate": 0.00015095029890729132,
	"loss": 3.8904,
	"step": 168000
	},
	{
	"epoch": 2.4642335766423358,
	"grad_norm": 1.059832215309143,
	"learning_rate": 0.0001507167205600041,
	"loss": 3.8716,
	"step": 168800
	},
	{
	"epoch": 2.475912408759124,
	"grad_norm": 1.6281853914260864,
	"learning_rate": 0.0001504831422127169,
	"loss": 3.8841,
	"step": 169600
	},
	{
	"epoch": 2.487591240875912,
	"grad_norm": 0.7431134581565857,
	"learning_rate": 0.00015024956386542967,
	"loss": 3.8971,
	"step": 170400
	},
	{
	"epoch": 2.499270072992701,
	"grad_norm": 1.9159060716629028,
	"learning_rate": 0.00015001598551814247,
	"loss": 3.8938,
	"step": 171200
	},
	{
	"epoch": 2.510948905109489,
	"grad_norm": 0.8651421070098877,
	"learning_rate": 0.00014978240717085527,
	"loss": 3.8959,
	"step": 172000
	},
	{
	"epoch": 2.5226277372262773,
	"grad_norm": 0.6994857788085938,
	"learning_rate": 0.00014954882882356807,
	"loss": 3.9002,
	"step": 172800
	},
	{
	"epoch": 2.5343065693430655,
	"grad_norm": 0.9615395069122314,
	"learning_rate": 0.00014931525047628085,
	"loss": 3.9101,
	"step": 173600
	},
	{
	"epoch": 2.5459854014598537,
	"grad_norm": 1.0740983486175537,
	"learning_rate": 0.00014908167212899365,
	"loss": 3.8918,
	"step": 174400
	},
	{
	"epoch": 2.5576642335766424,
	"grad_norm": 0.5677556991577148,
	"learning_rate": 0.00014884809378170642,
	"loss": 3.8898,
	"step": 175200
	},
	{
	"epoch": 2.5693430656934306,
	"grad_norm": 0.8451770544052124,
	"learning_rate": 0.00014861451543441925,
	"loss": 3.8997,
	"step": 176000
	},
	{
	"epoch": 2.581021897810219,
	"grad_norm": 0.9004770517349243,
	"learning_rate": 0.00014838093708713202,
	"loss": 3.8918,
	"step": 176800
	},
	{
	"epoch": 2.5927007299270075,
	"grad_norm": 1.2636882066726685,
	"learning_rate": 0.00014814735873984483,
	"loss": 3.8952,
	"step": 177600
	},
	{
	"epoch": 2.6043795620437957,
	"grad_norm": 1.2926832437515259,
	"learning_rate": 0.0001479137803925576,
	"loss": 3.8955,
	"step": 178400
	},
	{
	"epoch": 2.616058394160584,
	"grad_norm": 1.2102513313293457,
	"learning_rate": 0.00014768020204527043,
	"loss": 3.883,
	"step": 179200
	},
	{
	"epoch": 2.627737226277372,
	"grad_norm": 0.8510094285011292,
	"learning_rate": 0.0001474466236979832,
	"loss": 3.8857,
	"step": 180000
	},
	{
	"epoch": 2.6394160583941604,
	"grad_norm": 1.0621333122253418,
	"learning_rate": 0.000147213045350696,
	"loss": 3.8913,
	"step": 180800
	},
	{
	"epoch": 2.651094890510949,
	"grad_norm": 0.6437257528305054,
	"learning_rate": 0.00014697946700340878,
	"loss": 3.8867,
	"step": 181600
	},
	{
	"epoch": 2.6627737226277373,
	"grad_norm": 1.1535508632659912,
	"learning_rate": 0.00014674588865612158,
	"loss": 3.8867,
	"step": 182400
	},
	{
	"epoch": 2.6744525547445255,
	"grad_norm": 0.8997545838356018,
	"learning_rate": 0.00014651231030883438,
	"loss": 3.8981,
	"step": 183200
	},
	{
	"epoch": 2.686131386861314,
	"grad_norm": 1.1245380640029907,
	"learning_rate": 0.00014627873196154718,
	"loss": 3.889,
	"step": 184000
	},
	{
	"epoch": 2.697810218978102,
	"grad_norm": 1.0414170026779175,
	"learning_rate": 0.00014604515361425996,
	"loss": 3.8838,
	"step": 184800
	},
	{
	"epoch": 2.7094890510948906,
	"grad_norm": 0.8895809054374695,
	"learning_rate": 0.00014581157526697276,
	"loss": 3.898,
	"step": 185600
	},
	{
	"epoch": 2.721167883211679,
	"grad_norm": 0.9932270050048828,
	"learning_rate": 0.00014557799691968553,
	"loss": 3.8895,
	"step": 186400
	},
	{
	"epoch": 2.732846715328467,
	"grad_norm": 0.9618707895278931,
	"learning_rate": 0.00014534441857239836,
	"loss": 3.8977,
	"step": 187200
	},
	{
	"epoch": 2.7445255474452557,
	"grad_norm": 0.6126194000244141,
	"learning_rate": 0.00014511084022511114,
	"loss": 3.8931,
	"step": 188000
	},
	{
	"epoch": 2.756204379562044,
	"grad_norm": 0.9863024353981018,
	"learning_rate": 0.00014487726187782394,
	"loss": 3.883,
	"step": 188800
	},
	{
	"epoch": 2.767883211678832,
	"grad_norm": 0.9130956530570984,
	"learning_rate": 0.00014464368353053671,
	"loss": 3.8944,
	"step": 189600
	},
	{
	"epoch": 2.7795620437956203,
	"grad_norm": 1.2602386474609375,
	"learning_rate": 0.00014441010518324952,
	"loss": 3.8864,
	"step": 190400
	},
	{
	"epoch": 2.7912408759124085,
	"grad_norm": 0.5719624161720276,
	"learning_rate": 0.00014417652683596232,
	"loss": 3.8885,
	"step": 191200
	},
	{
	"epoch": 2.802919708029197,
	"grad_norm": 0.846307635307312,
	"learning_rate": 0.00014394294848867512,
	"loss": 3.9102,
	"step": 192000
	},
	{
	"epoch": 2.8145985401459854,
	"grad_norm": 1.140491247177124,
	"learning_rate": 0.0001437093701413879,
	"loss": 3.9015,
	"step": 192800
	},
	{
	"epoch": 2.8262773722627736,
	"grad_norm": 0.8926886320114136,
	"learning_rate": 0.0001434757917941007,
	"loss": 3.8829,
	"step": 193600
	},
	{
	"epoch": 2.8379562043795623,
	"grad_norm": 0.9810717105865479,
	"learning_rate": 0.00014324221344681347,
	"loss": 3.8978,
	"step": 194400
	},
	{
	"epoch": 2.8496350364963505,
	"grad_norm": 1.0074169635772705,
	"learning_rate": 0.0001430086350995263,
	"loss": 3.8919,
	"step": 195200
	},
	{
	"epoch": 2.8613138686131387,
	"grad_norm": 0.9317566156387329,
	"learning_rate": 0.00014277505675223907,
	"loss": 3.9084,
	"step": 196000
	},
	{
	"epoch": 2.872992700729927,
	"grad_norm": 1.5248185396194458,
	"learning_rate": 0.00014254147840495187,
	"loss": 3.8973,
	"step": 196800
	},
	{
	"epoch": 2.884671532846715,
	"grad_norm": 0.8181623816490173,
	"learning_rate": 0.00014230790005766465,
	"loss": 3.8989,
	"step": 197600
	},
	{
	"epoch": 2.896350364963504,
	"grad_norm": 1.0604304075241089,
	"learning_rate": 0.00014207432171037745,
	"loss": 3.8824,
	"step": 198400
	},
	{
	"epoch": 2.908029197080292,
	"grad_norm": 1.1073662042617798,
	"learning_rate": 0.00014184074336309025,
	"loss": 3.883,
	"step": 199200
	},
	{
	"epoch": 2.9197080291970803,
	"grad_norm": 1.4300545454025269,
	"learning_rate": 0.00014160716501580305,
	"loss": 3.8935,
	"step": 200000
	},
	{
	"epoch": 2.9313868613138685,
	"grad_norm": 0.9314271807670593,
	"learning_rate": 0.00014137358666851583,
	"loss": 3.8885,
	"step": 200800
	},
	{
	"epoch": 2.9430656934306567,
	"grad_norm": 1.5918676853179932,
	"learning_rate": 0.00014114000832122863,
	"loss": 3.8834,
	"step": 201600
	},
	{
	"epoch": 2.9547445255474454,
	"grad_norm": 0.9951960444450378,
	"learning_rate": 0.0001409064299739414,
	"loss": 3.8937,
	"step": 202400
	},
	{
	"epoch": 2.9664233576642336,
	"grad_norm": 1.1108194589614868,
	"learning_rate": 0.00014067285162665423,
	"loss": 3.8979,
	"step": 203200
	},
	{
	"epoch": 2.978102189781022,
	"grad_norm": 1.1282997131347656,
	"learning_rate": 0.000140439273279367,
	"loss": 3.8962,
	"step": 204000
	},
	{
	"epoch": 2.9897810218978105,
	"grad_norm": 1.1506567001342773,
	"learning_rate": 0.0001402056949320798,
	"loss": 3.8997,
	"step": 204800
	},
	{
	"epoch": 3.0014598540145987,
	"grad_norm": 1.0932163000106812,
	"learning_rate": 0.00013997211658479258,
	"loss": 3.8628,
	"step": 205600
	},
	{
	"epoch": 3.013138686131387,
	"grad_norm": 1.4452706575393677,
	"learning_rate": 0.0001397385382375054,
	"loss": 3.7579,
	"step": 206400
	},
	{
	"epoch": 3.024817518248175,
	"grad_norm": 1.5414268970489502,
	"learning_rate": 0.00013950495989021818,
	"loss": 3.7585,
	"step": 207200
	},
	{
	"epoch": 3.0364963503649633,
	"grad_norm": 0.8187559843063354,
	"learning_rate": 0.00013927138154293099,
	"loss": 3.7596,
	"step": 208000
	},
	{
	"epoch": 3.048175182481752,
	"grad_norm": 1.4612154960632324,
	"learning_rate": 0.00013903780319564376,
	"loss": 3.7583,
	"step": 208800
	},
	{
	"epoch": 3.0598540145985402,
	"grad_norm": 0.7291022539138794,
	"learning_rate": 0.00013880422484835656,
	"loss": 3.753,
	"step": 209600
	},
	{
	"epoch": 3.0715328467153284,
	"grad_norm": 0.9759907126426697,
	"learning_rate": 0.00013857064650106936,
	"loss": 3.7531,
	"step": 210400
	},
	{
	"epoch": 3.0832116788321167,
	"grad_norm": 0.8981759548187256,
	"learning_rate": 0.00013833706815378217,
	"loss": 3.7598,
	"step": 211200
	},
	{
	"epoch": 3.094890510948905,
	"grad_norm": 0.9674969911575317,
	"learning_rate": 0.00013810348980649494,
	"loss": 3.7593,
	"step": 212000
	},
	{
	"epoch": 3.1065693430656935,
	"grad_norm": 1.410812497138977,
	"learning_rate": 0.00013786991145920774,
	"loss": 3.7674,
	"step": 212800
	},
	{
	"epoch": 3.1182481751824818,
	"grad_norm": 1.0926766395568848,
	"learning_rate": 0.00013763633311192052,
	"loss": 3.7617,
	"step": 213600
	},
	{
	"epoch": 3.12992700729927,
	"grad_norm": 0.9864111542701721,
	"learning_rate": 0.00013740275476463334,
	"loss": 3.7752,
	"step": 214400
	},
	{
	"epoch": 3.141605839416058,
	"grad_norm": 0.8889511823654175,
	"learning_rate": 0.00013716917641734612,
	"loss": 3.7727,
	"step": 215200
	},
	{
	"epoch": 3.153284671532847,
	"grad_norm": 0.8842699527740479,
	"learning_rate": 0.00013693559807005892,
	"loss": 3.7694,
	"step": 216000
	},
	{
	"epoch": 3.164963503649635,
	"grad_norm": 1.7299695014953613,
	"learning_rate": 0.0001367020197227717,
	"loss": 3.7738,
	"step": 216800
	},
	{
	"epoch": 3.1766423357664233,
	"grad_norm": 0.9839622974395752,
	"learning_rate": 0.0001364684413754845,
	"loss": 3.7947,
	"step": 217600
	},
	{
	"epoch": 3.1883211678832115,
	"grad_norm": 1.3334280252456665,
	"learning_rate": 0.0001362348630281973,
	"loss": 3.7778,
	"step": 218400
	},
	{
	"epoch": 3.2,
	"grad_norm": 1.234206199645996,
	"learning_rate": 0.0001360012846809101,
	"loss": 3.7756,
	"step": 219200
	},
	{
	"epoch": 3.2116788321167884,
	"grad_norm": 0.7193965315818787,
	"learning_rate": 0.00013576770633362287,
	"loss": 3.7879,
	"step": 220000
	},
	{
	"epoch": 3.2233576642335766,
	"grad_norm": 1.1315131187438965,
	"learning_rate": 0.00013553412798633568,
	"loss": 3.7775,
	"step": 220800
	},
	{
	"epoch": 3.235036496350365,
	"grad_norm": 1.6959398984909058,
	"learning_rate": 0.00013530054963904845,
	"loss": 3.7813,
	"step": 221600
	},
	{
	"epoch": 3.246715328467153,
	"grad_norm": 2.144179344177246,
	"learning_rate": 0.00013506697129176128,
	"loss": 3.7948,
	"step": 222400
	},
	{
	"epoch": 3.2583941605839417,
	"grad_norm": 1.4156116247177124,
	"learning_rate": 0.00013483339294447405,
	"loss": 3.7894,
	"step": 223200
	},
	{
	"epoch": 3.27007299270073,
	"grad_norm": 0.8479212522506714,
	"learning_rate": 0.00013459981459718685,
	"loss": 3.8035,
	"step": 224000
	},
	{
	"epoch": 3.281751824817518,
	"grad_norm": 0.8472751975059509,
	"learning_rate": 0.00013436623624989963,
	"loss": 3.8009,
	"step": 224800
	},
	{
	"epoch": 3.293430656934307,
	"grad_norm": 1.2888227701187134,
	"learning_rate": 0.00013413265790261243,
	"loss": 3.7939,
	"step": 225600
	},
	{
	"epoch": 3.305109489051095,
	"grad_norm": 1.1597789525985718,
	"learning_rate": 0.00013389907955532523,
	"loss": 3.7926,
	"step": 226400
	},
	{
	"epoch": 3.3167883211678832,
	"grad_norm": 0.7779558300971985,
	"learning_rate": 0.00013366550120803803,
	"loss": 3.8011,
	"step": 227200
	},
	{
	"epoch": 3.3284671532846715,
	"grad_norm": 0.9646685719490051,
	"learning_rate": 0.0001334319228607508,
	"loss": 3.7926,
	"step": 228000
	},
	{
	"epoch": 3.3401459854014597,
	"grad_norm": 0.9660009741783142,
	"learning_rate": 0.0001331983445134636,
	"loss": 3.802,
	"step": 228800
	},
	{
	"epoch": 3.3518248175182483,
	"grad_norm": 1.1353583335876465,
	"learning_rate": 0.00013296476616617638,
	"loss": 3.8077,
	"step": 229600
	},
	{
	"epoch": 3.3635036496350366,
	"grad_norm": 0.976076602935791,
	"learning_rate": 0.0001327311878188892,
	"loss": 3.7869,
	"step": 230400
	},
	{
	"epoch": 3.375182481751825,
	"grad_norm": 1.091763973236084,
	"learning_rate": 0.000132497609471602,
	"loss": 3.7933,
	"step": 231200
	},
	{
	"epoch": 3.386861313868613,
	"grad_norm": 1.6800352334976196,
	"learning_rate": 0.0001322640311243148,
	"loss": 3.7964,
	"step": 232000
	},
	{
	"epoch": 3.398540145985401,
	"grad_norm": 1.7834371328353882,
	"learning_rate": 0.00013203045277702756,
	"loss": 3.8052,
	"step": 232800
	},
	{
	"epoch": 3.41021897810219,
	"grad_norm": 1.1066137552261353,
	"learning_rate": 0.0001317968744297404,
	"loss": 3.8186,
	"step": 233600
	},
	{
	"epoch": 3.421897810218978,
	"grad_norm": 1.4821542501449585,
	"learning_rate": 0.00013156329608245317,
	"loss": 3.8012,
	"step": 234400
	},
	{
	"epoch": 3.4335766423357663,
	"grad_norm": 1.6962345838546753,
	"learning_rate": 0.00013132971773516597,
	"loss": 3.7981,
	"step": 235200
	},
	{
	"epoch": 3.445255474452555,
	"grad_norm": 1.6591582298278809,
	"learning_rate": 0.00013109613938787874,
	"loss": 3.8167,
	"step": 236000
	},
	{
	"epoch": 3.456934306569343,
	"grad_norm": 0.7325506806373596,
	"learning_rate": 0.00013086256104059154,
	"loss": 3.8046,
	"step": 236800
	},
	{
	"epoch": 3.4686131386861314,
	"grad_norm": 1.017753005027771,
	"learning_rate": 0.00013062898269330434,
	"loss": 3.8098,
	"step": 237600
	},
	{
	"epoch": 3.4802919708029196,
	"grad_norm": 1.0426437854766846,
	"learning_rate": 0.00013039540434601715,
	"loss": 3.8045,
	"step": 238400
	},
	{
	"epoch": 3.491970802919708,
	"grad_norm": 0.8641120791435242,
	"learning_rate": 0.00013016182599872992,
	"loss": 3.8202,
	"step": 239200
	},
	{
	"epoch": 3.5036496350364965,
	"grad_norm": 0.7680474519729614,
	"learning_rate": 0.00012992824765144272,
	"loss": 3.8116,
	"step": 240000
	},
	{
	"epoch": 3.5153284671532847,
	"grad_norm": 0.8205093741416931,
	"learning_rate": 0.0001296946693041555,
	"loss": 3.8002,
	"step": 240800
	},
	{
	"epoch": 3.527007299270073,
	"grad_norm": 1.1150528192520142,
	"learning_rate": 0.00012946109095686833,
	"loss": 3.8154,
	"step": 241600
	},
	{
	"epoch": 3.538686131386861,
	"grad_norm": 0.9264869689941406,
	"learning_rate": 0.0001292275126095811,
	"loss": 3.7957,
	"step": 242400
	},
	{
	"epoch": 3.5503649635036494,
	"grad_norm": 0.9504124522209167,
	"learning_rate": 0.0001289939342622939,
	"loss": 3.8059,
	"step": 243200
	},
	{
	"epoch": 3.562043795620438,
	"grad_norm": 0.6638396382331848,
	"learning_rate": 0.00012876035591500668,
	"loss": 3.8171,
	"step": 244000
	},
	{
	"epoch": 3.5737226277372263,
	"grad_norm": 0.5771734118461609,
	"learning_rate": 0.00012852677756771948,
	"loss": 3.8241,
	"step": 244800
	},
	{
	"epoch": 3.5854014598540145,
	"grad_norm": 0.9084689617156982,
	"learning_rate": 0.00012829319922043228,
	"loss": 3.8075,
	"step": 245600
	},
	{
	"epoch": 3.597080291970803,
	"grad_norm": 1.1063374280929565,
	"learning_rate": 0.00012805962087314508,
	"loss": 3.8197,
	"step": 246400
	},
	{
	"epoch": 3.6087591240875914,
	"grad_norm": 0.9490681886672974,
	"learning_rate": 0.00012782604252585785,
	"loss": 3.8158,
	"step": 247200
	},
	{
	"epoch": 3.6204379562043796,
	"grad_norm": 0.771484375,
	"learning_rate": 0.00012759246417857066,
	"loss": 3.8136,
	"step": 248000
	},
	{
	"epoch": 3.632116788321168,
	"grad_norm": 1.1464002132415771,
	"learning_rate": 0.00012735888583128343,
	"loss": 3.8167,
	"step": 248800
	},
	{
	"epoch": 3.643795620437956,
	"grad_norm": 1.292195200920105,
	"learning_rate": 0.00012712530748399626,
	"loss": 3.8133,
	"step": 249600
	},
	{
	"epoch": 3.6554744525547447,
	"grad_norm": 1.0379976034164429,
	"learning_rate": 0.00012689172913670903,
	"loss": 3.8102,
	"step": 250400
	},
	{
	"epoch": 3.667153284671533,
	"grad_norm": 1.7028378248214722,
	"learning_rate": 0.00012665815078942183,
	"loss": 3.8138,
	"step": 251200
	},
	{
	"epoch": 3.678832116788321,
	"grad_norm": 1.4890276193618774,
	"learning_rate": 0.0001264245724421346,
	"loss": 3.8195,
	"step": 252000
	},
	{
	"epoch": 3.6905109489051093,
	"grad_norm": 1.1416970491409302,
	"learning_rate": 0.0001261909940948474,
	"loss": 3.8083,
	"step": 252800
	},
	{
	"epoch": 3.7021897810218976,
	"grad_norm": 1.3536219596862793,
	"learning_rate": 0.0001259574157475602,
	"loss": 3.8155,
	"step": 253600
	},
	{
	"epoch": 3.713868613138686,
	"grad_norm": 0.939917266368866,
	"learning_rate": 0.00012572383740027301,
	"loss": 3.8224,
	"step": 254400
	},
	{
	"epoch": 3.7255474452554744,
	"grad_norm": 0.570955753326416,
	"learning_rate": 0.0001254902590529858,
	"loss": 3.8202,
	"step": 255200
	},
	{
	"epoch": 3.7372262773722627,
	"grad_norm": 1.467022180557251,
	"learning_rate": 0.0001252566807056986,
	"loss": 3.8217,
	"step": 256000
	},
	{
	"epoch": 3.7489051094890513,
	"grad_norm": 0.7063941955566406,
	"learning_rate": 0.00012502310235841136,
	"loss": 3.8166,
	"step": 256800
	},
	{
	"epoch": 3.7605839416058395,
	"grad_norm": 1.1569101810455322,
	"learning_rate": 0.0001247895240111242,
	"loss": 3.8151,
	"step": 257600
	},
	{
	"epoch": 3.7722627737226277,
	"grad_norm": 1.2285373210906982,
	"learning_rate": 0.00012455594566383697,
	"loss": 3.8214,
	"step": 258400
	},
	{
	"epoch": 3.783941605839416,
	"grad_norm": 0.9570793509483337,
	"learning_rate": 0.00012432236731654977,
	"loss": 3.8126,
	"step": 259200
	},
	{
	"epoch": 3.795620437956204,
	"grad_norm": 0.7642357349395752,
	"learning_rate": 0.00012408878896926254,
	"loss": 3.8039,
	"step": 260000
	},
	{
	"epoch": 3.807299270072993,
	"grad_norm": 1.2175133228302002,
	"learning_rate": 0.00012385521062197537,
	"loss": 3.8103,
	"step": 260800
	},
	{
	"epoch": 3.818978102189781,
	"grad_norm": 0.6660974025726318,
	"learning_rate": 0.00012362163227468815,
	"loss": 3.8113,
	"step": 261600
	},
	{
	"epoch": 3.8306569343065693,
	"grad_norm": 1.5753804445266724,
	"learning_rate": 0.00012338805392740095,
	"loss": 3.8047,
	"step": 262400
	},
	{
	"epoch": 3.8423357664233575,
	"grad_norm": 0.9252421259880066,
	"learning_rate": 0.00012315447558011372,
	"loss": 3.8209,
	"step": 263200
	},
	{
	"epoch": 3.8540145985401457,
	"grad_norm": 1.3272552490234375,
	"learning_rate": 0.00012292089723282652,
	"loss": 3.8153,
	"step": 264000
	}
	],
	"logging_steps": 800,
	"max_steps": 685000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 4000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 4.2911936164773396e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}