{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 537,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00186219739292365,
      "grad_norm": 15.272999379173774,
      "learning_rate": 9.259259259259259e-07,
      "loss": 13.888,
      "step": 1
    },
    {
      "epoch": 0.0037243947858473,
      "grad_norm": 15.73789787045258,
      "learning_rate": 1.8518518518518519e-06,
      "loss": 13.855,
      "step": 2
    },
    {
      "epoch": 0.00558659217877095,
      "grad_norm": 15.518358829308161,
      "learning_rate": 2.777777777777778e-06,
      "loss": 13.875,
      "step": 3
    },
    {
      "epoch": 0.0074487895716946,
      "grad_norm": 15.195088981565066,
      "learning_rate": 3.7037037037037037e-06,
      "loss": 13.8559,
      "step": 4
    },
    {
      "epoch": 0.00931098696461825,
      "grad_norm": 15.23277591695185,
      "learning_rate": 4.6296296296296296e-06,
      "loss": 13.8081,
      "step": 5
    },
    {
      "epoch": 0.0111731843575419,
      "grad_norm": 15.098564083329721,
      "learning_rate": 5.555555555555556e-06,
      "loss": 13.7275,
      "step": 6
    },
    {
      "epoch": 0.01303538175046555,
      "grad_norm": 14.826684113187726,
      "learning_rate": 6.481481481481481e-06,
      "loss": 13.6902,
      "step": 7
    },
    {
      "epoch": 0.0148975791433892,
      "grad_norm": 13.739703340548,
      "learning_rate": 7.4074074074074075e-06,
      "loss": 13.3701,
      "step": 8
    },
    {
      "epoch": 0.01675977653631285,
      "grad_norm": 13.313450089766105,
      "learning_rate": 8.333333333333334e-06,
      "loss": 13.2658,
      "step": 9
    },
    {
      "epoch": 0.0186219739292365,
      "grad_norm": 11.49660187401122,
      "learning_rate": 9.259259259259259e-06,
      "loss": 12.4778,
      "step": 10
    },
    {
      "epoch": 0.020484171322160148,
      "grad_norm": 11.074702026116146,
      "learning_rate": 1.0185185185185185e-05,
      "loss": 12.402,
      "step": 11
    },
    {
      "epoch": 0.0223463687150838,
      "grad_norm": 11.062794276968445,
      "learning_rate": 1.1111111111111112e-05,
      "loss": 12.1746,
      "step": 12
    },
    {
      "epoch": 0.024208566108007448,
      "grad_norm": 9.749774239955507,
      "learning_rate": 1.2037037037037037e-05,
      "loss": 11.3742,
      "step": 13
    },
    {
      "epoch": 0.0260707635009311,
      "grad_norm": 9.788469799350532,
      "learning_rate": 1.2962962962962962e-05,
      "loss": 10.8173,
      "step": 14
    },
    {
      "epoch": 0.027932960893854747,
      "grad_norm": 9.421441671168948,
      "learning_rate": 1.388888888888889e-05,
      "loss": 10.5847,
      "step": 15
    },
    {
      "epoch": 0.0297951582867784,
      "grad_norm": 9.236358238269908,
      "learning_rate": 1.4814814814814815e-05,
      "loss": 10.2008,
      "step": 16
    },
    {
      "epoch": 0.03165735567970205,
      "grad_norm": 8.913508504549203,
      "learning_rate": 1.574074074074074e-05,
      "loss": 9.9171,
      "step": 17
    },
    {
      "epoch": 0.0335195530726257,
      "grad_norm": 14.146860850834544,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 9.3545,
      "step": 18
    },
    {
      "epoch": 0.035381750465549346,
      "grad_norm": 16.556372690043695,
      "learning_rate": 1.7592592592592595e-05,
      "loss": 9.2088,
      "step": 19
    },
    {
      "epoch": 0.037243947858473,
      "grad_norm": 9.454400656522376,
      "learning_rate": 1.8518518518518518e-05,
      "loss": 8.9887,
      "step": 20
    },
    {
      "epoch": 0.03910614525139665,
      "grad_norm": 8.403396644579647,
      "learning_rate": 1.9444444444444445e-05,
      "loss": 8.5395,
      "step": 21
    },
    {
      "epoch": 0.040968342644320296,
      "grad_norm": 8.351523272274802,
      "learning_rate": 2.037037037037037e-05,
      "loss": 8.249,
      "step": 22
    },
    {
      "epoch": 0.04283054003724395,
      "grad_norm": 7.31534720559652,
      "learning_rate": 2.1296296296296296e-05,
      "loss": 7.9012,
      "step": 23
    },
    {
      "epoch": 0.0446927374301676,
      "grad_norm": 6.00115955349817,
      "learning_rate": 2.2222222222222223e-05,
      "loss": 7.6119,
      "step": 24
    },
    {
      "epoch": 0.04655493482309125,
      "grad_norm": 5.904453117317435,
      "learning_rate": 2.314814814814815e-05,
      "loss": 7.3823,
      "step": 25
    },
    {
      "epoch": 0.048417132216014895,
      "grad_norm": 5.121056737082014,
      "learning_rate": 2.4074074074074074e-05,
      "loss": 7.1155,
      "step": 26
    },
    {
      "epoch": 0.05027932960893855,
      "grad_norm": 5.33542271903706,
      "learning_rate": 2.5e-05,
      "loss": 6.7153,
      "step": 27
    },
    {
      "epoch": 0.0521415270018622,
      "grad_norm": 4.172649234661878,
      "learning_rate": 2.5925925925925925e-05,
      "loss": 6.602,
      "step": 28
    },
    {
      "epoch": 0.054003724394785846,
      "grad_norm": 3.9862373238574405,
      "learning_rate": 2.6851851851851855e-05,
      "loss": 6.2312,
      "step": 29
    },
    {
      "epoch": 0.055865921787709494,
      "grad_norm": 3.885854430904789,
      "learning_rate": 2.777777777777778e-05,
      "loss": 6.0595,
      "step": 30
    },
    {
      "epoch": 0.05772811918063315,
      "grad_norm": 3.5255028253566487,
      "learning_rate": 2.8703703703703706e-05,
      "loss": 5.7642,
      "step": 31
    },
    {
      "epoch": 0.0595903165735568,
      "grad_norm": 3.4861115691868965,
      "learning_rate": 2.962962962962963e-05,
      "loss": 5.3976,
      "step": 32
    },
    {
      "epoch": 0.061452513966480445,
      "grad_norm": 3.221173829402329,
      "learning_rate": 3.055555555555556e-05,
      "loss": 5.1168,
      "step": 33
    },
    {
      "epoch": 0.0633147113594041,
      "grad_norm": 2.754813792136989,
      "learning_rate": 3.148148148148148e-05,
      "loss": 4.9959,
      "step": 34
    },
    {
      "epoch": 0.06517690875232775,
      "grad_norm": 2.7755159736348793,
      "learning_rate": 3.240740740740741e-05,
      "loss": 4.7372,
      "step": 35
    },
    {
      "epoch": 0.0670391061452514,
      "grad_norm": 2.297142016292932,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 4.5592,
      "step": 36
    },
    {
      "epoch": 0.06890130353817504,
      "grad_norm": 2.3827846064508926,
      "learning_rate": 3.425925925925926e-05,
      "loss": 4.341,
      "step": 37
    },
    {
      "epoch": 0.07076350093109869,
      "grad_norm": 2.3102154161118382,
      "learning_rate": 3.518518518518519e-05,
      "loss": 4.2565,
      "step": 38
    },
    {
      "epoch": 0.07262569832402235,
      "grad_norm": 1.7444676286185457,
      "learning_rate": 3.611111111111111e-05,
      "loss": 3.9819,
      "step": 39
    },
    {
      "epoch": 0.074487895716946,
      "grad_norm": 1.983878001687435,
      "learning_rate": 3.7037037037037037e-05,
      "loss": 3.7768,
      "step": 40
    },
    {
      "epoch": 0.07635009310986965,
      "grad_norm": 2.0092218592563516,
      "learning_rate": 3.7962962962962964e-05,
      "loss": 3.5201,
      "step": 41
    },
    {
      "epoch": 0.0782122905027933,
      "grad_norm": 2.41673806645216,
      "learning_rate": 3.888888888888889e-05,
      "loss": 3.4164,
      "step": 42
    },
    {
      "epoch": 0.08007448789571694,
      "grad_norm": 1.9981109900869518,
      "learning_rate": 3.981481481481482e-05,
      "loss": 3.3407,
      "step": 43
    },
    {
      "epoch": 0.08193668528864059,
      "grad_norm": 1.470356715268741,
      "learning_rate": 4.074074074074074e-05,
      "loss": 3.2408,
      "step": 44
    },
    {
      "epoch": 0.08379888268156424,
      "grad_norm": 1.6203711430894332,
      "learning_rate": 4.166666666666667e-05,
      "loss": 3.1008,
      "step": 45
    },
    {
      "epoch": 0.0856610800744879,
      "grad_norm": 1.9340367562040246,
      "learning_rate": 4.259259259259259e-05,
      "loss": 2.9705,
      "step": 46
    },
    {
      "epoch": 0.08752327746741155,
      "grad_norm": 1.2440177633295564,
      "learning_rate": 4.351851851851852e-05,
      "loss": 2.8414,
      "step": 47
    },
    {
      "epoch": 0.0893854748603352,
      "grad_norm": 1.3149797303399908,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 2.7503,
      "step": 48
    },
    {
      "epoch": 0.09124767225325885,
      "grad_norm": 1.9439380810866322,
      "learning_rate": 4.5370370370370374e-05,
      "loss": 2.4051,
      "step": 49
    },
    {
      "epoch": 0.0931098696461825,
      "grad_norm": 1.3166937474482312,
      "learning_rate": 4.62962962962963e-05,
      "loss": 2.4435,
      "step": 50
    },
    {
      "epoch": 0.09497206703910614,
      "grad_norm": 1.393782213020302,
      "learning_rate": 4.722222222222222e-05,
      "loss": 2.3117,
      "step": 51
    },
    {
      "epoch": 0.09683426443202979,
      "grad_norm": 1.4093474058454991,
      "learning_rate": 4.814814814814815e-05,
      "loss": 2.2975,
      "step": 52
    },
    {
      "epoch": 0.09869646182495345,
      "grad_norm": 1.268412747819584,
      "learning_rate": 4.9074074074074075e-05,
      "loss": 2.1776,
      "step": 53
    },
    {
      "epoch": 0.1005586592178771,
      "grad_norm": 1.288006421644794,
      "learning_rate": 5e-05,
      "loss": 2.16,
      "step": 54
    },
    {
      "epoch": 0.10242085661080075,
      "grad_norm": 0.903820103719415,
      "learning_rate": 4.989648033126294e-05,
      "loss": 2.0721,
      "step": 55
    },
    {
      "epoch": 0.1042830540037244,
      "grad_norm": 1.2957042377543284,
      "learning_rate": 4.979296066252588e-05,
      "loss": 2.0356,
      "step": 56
    },
    {
      "epoch": 0.10614525139664804,
      "grad_norm": 1.3267390521054618,
      "learning_rate": 4.968944099378882e-05,
      "loss": 1.9484,
      "step": 57
    },
    {
      "epoch": 0.10800744878957169,
      "grad_norm": 1.1896597299741265,
      "learning_rate": 4.958592132505176e-05,
      "loss": 1.8343,
      "step": 58
    },
    {
      "epoch": 0.10986964618249534,
      "grad_norm": 1.2733766209177737,
      "learning_rate": 4.9482401656314706e-05,
      "loss": 1.7963,
      "step": 59
    },
    {
      "epoch": 0.11173184357541899,
      "grad_norm": 0.7289330079671295,
      "learning_rate": 4.937888198757764e-05,
      "loss": 1.7338,
      "step": 60
    },
    {
      "epoch": 0.11359404096834265,
      "grad_norm": 1.4305892169158803,
      "learning_rate": 4.9275362318840584e-05,
      "loss": 1.741,
      "step": 61
    },
    {
      "epoch": 0.1154562383612663,
      "grad_norm": 0.9127594918641093,
      "learning_rate": 4.9171842650103524e-05,
      "loss": 1.6513,
      "step": 62
    },
    {
      "epoch": 0.11731843575418995,
      "grad_norm": 1.1751108470761138,
      "learning_rate": 4.906832298136646e-05,
      "loss": 1.6221,
      "step": 63
    },
    {
      "epoch": 0.1191806331471136,
      "grad_norm": 0.8140927427664744,
      "learning_rate": 4.89648033126294e-05,
      "loss": 1.6614,
      "step": 64
    },
    {
      "epoch": 0.12104283054003724,
      "grad_norm": 0.6878379493326422,
      "learning_rate": 4.886128364389234e-05,
      "loss": 1.607,
      "step": 65
    },
    {
      "epoch": 0.12290502793296089,
      "grad_norm": 0.7687726040529584,
      "learning_rate": 4.875776397515528e-05,
      "loss": 1.58,
      "step": 66
    },
    {
      "epoch": 0.12476722532588454,
      "grad_norm": 0.7237502329565195,
      "learning_rate": 4.865424430641822e-05,
      "loss": 1.6269,
      "step": 67
    },
    {
      "epoch": 0.1266294227188082,
      "grad_norm": 0.7404725815542257,
      "learning_rate": 4.855072463768116e-05,
      "loss": 1.4543,
      "step": 68
    },
    {
      "epoch": 0.12849162011173185,
      "grad_norm": 0.6621355976624954,
      "learning_rate": 4.8447204968944106e-05,
      "loss": 1.5136,
      "step": 69
    },
    {
      "epoch": 0.1303538175046555,
      "grad_norm": 0.5965934295051921,
      "learning_rate": 4.8343685300207045e-05,
      "loss": 1.4106,
      "step": 70
    },
    {
      "epoch": 0.13221601489757914,
      "grad_norm": 0.6216760895395481,
      "learning_rate": 4.824016563146998e-05,
      "loss": 1.5447,
      "step": 71
    },
    {
      "epoch": 0.1340782122905028,
      "grad_norm": 0.7541382378330399,
      "learning_rate": 4.8136645962732924e-05,
      "loss": 1.4611,
      "step": 72
    },
    {
      "epoch": 0.13594040968342644,
      "grad_norm": 0.5961080689835629,
      "learning_rate": 4.803312629399586e-05,
      "loss": 1.409,
      "step": 73
    },
    {
      "epoch": 0.1378026070763501,
      "grad_norm": 0.4665847414375608,
      "learning_rate": 4.79296066252588e-05,
      "loss": 1.3011,
      "step": 74
    },
    {
      "epoch": 0.13966480446927373,
      "grad_norm": 0.5349026509057079,
      "learning_rate": 4.782608695652174e-05,
      "loss": 1.4387,
      "step": 75
    },
    {
      "epoch": 0.14152700186219738,
      "grad_norm": 0.5506806179618453,
      "learning_rate": 4.772256728778468e-05,
      "loss": 1.3715,
      "step": 76
    },
    {
      "epoch": 0.14338919925512103,
      "grad_norm": 0.49792945106639064,
      "learning_rate": 4.761904761904762e-05,
      "loss": 1.3322,
      "step": 77
    },
    {
      "epoch": 0.1452513966480447,
      "grad_norm": 0.36708042172619326,
      "learning_rate": 4.751552795031056e-05,
      "loss": 1.2387,
      "step": 78
    },
    {
      "epoch": 0.14711359404096835,
      "grad_norm": 0.4456062628405016,
      "learning_rate": 4.74120082815735e-05,
      "loss": 1.2603,
      "step": 79
    },
    {
      "epoch": 0.148975791433892,
      "grad_norm": 0.46639751528332446,
      "learning_rate": 4.7308488612836445e-05,
      "loss": 1.2985,
      "step": 80
    },
    {
      "epoch": 0.15083798882681565,
      "grad_norm": 0.3836323425859102,
      "learning_rate": 4.7204968944099384e-05,
      "loss": 1.2262,
      "step": 81
    },
    {
      "epoch": 0.1527001862197393,
      "grad_norm": 0.43656775614946824,
      "learning_rate": 4.710144927536232e-05,
      "loss": 1.2558,
      "step": 82
    },
    {
      "epoch": 0.15456238361266295,
      "grad_norm": 0.539164188852398,
      "learning_rate": 4.699792960662526e-05,
      "loss": 1.2456,
      "step": 83
    },
    {
      "epoch": 0.1564245810055866,
      "grad_norm": 0.48836315216225995,
      "learning_rate": 4.68944099378882e-05,
      "loss": 1.1607,
      "step": 84
    },
    {
      "epoch": 0.15828677839851024,
      "grad_norm": 0.30455120552903475,
      "learning_rate": 4.679089026915114e-05,
      "loss": 1.0879,
      "step": 85
    },
    {
      "epoch": 0.1601489757914339,
      "grad_norm": 0.45642580501309804,
      "learning_rate": 4.668737060041408e-05,
      "loss": 1.1513,
      "step": 86
    },
    {
      "epoch": 0.16201117318435754,
      "grad_norm": 0.5169482933410366,
      "learning_rate": 4.658385093167702e-05,
      "loss": 1.1748,
      "step": 87
    },
    {
      "epoch": 0.16387337057728119,
      "grad_norm": 0.38579837124882094,
      "learning_rate": 4.6480331262939966e-05,
      "loss": 1.1162,
      "step": 88
    },
    {
      "epoch": 0.16573556797020483,
      "grad_norm": 0.29384857535384795,
      "learning_rate": 4.63768115942029e-05,
      "loss": 1.1044,
      "step": 89
    },
    {
      "epoch": 0.16759776536312848,
      "grad_norm": 0.3718102751807962,
      "learning_rate": 4.627329192546584e-05,
      "loss": 1.1448,
      "step": 90
    },
    {
      "epoch": 0.16945996275605213,
      "grad_norm": 0.41082012666190765,
      "learning_rate": 4.6169772256728784e-05,
      "loss": 1.1329,
      "step": 91
    },
    {
      "epoch": 0.1713221601489758,
      "grad_norm": 0.3530548542398403,
      "learning_rate": 4.6066252587991724e-05,
      "loss": 1.0818,
      "step": 92
    },
    {
      "epoch": 0.17318435754189945,
      "grad_norm": 0.3476419146852408,
      "learning_rate": 4.5962732919254656e-05,
      "loss": 1.0911,
      "step": 93
    },
    {
      "epoch": 0.1750465549348231,
      "grad_norm": 0.30705715725564425,
      "learning_rate": 4.58592132505176e-05,
      "loss": 1.0461,
      "step": 94
    },
    {
      "epoch": 0.17690875232774675,
      "grad_norm": 0.37559413529677843,
      "learning_rate": 4.575569358178054e-05,
      "loss": 1.1687,
      "step": 95
    },
    {
      "epoch": 0.1787709497206704,
      "grad_norm": 0.34083753407017064,
      "learning_rate": 4.565217391304348e-05,
      "loss": 1.0306,
      "step": 96
    },
    {
      "epoch": 0.18063314711359404,
      "grad_norm": 0.3706881308996252,
      "learning_rate": 4.554865424430642e-05,
      "loss": 1.0623,
      "step": 97
    },
    {
      "epoch": 0.1824953445065177,
      "grad_norm": 0.3509355333431671,
      "learning_rate": 4.544513457556936e-05,
      "loss": 1.0955,
      "step": 98
    },
    {
      "epoch": 0.18435754189944134,
      "grad_norm": 0.3088395300409083,
      "learning_rate": 4.5341614906832306e-05,
      "loss": 1.0904,
      "step": 99
    },
    {
      "epoch": 0.186219739292365,
      "grad_norm": 0.3363783465523229,
      "learning_rate": 4.523809523809524e-05,
      "loss": 1.0544,
      "step": 100
    },
    {
      "epoch": 0.18808193668528864,
      "grad_norm": 0.3124791753305554,
      "learning_rate": 4.513457556935818e-05,
      "loss": 0.9908,
      "step": 101
    },
    {
      "epoch": 0.18994413407821228,
      "grad_norm": 0.27808882029026527,
      "learning_rate": 4.5031055900621124e-05,
      "loss": 0.9981,
      "step": 102
    },
    {
      "epoch": 0.19180633147113593,
      "grad_norm": 0.3512042779274829,
      "learning_rate": 4.492753623188406e-05,
      "loss": 1.0493,
      "step": 103
    },
    {
      "epoch": 0.19366852886405958,
      "grad_norm": 0.3247180208431788,
      "learning_rate": 4.4824016563146996e-05,
      "loss": 1.0202,
      "step": 104
    },
    {
      "epoch": 0.19553072625698323,
      "grad_norm": 0.3291670174160493,
      "learning_rate": 4.472049689440994e-05,
      "loss": 0.9882,
      "step": 105
    },
    {
      "epoch": 0.1973929236499069,
      "grad_norm": 0.36827079278638564,
      "learning_rate": 4.461697722567288e-05,
      "loss": 1.0731,
      "step": 106
    },
    {
      "epoch": 0.19925512104283055,
      "grad_norm": 0.4663673107731454,
      "learning_rate": 4.451345755693582e-05,
      "loss": 0.9768,
      "step": 107
    },
    {
      "epoch": 0.2011173184357542,
      "grad_norm": 0.40962846313871126,
      "learning_rate": 4.440993788819876e-05,
      "loss": 0.9235,
      "step": 108
    },
    {
      "epoch": 0.20297951582867785,
      "grad_norm": 0.28571027654666553,
      "learning_rate": 4.43064182194617e-05,
      "loss": 0.9884,
      "step": 109
    },
    {
      "epoch": 0.2048417132216015,
      "grad_norm": 0.436795833759761,
      "learning_rate": 4.4202898550724645e-05,
      "loss": 1.005,
      "step": 110
    },
    {
      "epoch": 0.20670391061452514,
      "grad_norm": 0.37102262808218434,
      "learning_rate": 4.409937888198758e-05,
      "loss": 0.9347,
      "step": 111
    },
    {
      "epoch": 0.2085661080074488,
      "grad_norm": 0.36156742300385236,
      "learning_rate": 4.399585921325052e-05,
      "loss": 0.9099,
      "step": 112
    },
    {
      "epoch": 0.21042830540037244,
      "grad_norm": 0.3055807815702462,
      "learning_rate": 4.389233954451346e-05,
      "loss": 0.9258,
      "step": 113
    },
    {
      "epoch": 0.2122905027932961,
      "grad_norm": 0.41482948156769783,
      "learning_rate": 4.3788819875776396e-05,
      "loss": 0.9326,
      "step": 114
    },
    {
      "epoch": 0.21415270018621974,
      "grad_norm": 0.32621517268366373,
      "learning_rate": 4.3685300207039335e-05,
      "loss": 0.9522,
      "step": 115
    },
    {
      "epoch": 0.21601489757914338,
      "grad_norm": 0.29875038223779554,
      "learning_rate": 4.358178053830228e-05,
      "loss": 0.934,
      "step": 116
    },
    {
      "epoch": 0.21787709497206703,
      "grad_norm": 0.3496105474229343,
      "learning_rate": 4.347826086956522e-05,
      "loss": 0.9622,
      "step": 117
    },
    {
      "epoch": 0.21973929236499068,
      "grad_norm": 0.2689146198944339,
      "learning_rate": 4.337474120082816e-05,
      "loss": 0.9108,
      "step": 118
    },
    {
      "epoch": 0.22160148975791433,
      "grad_norm": 0.31036270690836865,
      "learning_rate": 4.32712215320911e-05,
      "loss": 0.94,
      "step": 119
    },
    {
      "epoch": 0.22346368715083798,
      "grad_norm": 0.2719998153571938,
      "learning_rate": 4.316770186335404e-05,
      "loss": 0.8732,
      "step": 120
    },
    {
      "epoch": 0.22532588454376165,
      "grad_norm": 0.3008733833736407,
      "learning_rate": 4.306418219461698e-05,
      "loss": 0.8957,
      "step": 121
    },
    {
      "epoch": 0.2271880819366853,
      "grad_norm": 0.28519902146847276,
      "learning_rate": 4.296066252587992e-05,
      "loss": 0.9335,
      "step": 122
    },
    {
      "epoch": 0.22905027932960895,
      "grad_norm": 0.31242492563285834,
      "learning_rate": 4.2857142857142856e-05,
      "loss": 0.8859,
      "step": 123
    },
    {
      "epoch": 0.2309124767225326,
      "grad_norm": 0.2918917796310798,
      "learning_rate": 4.27536231884058e-05,
      "loss": 0.9326,
      "step": 124
    },
    {
      "epoch": 0.23277467411545624,
      "grad_norm": 0.26995742388583693,
      "learning_rate": 4.2650103519668735e-05,
      "loss": 0.897,
      "step": 125
    },
    {
      "epoch": 0.2346368715083799,
      "grad_norm": 0.296968242965005,
      "learning_rate": 4.254658385093168e-05,
      "loss": 0.9083,
      "step": 126
    },
    {
      "epoch": 0.23649906890130354,
      "grad_norm": 0.31226876250015334,
      "learning_rate": 4.244306418219462e-05,
      "loss": 0.9276,
      "step": 127
    },
    {
      "epoch": 0.2383612662942272,
      "grad_norm": 0.3266734868987693,
      "learning_rate": 4.233954451345756e-05,
      "loss": 0.9047,
      "step": 128
    },
    {
      "epoch": 0.24022346368715083,
      "grad_norm": 0.26513181434168626,
      "learning_rate": 4.22360248447205e-05,
      "loss": 0.8847,
      "step": 129
    },
    {
      "epoch": 0.24208566108007448,
      "grad_norm": 0.28557838213871395,
      "learning_rate": 4.213250517598344e-05,
      "loss": 0.9339,
      "step": 130
    },
    {
      "epoch": 0.24394785847299813,
      "grad_norm": 0.30185030802430685,
      "learning_rate": 4.202898550724638e-05,
      "loss": 0.9344,
      "step": 131
    },
    {
      "epoch": 0.24581005586592178,
      "grad_norm": 0.3358709349117737,
      "learning_rate": 4.192546583850932e-05,
      "loss": 0.8487,
      "step": 132
    },
    {
      "epoch": 0.24767225325884543,
      "grad_norm": 0.26899735836376265,
      "learning_rate": 4.1821946169772256e-05,
      "loss": 0.8575,
      "step": 133
    },
    {
      "epoch": 0.24953445065176907,
      "grad_norm": 0.37215181643978557,
      "learning_rate": 4.1718426501035196e-05,
      "loss": 0.9125,
      "step": 134
    },
    {
      "epoch": 0.25139664804469275,
      "grad_norm": 0.38064546758698464,
      "learning_rate": 4.161490683229814e-05,
      "loss": 0.8478,
      "step": 135
    },
    {
      "epoch": 0.2532588454376164,
      "grad_norm": 0.27470291936865315,
      "learning_rate": 4.1511387163561074e-05,
      "loss": 0.8705,
      "step": 136
    },
    {
      "epoch": 0.25512104283054005,
      "grad_norm": 0.33499713536921255,
      "learning_rate": 4.140786749482402e-05,
      "loss": 0.8986,
      "step": 137
    },
    {
      "epoch": 0.2569832402234637,
      "grad_norm": 0.34349001731890216,
      "learning_rate": 4.130434782608696e-05,
      "loss": 0.9277,
      "step": 138
    },
    {
      "epoch": 0.25884543761638734,
      "grad_norm": 0.348591011527026,
      "learning_rate": 4.12008281573499e-05,
      "loss": 0.8402,
      "step": 139
    },
    {
      "epoch": 0.260707635009311,
      "grad_norm": 0.27972634205263963,
      "learning_rate": 4.109730848861284e-05,
      "loss": 0.8484,
      "step": 140
    },
    {
      "epoch": 0.26256983240223464,
      "grad_norm": 0.3744071126689349,
      "learning_rate": 4.099378881987578e-05,
      "loss": 0.9291,
      "step": 141
    },
    {
      "epoch": 0.2644320297951583,
      "grad_norm": 0.3751484522694307,
      "learning_rate": 4.089026915113872e-05,
      "loss": 0.8487,
      "step": 142
    },
    {
      "epoch": 0.26629422718808193,
      "grad_norm": 0.3342143515328897,
      "learning_rate": 4.0786749482401656e-05,
      "loss": 0.8767,
      "step": 143
    },
    {
      "epoch": 0.2681564245810056,
      "grad_norm": 0.3760735811317626,
      "learning_rate": 4.0683229813664596e-05,
      "loss": 0.8376,
      "step": 144
    },
    {
      "epoch": 0.27001862197392923,
      "grad_norm": 0.33536557295523856,
      "learning_rate": 4.057971014492754e-05,
      "loss": 0.8457,
      "step": 145
    },
    {
      "epoch": 0.2718808193668529,
      "grad_norm": 0.3177161719768809,
      "learning_rate": 4.047619047619048e-05,
      "loss": 0.8511,
      "step": 146
    },
    {
      "epoch": 0.2737430167597765,
      "grad_norm": 0.34214675273917494,
      "learning_rate": 4.0372670807453414e-05,
      "loss": 0.8476,
      "step": 147
    },
    {
      "epoch": 0.2756052141527002,
      "grad_norm": 0.3102822217437171,
      "learning_rate": 4.026915113871636e-05,
      "loss": 0.8323,
      "step": 148
    },
    {
      "epoch": 0.2774674115456238,
      "grad_norm": 0.25263026804384886,
      "learning_rate": 4.01656314699793e-05,
      "loss": 0.87,
      "step": 149
    },
    {
      "epoch": 0.27932960893854747,
      "grad_norm": 0.44441035765053927,
      "learning_rate": 4.006211180124224e-05,
      "loss": 0.8665,
      "step": 150
    },
    {
      "epoch": 0.2811918063314711,
      "grad_norm": 0.33019392081209153,
      "learning_rate": 3.995859213250518e-05,
      "loss": 0.825,
      "step": 151
    },
    {
      "epoch": 0.28305400372439476,
      "grad_norm": 0.32169367241568697,
      "learning_rate": 3.985507246376812e-05,
      "loss": 0.8313,
      "step": 152
    },
    {
      "epoch": 0.2849162011173184,
      "grad_norm": 0.2902985000776202,
      "learning_rate": 3.9751552795031056e-05,
      "loss": 0.8014,
      "step": 153
    },
    {
      "epoch": 0.28677839851024206,
      "grad_norm": 0.33719955440301425,
      "learning_rate": 3.9648033126293996e-05,
      "loss": 0.8212,
      "step": 154
    },
    {
      "epoch": 0.2886405959031657,
      "grad_norm": 0.3038851260425016,
      "learning_rate": 3.9544513457556935e-05,
      "loss": 0.8249,
      "step": 155
    },
    {
      "epoch": 0.2905027932960894,
      "grad_norm": 0.2949231729413749,
      "learning_rate": 3.944099378881988e-05,
      "loss": 0.8412,
      "step": 156
    },
    {
      "epoch": 0.29236499068901306,
      "grad_norm": 0.2744903999683991,
      "learning_rate": 3.933747412008282e-05,
      "loss": 0.8266,
      "step": 157
    },
    {
      "epoch": 0.2942271880819367,
      "grad_norm": 0.406346132501643,
      "learning_rate": 3.923395445134575e-05,
      "loss": 0.823,
      "step": 158
    },
    {
      "epoch": 0.29608938547486036,
      "grad_norm": 0.307162328186233,
      "learning_rate": 3.91304347826087e-05,
      "loss": 0.7896,
      "step": 159
    },
    {
      "epoch": 0.297951582867784,
      "grad_norm": 0.25668353143667544,
      "learning_rate": 3.902691511387164e-05,
      "loss": 0.8032,
      "step": 160
    },
    {
      "epoch": 0.29981378026070765,
      "grad_norm": 0.2664568204170443,
      "learning_rate": 3.892339544513458e-05,
      "loss": 0.7912,
      "step": 161
    },
    {
      "epoch": 0.3016759776536313,
      "grad_norm": 0.26970425785705276,
      "learning_rate": 3.881987577639752e-05,
      "loss": 0.8008,
      "step": 162
    },
    {
      "epoch": 0.30353817504655495,
      "grad_norm": 0.2435453168431115,
      "learning_rate": 3.8716356107660456e-05,
      "loss": 0.7901,
      "step": 163
    },
    {
      "epoch": 0.3054003724394786,
      "grad_norm": 0.2496707990996996,
      "learning_rate": 3.86128364389234e-05,
      "loss": 0.8002,
      "step": 164
    },
    {
      "epoch": 0.30726256983240224,
      "grad_norm": 0.28918011341400374,
      "learning_rate": 3.8509316770186335e-05,
      "loss": 0.8275,
      "step": 165
    },
    {
      "epoch": 0.3091247672253259,
      "grad_norm": 0.28183080705533764,
      "learning_rate": 3.8405797101449274e-05,
      "loss": 0.7964,
      "step": 166
    },
    {
      "epoch": 0.31098696461824954,
      "grad_norm": 0.27792926876044455,
      "learning_rate": 3.830227743271222e-05,
      "loss": 0.8185,
      "step": 167
    },
    {
      "epoch": 0.3128491620111732,
      "grad_norm": 0.4625671676675483,
      "learning_rate": 3.819875776397516e-05,
      "loss": 0.8244,
      "step": 168
    },
    {
      "epoch": 0.31471135940409684,
      "grad_norm": 0.2982526891690591,
      "learning_rate": 3.809523809523809e-05,
      "loss": 0.7821,
      "step": 169
    },
    {
      "epoch": 0.3165735567970205,
      "grad_norm": 0.28377574714439574,
      "learning_rate": 3.799171842650104e-05,
      "loss": 0.7926,
      "step": 170
    },
    {
      "epoch": 0.31843575418994413,
      "grad_norm": 0.30569741913841175,
      "learning_rate": 3.788819875776398e-05,
      "loss": 0.8319,
      "step": 171
    },
    {
      "epoch": 0.3202979515828678,
      "grad_norm": 0.2752669269826893,
      "learning_rate": 3.778467908902692e-05,
      "loss": 0.7962,
      "step": 172
    },
    {
      "epoch": 0.3221601489757914,
      "grad_norm": 0.2725940816865174,
      "learning_rate": 3.7681159420289856e-05,
      "loss": 0.7638,
      "step": 173
    },
    {
      "epoch": 0.3240223463687151,
      "grad_norm": 0.31227097790956293,
      "learning_rate": 3.7577639751552796e-05,
      "loss": 0.8526,
      "step": 174
    },
    {
      "epoch": 0.3258845437616387,
      "grad_norm": 0.2972193496010533,
      "learning_rate": 3.747412008281574e-05,
      "loss": 0.7877,
      "step": 175
    },
    {
      "epoch": 0.32774674115456237,
      "grad_norm": 0.2747821756499563,
      "learning_rate": 3.7370600414078674e-05,
      "loss": 0.7806,
      "step": 176
    },
    {
      "epoch": 0.329608938547486,
      "grad_norm": 0.2117179928079262,
      "learning_rate": 3.7267080745341614e-05,
      "loss": 0.7495,
      "step": 177
    },
    {
      "epoch": 0.33147113594040967,
      "grad_norm": 0.2855514361410065,
      "learning_rate": 3.716356107660456e-05,
      "loss": 0.778,
      "step": 178
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.2806629044542803,
      "learning_rate": 3.70600414078675e-05,
      "loss": 0.8071,
      "step": 179
    },
    {
      "epoch": 0.33519553072625696,
      "grad_norm": 0.25507878804013717,
      "learning_rate": 3.695652173913043e-05,
      "loss": 0.7768,
      "step": 180
    },
    {
      "epoch": 0.3370577281191806,
      "grad_norm": 0.27106677044601896,
      "learning_rate": 3.685300207039338e-05,
      "loss": 0.7354,
      "step": 181
    },
    {
      "epoch": 0.33891992551210426,
      "grad_norm": 0.31898206482343977,
      "learning_rate": 3.674948240165632e-05,
      "loss": 0.8045,
      "step": 182
    },
    {
      "epoch": 0.3407821229050279,
      "grad_norm": 0.30901898172753023,
      "learning_rate": 3.6645962732919256e-05,
      "loss": 0.818,
      "step": 183
    },
    {
      "epoch": 0.3426443202979516,
      "grad_norm": 0.3025584924800252,
      "learning_rate": 3.6542443064182196e-05,
      "loss": 0.8166,
      "step": 184
    },
    {
      "epoch": 0.34450651769087526,
      "grad_norm": 0.2823878329227994,
      "learning_rate": 3.6438923395445135e-05,
      "loss": 0.7596,
      "step": 185
    },
    {
      "epoch": 0.3463687150837989,
      "grad_norm": 0.25646220905574585,
      "learning_rate": 3.633540372670808e-05,
      "loss": 0.7562,
      "step": 186
    },
    {
      "epoch": 0.34823091247672255,
      "grad_norm": 0.27715113764335997,
      "learning_rate": 3.6231884057971014e-05,
      "loss": 0.7476,
      "step": 187
    },
    {
      "epoch": 0.3500931098696462,
      "grad_norm": 0.27733146887365945,
      "learning_rate": 3.612836438923395e-05,
      "loss": 0.8093,
      "step": 188
    },
    {
      "epoch": 0.35195530726256985,
      "grad_norm": 0.2720014577217006,
      "learning_rate": 3.60248447204969e-05,
      "loss": 0.799,
      "step": 189
    },
    {
      "epoch": 0.3538175046554935,
      "grad_norm": 0.254198417877047,
      "learning_rate": 3.592132505175984e-05,
      "loss": 0.7997,
      "step": 190
    },
    {
      "epoch": 0.35567970204841715,
      "grad_norm": 0.25267470206624915,
      "learning_rate": 3.581780538302277e-05,
      "loss": 0.7681,
      "step": 191
    },
    {
      "epoch": 0.3575418994413408,
      "grad_norm": 0.24919092320174072,
      "learning_rate": 3.571428571428572e-05,
      "loss": 0.8275,
      "step": 192
    },
    {
      "epoch": 0.35940409683426444,
      "grad_norm": 0.22286191853343196,
      "learning_rate": 3.5610766045548656e-05,
      "loss": 0.7707,
      "step": 193
    },
    {
      "epoch": 0.3612662942271881,
      "grad_norm": 0.23901473864759035,
      "learning_rate": 3.5507246376811596e-05,
      "loss": 0.7364,
      "step": 194
    },
    {
      "epoch": 0.36312849162011174,
      "grad_norm": 0.24092101248611655,
      "learning_rate": 3.5403726708074535e-05,
      "loss": 0.7737,
      "step": 195
    },
    {
      "epoch": 0.3649906890130354,
      "grad_norm": 0.22433456772473823,
      "learning_rate": 3.5300207039337474e-05,
      "loss": 0.7645,
      "step": 196
    },
    {
      "epoch": 0.36685288640595903,
      "grad_norm": 0.2385898884817384,
      "learning_rate": 3.519668737060042e-05,
      "loss": 0.7729,
      "step": 197
    },
    {
      "epoch": 0.3687150837988827,
      "grad_norm": 0.2545125373040691,
      "learning_rate": 3.509316770186335e-05,
      "loss": 0.7594,
      "step": 198
    },
    {
      "epoch": 0.37057728119180633,
      "grad_norm": 0.23307113406791644,
      "learning_rate": 3.498964803312629e-05,
      "loss": 0.7403,
      "step": 199
    },
    {
      "epoch": 0.37243947858473,
      "grad_norm": 0.2660002110375458,
      "learning_rate": 3.488612836438924e-05,
      "loss": 0.728,
      "step": 200
    },
    {
      "epoch": 0.3743016759776536,
      "grad_norm": 0.27072855439654103,
      "learning_rate": 3.478260869565218e-05,
      "loss": 0.7734,
      "step": 201
    },
    {
      "epoch": 0.3761638733705773,
      "grad_norm": 0.2864110156706485,
      "learning_rate": 3.467908902691512e-05,
      "loss": 0.7587,
      "step": 202
    },
    {
      "epoch": 0.3780260707635009,
      "grad_norm": 0.3046086028357989,
      "learning_rate": 3.4575569358178056e-05,
      "loss": 0.7399,
      "step": 203
    },
    {
      "epoch": 0.37988826815642457,
      "grad_norm": 0.272322987550275,
      "learning_rate": 3.4472049689440996e-05,
      "loss": 0.7609,
      "step": 204
    },
    {
      "epoch": 0.3817504655493482,
      "grad_norm": 0.2328349618772718,
      "learning_rate": 3.4368530020703935e-05,
      "loss": 0.7778,
      "step": 205
    },
    {
      "epoch": 0.38361266294227186,
      "grad_norm": 0.30830644919781947,
      "learning_rate": 3.4265010351966874e-05,
      "loss": 0.7897,
      "step": 206
    },
    {
      "epoch": 0.3854748603351955,
      "grad_norm": 0.25820332907274124,
      "learning_rate": 3.4161490683229814e-05,
      "loss": 0.6854,
      "step": 207
    },
    {
      "epoch": 0.38733705772811916,
      "grad_norm": 0.25619438434835085,
      "learning_rate": 3.405797101449276e-05,
      "loss": 0.7969,
      "step": 208
    },
    {
      "epoch": 0.3891992551210428,
      "grad_norm": 0.33009425507593837,
      "learning_rate": 3.395445134575569e-05,
      "loss": 0.7691,
      "step": 209
    },
    {
      "epoch": 0.39106145251396646,
      "grad_norm": 0.299846974772621,
      "learning_rate": 3.385093167701863e-05,
      "loss": 0.7646,
      "step": 210
    },
    {
      "epoch": 0.3929236499068901,
      "grad_norm": 0.22438067102525308,
      "learning_rate": 3.374741200828158e-05,
      "loss": 0.753,
      "step": 211
    },
    {
      "epoch": 0.3947858472998138,
      "grad_norm": 0.35179568282886714,
      "learning_rate": 3.364389233954452e-05,
      "loss": 0.7743,
      "step": 212
    },
    {
      "epoch": 0.39664804469273746,
      "grad_norm": 0.35758339549178236,
      "learning_rate": 3.3540372670807456e-05,
      "loss": 0.774,
      "step": 213
    },
    {
      "epoch": 0.3985102420856611,
      "grad_norm": 0.24368232327507033,
      "learning_rate": 3.3436853002070396e-05,
      "loss": 0.7244,
      "step": 214
    },
    {
      "epoch": 0.40037243947858475,
      "grad_norm": 0.24961820591677655,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.7202,
      "step": 215
    },
    {
      "epoch": 0.4022346368715084,
      "grad_norm": 0.29901504225076586,
      "learning_rate": 3.3229813664596274e-05,
      "loss": 0.7624,
      "step": 216
    },
    {
      "epoch": 0.40409683426443205,
      "grad_norm": 0.26064545918571563,
      "learning_rate": 3.3126293995859214e-05,
      "loss": 0.7467,
      "step": 217
    },
    {
      "epoch": 0.4059590316573557,
      "grad_norm": 0.2578577570605843,
      "learning_rate": 3.302277432712215e-05,
      "loss": 0.7695,
      "step": 218
    },
    {
      "epoch": 0.40782122905027934,
      "grad_norm": 0.25928384868791304,
      "learning_rate": 3.29192546583851e-05,
      "loss": 0.7424,
      "step": 219
    },
    {
      "epoch": 0.409683426443203,
      "grad_norm": 0.2508830193991683,
      "learning_rate": 3.281573498964803e-05,
      "loss": 0.729,
      "step": 220
    },
    {
      "epoch": 0.41154562383612664,
      "grad_norm": 0.23443281986049097,
      "learning_rate": 3.271221532091098e-05,
      "loss": 0.7435,
      "step": 221
    },
    {
      "epoch": 0.4134078212290503,
      "grad_norm": 0.29324911113090735,
      "learning_rate": 3.260869565217392e-05,
      "loss": 0.7444,
      "step": 222
    },
    {
      "epoch": 0.41527001862197394,
      "grad_norm": 0.2301413083089202,
      "learning_rate": 3.2505175983436856e-05,
      "loss": 0.7569,
      "step": 223
    },
    {
      "epoch": 0.4171322160148976,
      "grad_norm": 0.27478240235599205,
      "learning_rate": 3.2401656314699796e-05,
      "loss": 0.6978,
      "step": 224
    },
    {
      "epoch": 0.41899441340782123,
      "grad_norm": 0.28483964935902334,
      "learning_rate": 3.2298136645962735e-05,
      "loss": 0.7307,
      "step": 225
    },
    {
      "epoch": 0.4208566108007449,
      "grad_norm": 0.26317984371248043,
      "learning_rate": 3.2194616977225674e-05,
      "loss": 0.73,
      "step": 226
    },
    {
      "epoch": 0.4227188081936685,
      "grad_norm": 0.2398524894406557,
      "learning_rate": 3.2091097308488614e-05,
      "loss": 0.7373,
      "step": 227
    },
    {
      "epoch": 0.4245810055865922,
      "grad_norm": 0.23560689483324665,
      "learning_rate": 3.198757763975155e-05,
      "loss": 0.6796,
      "step": 228
    },
    {
      "epoch": 0.4264432029795158,
      "grad_norm": 0.2293762386130455,
      "learning_rate": 3.188405797101449e-05,
      "loss": 0.7294,
      "step": 229
    },
    {
      "epoch": 0.42830540037243947,
      "grad_norm": 0.2638752478831505,
      "learning_rate": 3.178053830227744e-05,
      "loss": 0.7175,
      "step": 230
    },
    {
      "epoch": 0.4301675977653631,
      "grad_norm": 0.2413830685339576,
      "learning_rate": 3.167701863354037e-05,
      "loss": 0.7135,
      "step": 231
    },
    {
      "epoch": 0.43202979515828677,
      "grad_norm": 0.2306816065243006,
      "learning_rate": 3.157349896480332e-05,
      "loss": 0.6912,
      "step": 232
    },
    {
      "epoch": 0.4338919925512104,
      "grad_norm": 0.21738129138786763,
      "learning_rate": 3.1469979296066256e-05,
      "loss": 0.7528,
      "step": 233
    },
    {
      "epoch": 0.43575418994413406,
      "grad_norm": 0.2439136248881152,
      "learning_rate": 3.136645962732919e-05,
      "loss": 0.7624,
      "step": 234
    },
    {
      "epoch": 0.4376163873370577,
      "grad_norm": 0.22178607979292114,
      "learning_rate": 3.1262939958592135e-05,
      "loss": 0.7149,
      "step": 235
    },
    {
      "epoch": 0.43947858472998136,
      "grad_norm": 0.2706763544376656,
      "learning_rate": 3.1159420289855074e-05,
      "loss": 0.7409,
      "step": 236
    },
    {
      "epoch": 0.441340782122905,
      "grad_norm": 0.23132506507648584,
      "learning_rate": 3.1055900621118014e-05,
      "loss": 0.7081,
      "step": 237
    },
    {
      "epoch": 0.44320297951582865,
      "grad_norm": 0.30381574715650084,
      "learning_rate": 3.095238095238095e-05,
      "loss": 0.7522,
      "step": 238
    },
    {
      "epoch": 0.4450651769087523,
      "grad_norm": 0.25923083043824463,
      "learning_rate": 3.084886128364389e-05,
      "loss": 0.7285,
      "step": 239
    },
    {
      "epoch": 0.44692737430167595,
      "grad_norm": 0.24530017063822998,
      "learning_rate": 3.074534161490684e-05,
      "loss": 0.728,
      "step": 240
    },
    {
      "epoch": 0.44878957169459965,
      "grad_norm": 0.28981821252170353,
      "learning_rate": 3.064182194616977e-05,
      "loss": 0.7456,
      "step": 241
    },
    {
      "epoch": 0.4506517690875233,
      "grad_norm": 0.2071333853857203,
      "learning_rate": 3.053830227743271e-05,
      "loss": 0.6989,
      "step": 242
    },
    {
      "epoch": 0.45251396648044695,
      "grad_norm": 0.2598530973373436,
      "learning_rate": 3.0434782608695656e-05,
      "loss": 0.7547,
      "step": 243
    },
    {
      "epoch": 0.4543761638733706,
      "grad_norm": 0.2167059813906125,
      "learning_rate": 3.0331262939958592e-05,
      "loss": 0.6953,
      "step": 244
    },
    {
      "epoch": 0.45623836126629425,
      "grad_norm": 0.23119853107989424,
      "learning_rate": 3.022774327122153e-05,
      "loss": 0.6838,
      "step": 245
    },
    {
      "epoch": 0.4581005586592179,
      "grad_norm": 0.2826406194095703,
      "learning_rate": 3.0124223602484474e-05,
      "loss": 0.7168,
      "step": 246
    },
    {
      "epoch": 0.45996275605214154,
      "grad_norm": 0.22424444982554106,
      "learning_rate": 3.0020703933747414e-05,
      "loss": 0.6988,
      "step": 247
    },
    {
      "epoch": 0.4618249534450652,
      "grad_norm": 0.2525600066374671,
      "learning_rate": 2.991718426501035e-05,
      "loss": 0.7569,
      "step": 248
    },
    {
      "epoch": 0.46368715083798884,
      "grad_norm": 0.25273558488564263,
      "learning_rate": 2.9813664596273296e-05,
      "loss": 0.7242,
      "step": 249
    },
    {
      "epoch": 0.4655493482309125,
      "grad_norm": 0.25187258620965636,
      "learning_rate": 2.971014492753623e-05,
      "loss": 0.7343,
      "step": 250
    },
    {
      "epoch": 0.46741154562383613,
      "grad_norm": 0.22598552274039854,
      "learning_rate": 2.9606625258799174e-05,
      "loss": 0.7124,
      "step": 251
    },
    {
      "epoch": 0.4692737430167598,
      "grad_norm": 0.23083815312336475,
      "learning_rate": 2.9503105590062114e-05,
      "loss": 0.6755,
      "step": 252
    },
    {
      "epoch": 0.47113594040968343,
      "grad_norm": 0.2256285413552857,
      "learning_rate": 2.9399585921325053e-05,
      "loss": 0.6961,
      "step": 253
    },
    {
      "epoch": 0.4729981378026071,
      "grad_norm": 0.27276864490787534,
      "learning_rate": 2.9296066252587996e-05,
      "loss": 0.7279,
      "step": 254
    },
    {
      "epoch": 0.4748603351955307,
      "grad_norm": 0.23837685169830414,
      "learning_rate": 2.919254658385093e-05,
      "loss": 0.7282,
      "step": 255
    },
    {
      "epoch": 0.4767225325884544,
      "grad_norm": 0.23691093079819298,
      "learning_rate": 2.908902691511387e-05,
      "loss": 0.7065,
      "step": 256
    },
    {
      "epoch": 0.478584729981378,
      "grad_norm": 0.21408553722490908,
      "learning_rate": 2.8985507246376814e-05,
      "loss": 0.7203,
      "step": 257
    },
    {
      "epoch": 0.48044692737430167,
      "grad_norm": 0.21568877131099773,
      "learning_rate": 2.8881987577639753e-05,
      "loss": 0.7086,
      "step": 258
    },
    {
      "epoch": 0.4823091247672253,
      "grad_norm": 0.2621232093220542,
      "learning_rate": 2.8778467908902696e-05,
      "loss": 0.748,
      "step": 259
    },
    {
      "epoch": 0.48417132216014896,
      "grad_norm": 0.20725234302602308,
      "learning_rate": 2.8674948240165635e-05,
      "loss": 0.7004,
      "step": 260
    },
    {
      "epoch": 0.4860335195530726,
      "grad_norm": 0.21137073661345349,
      "learning_rate": 2.857142857142857e-05,
      "loss": 0.6974,
      "step": 261
    },
    {
      "epoch": 0.48789571694599626,
      "grad_norm": 0.2380672800337577,
      "learning_rate": 2.8467908902691514e-05,
      "loss": 0.7073,
      "step": 262
    },
    {
      "epoch": 0.4897579143389199,
      "grad_norm": 0.24555859446364275,
      "learning_rate": 2.8364389233954453e-05,
      "loss": 0.7545,
      "step": 263
    },
    {
      "epoch": 0.49162011173184356,
      "grad_norm": 0.24188378674583078,
      "learning_rate": 2.826086956521739e-05,
      "loss": 0.7058,
      "step": 264
    },
    {
      "epoch": 0.4934823091247672,
      "grad_norm": 0.32011133381237533,
      "learning_rate": 2.8157349896480335e-05,
      "loss": 0.6915,
      "step": 265
    },
    {
      "epoch": 0.49534450651769085,
      "grad_norm": 0.24793740285733093,
      "learning_rate": 2.805383022774327e-05,
      "loss": 0.6955,
      "step": 266
    },
    {
      "epoch": 0.4972067039106145,
      "grad_norm": 0.24338880729868007,
      "learning_rate": 2.795031055900621e-05,
      "loss": 0.7355,
      "step": 267
    },
    {
      "epoch": 0.49906890130353815,
      "grad_norm": 0.21077920457166047,
      "learning_rate": 2.7846790890269153e-05,
      "loss": 0.6795,
      "step": 268
    },
    {
      "epoch": 0.5009310986964618,
      "grad_norm": 0.21815587916270748,
      "learning_rate": 2.7743271221532092e-05,
      "loss": 0.6881,
      "step": 269
    },
    {
      "epoch": 0.5027932960893855,
      "grad_norm": 0.23056257117737375,
      "learning_rate": 2.7639751552795035e-05,
      "loss": 0.7098,
      "step": 270
    },
    {
      "epoch": 0.5046554934823091,
      "grad_norm": 0.18995798083049004,
      "learning_rate": 2.753623188405797e-05,
      "loss": 0.6896,
      "step": 271
    },
    {
      "epoch": 0.5065176908752328,
      "grad_norm": 0.23867692615137567,
      "learning_rate": 2.743271221532091e-05,
      "loss": 0.7107,
      "step": 272
    },
    {
      "epoch": 0.5083798882681564,
      "grad_norm": 0.2618790730713222,
      "learning_rate": 2.7329192546583853e-05,
      "loss": 0.6919,
      "step": 273
    },
    {
      "epoch": 0.5102420856610801,
      "grad_norm": 0.22346553612375256,
      "learning_rate": 2.7225672877846792e-05,
      "loss": 0.6791,
      "step": 274
    },
    {
      "epoch": 0.5121042830540037,
      "grad_norm": 0.22898304964281327,
      "learning_rate": 2.7122153209109728e-05,
      "loss": 0.7239,
      "step": 275
    },
    {
      "epoch": 0.5139664804469274,
      "grad_norm": 0.26567290434979157,
      "learning_rate": 2.7018633540372674e-05,
      "loss": 0.7187,
      "step": 276
    },
    {
      "epoch": 0.515828677839851,
      "grad_norm": 0.1822010090327921,
      "learning_rate": 2.691511387163561e-05,
      "loss": 0.6452,
      "step": 277
    },
    {
      "epoch": 0.5176908752327747,
      "grad_norm": 0.25680832624212263,
      "learning_rate": 2.6811594202898553e-05,
      "loss": 0.7554,
      "step": 278
    },
    {
      "epoch": 0.5195530726256983,
      "grad_norm": 0.2436583561269368,
      "learning_rate": 2.6708074534161492e-05,
      "loss": 0.7171,
      "step": 279
    },
    {
      "epoch": 0.521415270018622,
      "grad_norm": 0.23743489107291685,
      "learning_rate": 2.660455486542443e-05,
      "loss": 0.6799,
      "step": 280
    },
    {
      "epoch": 0.5232774674115456,
      "grad_norm": 0.23975162810080933,
      "learning_rate": 2.6501035196687374e-05,
      "loss": 0.7112,
      "step": 281
    },
    {
      "epoch": 0.5251396648044693,
      "grad_norm": 0.23012046848197393,
      "learning_rate": 2.639751552795031e-05,
      "loss": 0.6729,
      "step": 282
    },
    {
      "epoch": 0.527001862197393,
      "grad_norm": 0.21758194995672722,
      "learning_rate": 2.629399585921325e-05,
      "loss": 0.6765,
      "step": 283
    },
    {
      "epoch": 0.5288640595903166,
      "grad_norm": 0.22417471049560284,
      "learning_rate": 2.6190476190476192e-05,
      "loss": 0.6776,
      "step": 284
    },
    {
      "epoch": 0.5307262569832403,
      "grad_norm": 0.2501971273379265,
      "learning_rate": 2.608695652173913e-05,
      "loss": 0.6596,
      "step": 285
    },
    {
      "epoch": 0.5325884543761639,
      "grad_norm": 0.19337800659051255,
      "learning_rate": 2.5983436853002067e-05,
      "loss": 0.6777,
      "step": 286
    },
    {
      "epoch": 0.5344506517690876,
      "grad_norm": 0.2594809507322537,
      "learning_rate": 2.5879917184265014e-05,
      "loss": 0.7033,
      "step": 287
    },
    {
      "epoch": 0.5363128491620112,
      "grad_norm": 0.20396664335209255,
      "learning_rate": 2.577639751552795e-05,
      "loss": 0.6719,
      "step": 288
    },
    {
      "epoch": 0.5381750465549349,
      "grad_norm": 0.24180362971748476,
      "learning_rate": 2.5672877846790892e-05,
      "loss": 0.6624,
      "step": 289
    },
    {
      "epoch": 0.5400372439478585,
      "grad_norm": 0.24037999219116887,
      "learning_rate": 2.556935817805383e-05,
      "loss": 0.726,
      "step": 290
    },
    {
      "epoch": 0.5418994413407822,
      "grad_norm": 0.22209636468364513,
      "learning_rate": 2.546583850931677e-05,
      "loss": 0.7082,
      "step": 291
    },
    {
      "epoch": 0.5437616387337058,
      "grad_norm": 0.19970569737686758,
      "learning_rate": 2.5362318840579714e-05,
      "loss": 0.6643,
      "step": 292
    },
    {
      "epoch": 0.5456238361266295,
      "grad_norm": 0.22779252216544044,
      "learning_rate": 2.525879917184265e-05,
      "loss": 0.6817,
      "step": 293
    },
    {
      "epoch": 0.547486033519553,
      "grad_norm": 0.19757957833703302,
      "learning_rate": 2.515527950310559e-05,
      "loss": 0.6353,
      "step": 294
    },
    {
      "epoch": 0.5493482309124768,
      "grad_norm": 0.2573778968782679,
      "learning_rate": 2.505175983436853e-05,
      "loss": 0.7472,
      "step": 295
    },
    {
      "epoch": 0.5512104283054003,
      "grad_norm": 0.23958069513244198,
      "learning_rate": 2.494824016563147e-05,
      "loss": 0.671,
      "step": 296
    },
    {
      "epoch": 0.553072625698324,
      "grad_norm": 0.22172963729969547,
      "learning_rate": 2.484472049689441e-05,
      "loss": 0.6843,
      "step": 297
    },
    {
      "epoch": 0.5549348230912476,
      "grad_norm": 0.24407144334917197,
      "learning_rate": 2.4741200828157353e-05,
      "loss": 0.6942,
      "step": 298
    },
    {
      "epoch": 0.5567970204841713,
      "grad_norm": 0.22359639672875967,
      "learning_rate": 2.4637681159420292e-05,
      "loss": 0.6802,
      "step": 299
    },
    {
      "epoch": 0.5586592178770949,
      "grad_norm": 0.21571518733627165,
      "learning_rate": 2.453416149068323e-05,
      "loss": 0.6833,
      "step": 300
    },
    {
      "epoch": 0.5605214152700186,
      "grad_norm": 0.2157037425975288,
      "learning_rate": 2.443064182194617e-05,
      "loss": 0.6771,
      "step": 301
    },
    {
      "epoch": 0.5623836126629422,
      "grad_norm": 0.20064892387785363,
      "learning_rate": 2.432712215320911e-05,
      "loss": 0.6779,
      "step": 302
    },
    {
      "epoch": 0.5642458100558659,
      "grad_norm": 0.24425407891627735,
      "learning_rate": 2.4223602484472053e-05,
      "loss": 0.6994,
      "step": 303
    },
    {
      "epoch": 0.5661080074487895,
      "grad_norm": 0.21431978400628893,
      "learning_rate": 2.412008281573499e-05,
      "loss": 0.6964,
      "step": 304
    },
    {
      "epoch": 0.5679702048417132,
      "grad_norm": 0.23236102492827324,
      "learning_rate": 2.401656314699793e-05,
      "loss": 0.6673,
      "step": 305
    },
    {
      "epoch": 0.5698324022346368,
      "grad_norm": 0.19586728958185598,
      "learning_rate": 2.391304347826087e-05,
      "loss": 0.6404,
      "step": 306
    },
    {
      "epoch": 0.5716945996275605,
      "grad_norm": 0.24423717844988357,
      "learning_rate": 2.380952380952381e-05,
      "loss": 0.6899,
      "step": 307
    },
    {
      "epoch": 0.5735567970204841,
      "grad_norm": 0.24731735661225446,
      "learning_rate": 2.370600414078675e-05,
      "loss": 0.6853,
      "step": 308
    },
    {
      "epoch": 0.5754189944134078,
      "grad_norm": 0.23460908856465862,
      "learning_rate": 2.3602484472049692e-05,
      "loss": 0.6662,
      "step": 309
    },
    {
      "epoch": 0.5772811918063314,
      "grad_norm": 0.26514255550797927,
      "learning_rate": 2.349896480331263e-05,
      "loss": 0.6625,
      "step": 310
    },
    {
      "epoch": 0.5791433891992551,
      "grad_norm": 0.23917989787741067,
      "learning_rate": 2.339544513457557e-05,
      "loss": 0.7141,
      "step": 311
    },
    {
      "epoch": 0.5810055865921788,
      "grad_norm": 0.29022343316278504,
      "learning_rate": 2.329192546583851e-05,
      "loss": 0.7022,
      "step": 312
    },
    {
      "epoch": 0.5828677839851024,
      "grad_norm": 0.26756088324858285,
      "learning_rate": 2.318840579710145e-05,
      "loss": 0.7465,
      "step": 313
    },
    {
      "epoch": 0.5847299813780261,
      "grad_norm": 0.2843094978720431,
      "learning_rate": 2.3084886128364392e-05,
      "loss": 0.7168,
      "step": 314
    },
    {
      "epoch": 0.5865921787709497,
      "grad_norm": 0.22296266057379377,
      "learning_rate": 2.2981366459627328e-05,
      "loss": 0.6519,
      "step": 315
    },
    {
      "epoch": 0.5884543761638734,
      "grad_norm": 0.23681909043963095,
      "learning_rate": 2.287784679089027e-05,
      "loss": 0.6895,
      "step": 316
    },
    {
      "epoch": 0.590316573556797,
      "grad_norm": 0.2362627308497864,
      "learning_rate": 2.277432712215321e-05,
      "loss": 0.7099,
      "step": 317
    },
    {
      "epoch": 0.5921787709497207,
      "grad_norm": 0.23129584559716385,
      "learning_rate": 2.2670807453416153e-05,
      "loss": 0.7076,
      "step": 318
    },
    {
      "epoch": 0.5940409683426443,
      "grad_norm": 0.25735076541782687,
      "learning_rate": 2.256728778467909e-05,
      "loss": 0.6911,
      "step": 319
    },
    {
      "epoch": 0.595903165735568,
      "grad_norm": 0.19492888016228974,
      "learning_rate": 2.246376811594203e-05,
      "loss": 0.6579,
      "step": 320
    },
    {
      "epoch": 0.5977653631284916,
      "grad_norm": 0.2516599626448183,
      "learning_rate": 2.236024844720497e-05,
      "loss": 0.6903,
      "step": 321
    },
    {
      "epoch": 0.5996275605214153,
      "grad_norm": 0.21557624458370253,
      "learning_rate": 2.225672877846791e-05,
      "loss": 0.6775,
      "step": 322
    },
    {
      "epoch": 0.6014897579143389,
      "grad_norm": 0.24602326448587453,
      "learning_rate": 2.215320910973085e-05,
      "loss": 0.6896,
      "step": 323
    },
    {
      "epoch": 0.6033519553072626,
      "grad_norm": 0.20839089026388358,
      "learning_rate": 2.204968944099379e-05,
      "loss": 0.7265,
      "step": 324
    },
    {
      "epoch": 0.6052141527001862,
      "grad_norm": 0.2210845994623392,
      "learning_rate": 2.194616977225673e-05,
      "loss": 0.667,
      "step": 325
    },
    {
      "epoch": 0.6070763500931099,
      "grad_norm": 0.22201717248212094,
      "learning_rate": 2.1842650103519667e-05,
      "loss": 0.7053,
      "step": 326
    },
    {
      "epoch": 0.6089385474860335,
      "grad_norm": 0.20403751099730946,
      "learning_rate": 2.173913043478261e-05,
      "loss": 0.6559,
      "step": 327
    },
    {
      "epoch": 0.6108007448789572,
      "grad_norm": 0.21204256762580553,
      "learning_rate": 2.163561076604555e-05,
      "loss": 0.6972,
      "step": 328
    },
    {
      "epoch": 0.6126629422718808,
      "grad_norm": 0.20981928699317595,
      "learning_rate": 2.153209109730849e-05,
      "loss": 0.6584,
      "step": 329
    },
    {
      "epoch": 0.6145251396648045,
      "grad_norm": 0.24491697101563217,
      "learning_rate": 2.1428571428571428e-05,
      "loss": 0.6453,
      "step": 330
    },
    {
      "epoch": 0.6163873370577281,
      "grad_norm": 0.20688331242572758,
      "learning_rate": 2.1325051759834367e-05,
      "loss": 0.6278,
      "step": 331
    },
    {
      "epoch": 0.6182495344506518,
      "grad_norm": 0.2658411422888247,
      "learning_rate": 2.122153209109731e-05,
      "loss": 0.6827,
      "step": 332
    },
    {
      "epoch": 0.6201117318435754,
      "grad_norm": 0.22647772522644818,
      "learning_rate": 2.111801242236025e-05,
      "loss": 0.6743,
      "step": 333
    },
    {
      "epoch": 0.6219739292364991,
      "grad_norm": 0.17357874575001908,
      "learning_rate": 2.101449275362319e-05,
      "loss": 0.6312,
      "step": 334
    },
    {
      "epoch": 0.6238361266294227,
      "grad_norm": 0.20653708605935175,
      "learning_rate": 2.0910973084886128e-05,
      "loss": 0.6396,
      "step": 335
    },
    {
      "epoch": 0.6256983240223464,
      "grad_norm": 0.24938725149191568,
      "learning_rate": 2.080745341614907e-05,
      "loss": 0.7026,
      "step": 336
    },
    {
      "epoch": 0.62756052141527,
      "grad_norm": 0.19051613786011504,
      "learning_rate": 2.070393374741201e-05,
      "loss": 0.6569,
      "step": 337
    },
    {
      "epoch": 0.6294227188081937,
      "grad_norm": 0.20500391166844714,
      "learning_rate": 2.060041407867495e-05,
      "loss": 0.6617,
      "step": 338
    },
    {
      "epoch": 0.6312849162011173,
      "grad_norm": 0.1924672376106976,
      "learning_rate": 2.049689440993789e-05,
      "loss": 0.6388,
      "step": 339
    },
    {
      "epoch": 0.633147113594041,
      "grad_norm": 0.21132422295593278,
      "learning_rate": 2.0393374741200828e-05,
      "loss": 0.7199,
      "step": 340
    },
    {
      "epoch": 0.6350093109869647,
      "grad_norm": 0.23206759795538104,
      "learning_rate": 2.028985507246377e-05,
      "loss": 0.7103,
      "step": 341
    },
    {
      "epoch": 0.6368715083798883,
      "grad_norm": 0.2066596108766152,
      "learning_rate": 2.0186335403726707e-05,
      "loss": 0.6968,
      "step": 342
    },
    {
      "epoch": 0.638733705772812,
      "grad_norm": 0.29846340245111985,
      "learning_rate": 2.008281573498965e-05,
      "loss": 0.69,
      "step": 343
    },
    {
      "epoch": 0.6405959031657356,
      "grad_norm": 0.20016627590841032,
      "learning_rate": 1.997929606625259e-05,
      "loss": 0.6772,
      "step": 344
    },
    {
      "epoch": 0.6424581005586593,
      "grad_norm": 0.20037439529322607,
      "learning_rate": 1.9875776397515528e-05,
      "loss": 0.6491,
      "step": 345
    },
    {
      "epoch": 0.6443202979515829,
      "grad_norm": 0.2043701670258395,
      "learning_rate": 1.9772256728778467e-05,
      "loss": 0.661,
      "step": 346
    },
    {
      "epoch": 0.6461824953445066,
      "grad_norm": 0.2124305325801465,
      "learning_rate": 1.966873706004141e-05,
      "loss": 0.6906,
      "step": 347
    },
    {
      "epoch": 0.6480446927374302,
      "grad_norm": 0.19202914543129687,
      "learning_rate": 1.956521739130435e-05,
      "loss": 0.6895,
      "step": 348
    },
    {
      "epoch": 0.6499068901303539,
      "grad_norm": 0.20422304943370062,
      "learning_rate": 1.946169772256729e-05,
      "loss": 0.6814,
      "step": 349
    },
    {
      "epoch": 0.6517690875232774,
      "grad_norm": 0.17636476191062456,
      "learning_rate": 1.9358178053830228e-05,
      "loss": 0.6537,
      "step": 350
    },
    {
      "epoch": 0.6536312849162011,
      "grad_norm": 0.19266302935690988,
      "learning_rate": 1.9254658385093167e-05,
      "loss": 0.6734,
      "step": 351
    },
    {
      "epoch": 0.6554934823091247,
      "grad_norm": 0.20889496142744202,
      "learning_rate": 1.915113871635611e-05,
      "loss": 0.6846,
      "step": 352
    },
    {
      "epoch": 0.6573556797020484,
      "grad_norm": 0.17630790950007988,
      "learning_rate": 1.9047619047619046e-05,
      "loss": 0.6236,
      "step": 353
    },
    {
      "epoch": 0.659217877094972,
      "grad_norm": 0.21254713405517034,
      "learning_rate": 1.894409937888199e-05,
      "loss": 0.6801,
      "step": 354
    },
    {
      "epoch": 0.6610800744878957,
      "grad_norm": 0.2125847484450184,
      "learning_rate": 1.8840579710144928e-05,
      "loss": 0.6783,
      "step": 355
    },
    {
      "epoch": 0.6629422718808193,
      "grad_norm": 0.17811364691217002,
      "learning_rate": 1.873706004140787e-05,
      "loss": 0.647,
      "step": 356
    },
    {
      "epoch": 0.664804469273743,
      "grad_norm": 0.18815310275136407,
      "learning_rate": 1.8633540372670807e-05,
      "loss": 0.6427,
      "step": 357
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.18864063453171903,
      "learning_rate": 1.853002070393375e-05,
      "loss": 0.6581,
      "step": 358
    },
    {
      "epoch": 0.6685288640595903,
      "grad_norm": 0.21637364181001986,
      "learning_rate": 1.842650103519669e-05,
      "loss": 0.6786,
      "step": 359
    },
    {
      "epoch": 0.6703910614525139,
      "grad_norm": 0.20426929543368463,
      "learning_rate": 1.8322981366459628e-05,
      "loss": 0.6791,
      "step": 360
    },
    {
      "epoch": 0.6722532588454376,
      "grad_norm": 0.22951967527699474,
      "learning_rate": 1.8219461697722567e-05,
      "loss": 0.6638,
      "step": 361
    },
    {
      "epoch": 0.6741154562383612,
      "grad_norm": 0.19468999151232924,
      "learning_rate": 1.8115942028985507e-05,
      "loss": 0.6893,
      "step": 362
    },
    {
      "epoch": 0.6759776536312849,
      "grad_norm": 0.21531325220156564,
      "learning_rate": 1.801242236024845e-05,
      "loss": 0.6456,
      "step": 363
    },
    {
      "epoch": 0.6778398510242085,
      "grad_norm": 0.18794431538337078,
      "learning_rate": 1.7908902691511385e-05,
      "loss": 0.6483,
      "step": 364
    },
    {
      "epoch": 0.6797020484171322,
      "grad_norm": 0.18804453120175185,
      "learning_rate": 1.7805383022774328e-05,
      "loss": 0.6441,
      "step": 365
    },
    {
      "epoch": 0.6815642458100558,
      "grad_norm": 0.19006229796640536,
      "learning_rate": 1.7701863354037267e-05,
      "loss": 0.6388,
      "step": 366
    },
    {
      "epoch": 0.6834264432029795,
      "grad_norm": 0.20150893490371716,
      "learning_rate": 1.759834368530021e-05,
      "loss": 0.6716,
      "step": 367
    },
    {
      "epoch": 0.6852886405959032,
      "grad_norm": 0.19744949982553953,
      "learning_rate": 1.7494824016563146e-05,
      "loss": 0.6701,
      "step": 368
    },
    {
      "epoch": 0.6871508379888268,
      "grad_norm": 0.22095501305323856,
      "learning_rate": 1.739130434782609e-05,
      "loss": 0.6453,
      "step": 369
    },
    {
      "epoch": 0.6890130353817505,
      "grad_norm": 0.18493117384943714,
      "learning_rate": 1.7287784679089028e-05,
      "loss": 0.6511,
      "step": 370
    },
    {
      "epoch": 0.6908752327746741,
      "grad_norm": 0.19078619260100405,
      "learning_rate": 1.7184265010351967e-05,
      "loss": 0.6294,
      "step": 371
    },
    {
      "epoch": 0.6927374301675978,
      "grad_norm": 0.18408000242561223,
      "learning_rate": 1.7080745341614907e-05,
      "loss": 0.6432,
      "step": 372
    },
    {
      "epoch": 0.6945996275605214,
      "grad_norm": 0.2037784144788324,
      "learning_rate": 1.6977225672877846e-05,
      "loss": 0.6351,
      "step": 373
    },
    {
      "epoch": 0.6964618249534451,
      "grad_norm": 0.1900169154290645,
      "learning_rate": 1.687370600414079e-05,
      "loss": 0.6549,
      "step": 374
    },
    {
      "epoch": 0.6983240223463687,
      "grad_norm": 0.17380285163681092,
      "learning_rate": 1.6770186335403728e-05,
      "loss": 0.6548,
      "step": 375
    },
    {
      "epoch": 0.7001862197392924,
      "grad_norm": 0.22546621713565282,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 0.6622,
      "step": 376
    },
    {
      "epoch": 0.702048417132216,
      "grad_norm": 0.18401223208065323,
      "learning_rate": 1.6563146997929607e-05,
      "loss": 0.6597,
      "step": 377
    },
    {
      "epoch": 0.7039106145251397,
      "grad_norm": 0.2310602627411112,
      "learning_rate": 1.645962732919255e-05,
      "loss": 0.6595,
      "step": 378
    },
    {
      "epoch": 0.7057728119180633,
      "grad_norm": 0.19436849356475597,
      "learning_rate": 1.635610766045549e-05,
      "loss": 0.671,
      "step": 379
    },
    {
      "epoch": 0.707635009310987,
      "grad_norm": 0.17426699421792405,
      "learning_rate": 1.6252587991718428e-05,
      "loss": 0.6465,
      "step": 380
    },
    {
      "epoch": 0.7094972067039106,
      "grad_norm": 0.202737737319032,
      "learning_rate": 1.6149068322981367e-05,
      "loss": 0.6532,
      "step": 381
    },
    {
      "epoch": 0.7113594040968343,
      "grad_norm": 0.20304021985343074,
      "learning_rate": 1.6045548654244307e-05,
      "loss": 0.6086,
      "step": 382
    },
    {
      "epoch": 0.7132216014897579,
      "grad_norm": 0.17581807347191555,
      "learning_rate": 1.5942028985507246e-05,
      "loss": 0.6541,
      "step": 383
    },
    {
      "epoch": 0.7150837988826816,
      "grad_norm": 0.18925371472997152,
      "learning_rate": 1.5838509316770185e-05,
      "loss": 0.629,
      "step": 384
    },
    {
      "epoch": 0.7169459962756052,
      "grad_norm": 0.21252338918240074,
      "learning_rate": 1.5734989648033128e-05,
      "loss": 0.6455,
      "step": 385
    },
    {
      "epoch": 0.7188081936685289,
      "grad_norm": 0.21662918110386054,
      "learning_rate": 1.5631469979296067e-05,
      "loss": 0.6952,
      "step": 386
    },
    {
      "epoch": 0.7206703910614525,
      "grad_norm": 0.2007878490828475,
      "learning_rate": 1.5527950310559007e-05,
      "loss": 0.6629,
      "step": 387
    },
    {
      "epoch": 0.7225325884543762,
      "grad_norm": 0.19177622393775295,
      "learning_rate": 1.5424430641821946e-05,
      "loss": 0.6636,
      "step": 388
    },
    {
      "epoch": 0.7243947858472998,
      "grad_norm": 0.21217511591803917,
      "learning_rate": 1.5320910973084885e-05,
      "loss": 0.6515,
      "step": 389
    },
    {
      "epoch": 0.7262569832402235,
      "grad_norm": 0.17639824967443996,
      "learning_rate": 1.5217391304347828e-05,
      "loss": 0.6082,
      "step": 390
    },
    {
      "epoch": 0.7281191806331471,
      "grad_norm": 0.18301225064196525,
      "learning_rate": 1.5113871635610766e-05,
      "loss": 0.6472,
      "step": 391
    },
    {
      "epoch": 0.7299813780260708,
      "grad_norm": 0.20535696224831465,
      "learning_rate": 1.5010351966873707e-05,
      "loss": 0.6734,
      "step": 392
    },
    {
      "epoch": 0.7318435754189944,
      "grad_norm": 0.20349393737877294,
      "learning_rate": 1.4906832298136648e-05,
      "loss": 0.6514,
      "step": 393
    },
    {
      "epoch": 0.7337057728119181,
      "grad_norm": 0.1815886416051823,
      "learning_rate": 1.4803312629399587e-05,
      "loss": 0.6557,
      "step": 394
    },
    {
      "epoch": 0.7355679702048417,
      "grad_norm": 0.21012215693301764,
      "learning_rate": 1.4699792960662526e-05,
      "loss": 0.6693,
      "step": 395
    },
    {
      "epoch": 0.7374301675977654,
      "grad_norm": 0.18903297359191992,
      "learning_rate": 1.4596273291925466e-05,
      "loss": 0.6706,
      "step": 396
    },
    {
      "epoch": 0.7392923649906891,
      "grad_norm": 0.20166237614429827,
      "learning_rate": 1.4492753623188407e-05,
      "loss": 0.6551,
      "step": 397
    },
    {
      "epoch": 0.7411545623836127,
      "grad_norm": 0.16787586585864742,
      "learning_rate": 1.4389233954451348e-05,
      "loss": 0.6308,
      "step": 398
    },
    {
      "epoch": 0.7430167597765364,
      "grad_norm": 0.1879777918862949,
      "learning_rate": 1.4285714285714285e-05,
      "loss": 0.6587,
      "step": 399
    },
    {
      "epoch": 0.74487895716946,
      "grad_norm": 0.18781743552977576,
      "learning_rate": 1.4182194616977226e-05,
      "loss": 0.6292,
      "step": 400
    },
    {
      "epoch": 0.7467411545623837,
      "grad_norm": 0.24648997599530748,
      "learning_rate": 1.4078674948240167e-05,
      "loss": 0.6871,
      "step": 401
    },
    {
      "epoch": 0.7486033519553073,
      "grad_norm": 0.1792587911845057,
      "learning_rate": 1.3975155279503105e-05,
      "loss": 0.6489,
      "step": 402
    },
    {
      "epoch": 0.750465549348231,
      "grad_norm": 0.17684214490172273,
      "learning_rate": 1.3871635610766046e-05,
      "loss": 0.656,
      "step": 403
    },
    {
      "epoch": 0.7523277467411545,
      "grad_norm": 0.210865176783781,
      "learning_rate": 1.3768115942028985e-05,
      "loss": 0.6966,
      "step": 404
    },
    {
      "epoch": 0.7541899441340782,
      "grad_norm": 0.245199830750055,
      "learning_rate": 1.3664596273291926e-05,
      "loss": 0.6976,
      "step": 405
    },
    {
      "epoch": 0.7560521415270018,
      "grad_norm": 0.2001593264509514,
      "learning_rate": 1.3561076604554864e-05,
      "loss": 0.6606,
      "step": 406
    },
    {
      "epoch": 0.7579143389199255,
      "grad_norm": 0.19805301254246932,
      "learning_rate": 1.3457556935817805e-05,
      "loss": 0.6467,
      "step": 407
    },
    {
      "epoch": 0.7597765363128491,
      "grad_norm": 0.17510917191996178,
      "learning_rate": 1.3354037267080746e-05,
      "loss": 0.6052,
      "step": 408
    },
    {
      "epoch": 0.7616387337057728,
      "grad_norm": 0.2065707722908274,
      "learning_rate": 1.3250517598343687e-05,
      "loss": 0.6832,
      "step": 409
    },
    {
      "epoch": 0.7635009310986964,
      "grad_norm": 0.1758101878974688,
      "learning_rate": 1.3146997929606625e-05,
      "loss": 0.6489,
      "step": 410
    },
    {
      "epoch": 0.7653631284916201,
      "grad_norm": 0.17491755623145624,
      "learning_rate": 1.3043478260869566e-05,
      "loss": 0.6289,
      "step": 411
    },
    {
      "epoch": 0.7672253258845437,
      "grad_norm": 0.18145588063752446,
      "learning_rate": 1.2939958592132507e-05,
      "loss": 0.6441,
      "step": 412
    },
    {
      "epoch": 0.7690875232774674,
      "grad_norm": 0.18880774748062945,
      "learning_rate": 1.2836438923395446e-05,
      "loss": 0.6449,
      "step": 413
    },
    {
      "epoch": 0.770949720670391,
      "grad_norm": 0.2007334999098737,
      "learning_rate": 1.2732919254658385e-05,
      "loss": 0.6292,
      "step": 414
    },
    {
      "epoch": 0.7728119180633147,
      "grad_norm": 0.19571319823304079,
      "learning_rate": 1.2629399585921325e-05,
      "loss": 0.6481,
      "step": 415
    },
    {
      "epoch": 0.7746741154562383,
      "grad_norm": 0.20530755324565778,
      "learning_rate": 1.2525879917184266e-05,
      "loss": 0.6681,
      "step": 416
    },
    {
      "epoch": 0.776536312849162,
      "grad_norm": 0.17859928630300578,
      "learning_rate": 1.2422360248447205e-05,
      "loss": 0.6341,
      "step": 417
    },
    {
      "epoch": 0.7783985102420856,
      "grad_norm": 0.18459366016354203,
      "learning_rate": 1.2318840579710146e-05,
      "loss": 0.6549,
      "step": 418
    },
    {
      "epoch": 0.7802607076350093,
      "grad_norm": 0.18248821924320063,
      "learning_rate": 1.2215320910973085e-05,
      "loss": 0.6538,
      "step": 419
    },
    {
      "epoch": 0.7821229050279329,
      "grad_norm": 0.17822814550334232,
      "learning_rate": 1.2111801242236026e-05,
      "loss": 0.6543,
      "step": 420
    },
    {
      "epoch": 0.7839851024208566,
      "grad_norm": 0.19381967380114956,
      "learning_rate": 1.2008281573498966e-05,
      "loss": 0.687,
      "step": 421
    },
    {
      "epoch": 0.7858472998137802,
      "grad_norm": 0.1934123401064287,
      "learning_rate": 1.1904761904761905e-05,
      "loss": 0.6687,
      "step": 422
    },
    {
      "epoch": 0.7877094972067039,
      "grad_norm": 0.18367611802888364,
      "learning_rate": 1.1801242236024846e-05,
      "loss": 0.6802,
      "step": 423
    },
    {
      "epoch": 0.7895716945996276,
      "grad_norm": 0.17617901506066275,
      "learning_rate": 1.1697722567287785e-05,
      "loss": 0.6395,
      "step": 424
    },
    {
      "epoch": 0.7914338919925512,
      "grad_norm": 0.23463519145409312,
      "learning_rate": 1.1594202898550725e-05,
      "loss": 0.6605,
      "step": 425
    },
    {
      "epoch": 0.7932960893854749,
      "grad_norm": 0.1865424048741257,
      "learning_rate": 1.1490683229813664e-05,
      "loss": 0.6614,
      "step": 426
    },
    {
      "epoch": 0.7951582867783985,
      "grad_norm": 0.16681556953556684,
      "learning_rate": 1.1387163561076605e-05,
      "loss": 0.6218,
      "step": 427
    },
    {
      "epoch": 0.7970204841713222,
      "grad_norm": 0.24314643508055317,
      "learning_rate": 1.1283643892339544e-05,
      "loss": 0.6961,
      "step": 428
    },
    {
      "epoch": 0.7988826815642458,
      "grad_norm": 0.17578197484890115,
      "learning_rate": 1.1180124223602485e-05,
      "loss": 0.6489,
      "step": 429
    },
    {
      "epoch": 0.8007448789571695,
      "grad_norm": 0.20708610339742667,
      "learning_rate": 1.1076604554865425e-05,
      "loss": 0.6827,
      "step": 430
    },
    {
      "epoch": 0.8026070763500931,
      "grad_norm": 0.1594897402889827,
      "learning_rate": 1.0973084886128366e-05,
      "loss": 0.6363,
      "step": 431
    },
    {
      "epoch": 0.8044692737430168,
      "grad_norm": 0.15878323617496243,
      "learning_rate": 1.0869565217391305e-05,
      "loss": 0.6162,
      "step": 432
    },
    {
      "epoch": 0.8063314711359404,
      "grad_norm": 0.18827240553891117,
      "learning_rate": 1.0766045548654244e-05,
      "loss": 0.6486,
      "step": 433
    },
    {
      "epoch": 0.8081936685288641,
      "grad_norm": 0.16986761757699592,
      "learning_rate": 1.0662525879917184e-05,
      "loss": 0.6536,
      "step": 434
    },
    {
      "epoch": 0.8100558659217877,
      "grad_norm": 0.26582917056841515,
      "learning_rate": 1.0559006211180125e-05,
      "loss": 0.6742,
      "step": 435
    },
    {
      "epoch": 0.8119180633147114,
      "grad_norm": 0.19090309796286123,
      "learning_rate": 1.0455486542443064e-05,
      "loss": 0.6604,
      "step": 436
    },
    {
      "epoch": 0.813780260707635,
      "grad_norm": 0.18795475062521502,
      "learning_rate": 1.0351966873706005e-05,
      "loss": 0.6467,
      "step": 437
    },
    {
      "epoch": 0.8156424581005587,
      "grad_norm": 0.1778013526395748,
      "learning_rate": 1.0248447204968944e-05,
      "loss": 0.6404,
      "step": 438
    },
    {
      "epoch": 0.8175046554934823,
      "grad_norm": 0.19872705528906648,
      "learning_rate": 1.0144927536231885e-05,
      "loss": 0.6444,
      "step": 439
    },
    {
      "epoch": 0.819366852886406,
      "grad_norm": 0.16530185523083132,
      "learning_rate": 1.0041407867494825e-05,
      "loss": 0.6181,
      "step": 440
    },
    {
      "epoch": 0.8212290502793296,
      "grad_norm": 0.17922642763998306,
      "learning_rate": 9.937888198757764e-06,
      "loss": 0.6556,
      "step": 441
    },
    {
      "epoch": 0.8230912476722533,
      "grad_norm": 0.17393402177090767,
      "learning_rate": 9.834368530020705e-06,
      "loss": 0.661,
      "step": 442
    },
    {
      "epoch": 0.8249534450651769,
      "grad_norm": 0.16093904077077426,
      "learning_rate": 9.730848861283644e-06,
      "loss": 0.6413,
      "step": 443
    },
    {
      "epoch": 0.8268156424581006,
      "grad_norm": 0.16803666001166895,
      "learning_rate": 9.627329192546584e-06,
      "loss": 0.6221,
      "step": 444
    },
    {
      "epoch": 0.8286778398510242,
      "grad_norm": 0.16906521539455296,
      "learning_rate": 9.523809523809523e-06,
      "loss": 0.6464,
      "step": 445
    },
    {
      "epoch": 0.8305400372439479,
      "grad_norm": 0.203438251730798,
      "learning_rate": 9.420289855072464e-06,
      "loss": 0.7096,
      "step": 446
    },
    {
      "epoch": 0.8324022346368715,
      "grad_norm": 0.17849520080031542,
      "learning_rate": 9.316770186335403e-06,
      "loss": 0.6351,
      "step": 447
    },
    {
      "epoch": 0.8342644320297952,
      "grad_norm": 0.1672684408428593,
      "learning_rate": 9.213250517598344e-06,
      "loss": 0.665,
      "step": 448
    },
    {
      "epoch": 0.8361266294227188,
      "grad_norm": 0.16907824876240748,
      "learning_rate": 9.109730848861284e-06,
      "loss": 0.6423,
      "step": 449
    },
    {
      "epoch": 0.8379888268156425,
      "grad_norm": 0.17092705692235877,
      "learning_rate": 9.006211180124225e-06,
      "loss": 0.6269,
      "step": 450
    },
    {
      "epoch": 0.839851024208566,
      "grad_norm": 0.1692892798087227,
      "learning_rate": 8.902691511387164e-06,
      "loss": 0.6538,
      "step": 451
    },
    {
      "epoch": 0.8417132216014898,
      "grad_norm": 0.19130755244976416,
      "learning_rate": 8.799171842650105e-06,
      "loss": 0.656,
      "step": 452
    },
    {
      "epoch": 0.8435754189944135,
      "grad_norm": 0.17751875377131152,
      "learning_rate": 8.695652173913044e-06,
      "loss": 0.6466,
      "step": 453
    },
    {
      "epoch": 0.845437616387337,
      "grad_norm": 0.162780011066581,
      "learning_rate": 8.592132505175984e-06,
      "loss": 0.6602,
      "step": 454
    },
    {
      "epoch": 0.8472998137802608,
      "grad_norm": 0.2179740464014007,
      "learning_rate": 8.488612836438923e-06,
      "loss": 0.6605,
      "step": 455
    },
    {
      "epoch": 0.8491620111731844,
      "grad_norm": 0.1752540373818539,
      "learning_rate": 8.385093167701864e-06,
      "loss": 0.6339,
      "step": 456
    },
    {
      "epoch": 0.851024208566108,
      "grad_norm": 0.16597394575170477,
      "learning_rate": 8.281573498964803e-06,
      "loss": 0.6301,
      "step": 457
    },
    {
      "epoch": 0.8528864059590316,
      "grad_norm": 0.1692097262875348,
      "learning_rate": 8.178053830227744e-06,
      "loss": 0.6474,
      "step": 458
    },
    {
      "epoch": 0.8547486033519553,
      "grad_norm": 0.20852219564900512,
      "learning_rate": 8.074534161490684e-06,
      "loss": 0.6508,
      "step": 459
    },
    {
      "epoch": 0.8566108007448789,
      "grad_norm": 0.19619043459573293,
      "learning_rate": 7.971014492753623e-06,
      "loss": 0.6626,
      "step": 460
    },
    {
      "epoch": 0.8584729981378026,
      "grad_norm": 0.16870502913649474,
      "learning_rate": 7.867494824016564e-06,
      "loss": 0.6127,
      "step": 461
    },
    {
      "epoch": 0.8603351955307262,
      "grad_norm": 0.20567323141519206,
      "learning_rate": 7.763975155279503e-06,
      "loss": 0.6429,
      "step": 462
    },
    {
      "epoch": 0.8621973929236499,
      "grad_norm": 0.15407614172253112,
      "learning_rate": 7.660455486542443e-06,
      "loss": 0.62,
      "step": 463
    },
    {
      "epoch": 0.8640595903165735,
      "grad_norm": 0.17166851592978924,
      "learning_rate": 7.556935817805383e-06,
      "loss": 0.6356,
      "step": 464
    },
    {
      "epoch": 0.8659217877094972,
      "grad_norm": 0.19498647549378587,
      "learning_rate": 7.453416149068324e-06,
      "loss": 0.6383,
      "step": 465
    },
    {
      "epoch": 0.8677839851024208,
      "grad_norm": 0.20132752909201782,
      "learning_rate": 7.349896480331263e-06,
      "loss": 0.6488,
      "step": 466
    },
    {
      "epoch": 0.8696461824953445,
      "grad_norm": 0.1936508126598193,
      "learning_rate": 7.246376811594203e-06,
      "loss": 0.6433,
      "step": 467
    },
    {
      "epoch": 0.8715083798882681,
      "grad_norm": 0.21330654997630116,
      "learning_rate": 7.142857142857143e-06,
      "loss": 0.6621,
      "step": 468
    },
    {
      "epoch": 0.8733705772811918,
      "grad_norm": 0.1755456148276725,
      "learning_rate": 7.039337474120084e-06,
      "loss": 0.6232,
      "step": 469
    },
    {
      "epoch": 0.8752327746741154,
      "grad_norm": 0.16177131262869057,
      "learning_rate": 6.935817805383023e-06,
      "loss": 0.6388,
      "step": 470
    },
    {
      "epoch": 0.8770949720670391,
      "grad_norm": 0.19886899275421868,
      "learning_rate": 6.832298136645963e-06,
      "loss": 0.6446,
      "step": 471
    },
    {
      "epoch": 0.8789571694599627,
      "grad_norm": 0.20207408578594305,
      "learning_rate": 6.7287784679089025e-06,
      "loss": 0.6796,
      "step": 472
    },
    {
      "epoch": 0.8808193668528864,
      "grad_norm": 0.16247220564315032,
      "learning_rate": 6.6252587991718436e-06,
      "loss": 0.6404,
      "step": 473
    },
    {
      "epoch": 0.88268156424581,
      "grad_norm": 0.16614918356652528,
      "learning_rate": 6.521739130434783e-06,
      "loss": 0.6439,
      "step": 474
    },
    {
      "epoch": 0.8845437616387337,
      "grad_norm": 0.14713262129863142,
      "learning_rate": 6.418219461697723e-06,
      "loss": 0.652,
      "step": 475
    },
    {
      "epoch": 0.8864059590316573,
      "grad_norm": 0.16750651096595007,
      "learning_rate": 6.314699792960662e-06,
      "loss": 0.628,
      "step": 476
    },
    {
      "epoch": 0.888268156424581,
      "grad_norm": 0.2231724371874033,
      "learning_rate": 6.2111801242236025e-06,
      "loss": 0.6918,
      "step": 477
    },
    {
      "epoch": 0.8901303538175046,
      "grad_norm": 0.1959664305003297,
      "learning_rate": 6.107660455486543e-06,
      "loss": 0.6875,
      "step": 478
    },
    {
      "epoch": 0.8919925512104283,
      "grad_norm": 0.21084091569038277,
      "learning_rate": 6.004140786749483e-06,
      "loss": 0.6705,
      "step": 479
    },
    {
      "epoch": 0.8938547486033519,
      "grad_norm": 0.1446947199698785,
      "learning_rate": 5.900621118012423e-06,
      "loss": 0.6139,
      "step": 480
    },
    {
      "epoch": 0.8957169459962756,
      "grad_norm": 0.20018642714641624,
      "learning_rate": 5.797101449275362e-06,
      "loss": 0.6329,
      "step": 481
    },
    {
      "epoch": 0.8975791433891993,
      "grad_norm": 0.17190935691033563,
      "learning_rate": 5.6935817805383025e-06,
      "loss": 0.6277,
      "step": 482
    },
    {
      "epoch": 0.8994413407821229,
      "grad_norm": 0.17248587223490824,
      "learning_rate": 5.590062111801243e-06,
      "loss": 0.6427,
      "step": 483
    },
    {
      "epoch": 0.9013035381750466,
      "grad_norm": 0.19544680262967948,
      "learning_rate": 5.486542443064183e-06,
      "loss": 0.6412,
      "step": 484
    },
    {
      "epoch": 0.9031657355679702,
      "grad_norm": 0.1547915343357762,
      "learning_rate": 5.383022774327122e-06,
      "loss": 0.6169,
      "step": 485
    },
    {
      "epoch": 0.9050279329608939,
      "grad_norm": 0.162798944422037,
      "learning_rate": 5.279503105590062e-06,
      "loss": 0.6479,
      "step": 486
    },
    {
      "epoch": 0.9068901303538175,
      "grad_norm": 0.1887205823953253,
      "learning_rate": 5.1759834368530025e-06,
      "loss": 0.6921,
      "step": 487
    },
    {
      "epoch": 0.9087523277467412,
      "grad_norm": 0.16420196278407087,
      "learning_rate": 5.072463768115943e-06,
      "loss": 0.6458,
      "step": 488
    },
    {
      "epoch": 0.9106145251396648,
      "grad_norm": 0.24729999812798095,
      "learning_rate": 4.968944099378882e-06,
      "loss": 0.6409,
      "step": 489
    },
    {
      "epoch": 0.9124767225325885,
      "grad_norm": 0.23286295339822952,
      "learning_rate": 4.865424430641822e-06,
      "loss": 0.6833,
      "step": 490
    },
    {
      "epoch": 0.9143389199255121,
      "grad_norm": 0.15940262225894045,
      "learning_rate": 4.7619047619047615e-06,
      "loss": 0.6284,
      "step": 491
    },
    {
      "epoch": 0.9162011173184358,
      "grad_norm": 0.17947643445143177,
      "learning_rate": 4.658385093167702e-06,
      "loss": 0.6472,
      "step": 492
    },
    {
      "epoch": 0.9180633147113594,
      "grad_norm": 0.1823889264013195,
      "learning_rate": 4.554865424430642e-06,
      "loss": 0.6449,
      "step": 493
    },
    {
      "epoch": 0.9199255121042831,
      "grad_norm": 0.17853489471885162,
      "learning_rate": 4.451345755693582e-06,
      "loss": 0.6706,
      "step": 494
    },
    {
      "epoch": 0.9217877094972067,
      "grad_norm": 0.1617469178672835,
      "learning_rate": 4.347826086956522e-06,
      "loss": 0.6299,
      "step": 495
    },
    {
      "epoch": 0.9236499068901304,
      "grad_norm": 0.16007022826555992,
      "learning_rate": 4.2443064182194615e-06,
      "loss": 0.6208,
      "step": 496
    },
    {
      "epoch": 0.925512104283054,
      "grad_norm": 0.15705272101078555,
      "learning_rate": 4.140786749482402e-06,
      "loss": 0.6279,
      "step": 497
    },
    {
      "epoch": 0.9273743016759777,
      "grad_norm": 0.16128209967635254,
      "learning_rate": 4.037267080745342e-06,
      "loss": 0.6527,
      "step": 498
    },
    {
      "epoch": 0.9292364990689013,
      "grad_norm": 0.16659222928930875,
      "learning_rate": 3.933747412008282e-06,
      "loss": 0.6337,
      "step": 499
    },
    {
      "epoch": 0.931098696461825,
      "grad_norm": 0.1626846954040417,
      "learning_rate": 3.830227743271221e-06,
      "loss": 0.6409,
      "step": 500
    },
    {
      "epoch": 0.9329608938547486,
      "grad_norm": 0.17158332433777856,
      "learning_rate": 3.726708074534162e-06,
      "loss": 0.6402,
      "step": 501
    },
    {
      "epoch": 0.9348230912476723,
      "grad_norm": 0.18171308100862796,
      "learning_rate": 3.6231884057971017e-06,
      "loss": 0.6608,
      "step": 502
    },
    {
      "epoch": 0.9366852886405959,
      "grad_norm": 0.15103417207290507,
      "learning_rate": 3.519668737060042e-06,
      "loss": 0.6426,
      "step": 503
    },
    {
      "epoch": 0.9385474860335196,
      "grad_norm": 0.145625102275702,
      "learning_rate": 3.4161490683229816e-06,
      "loss": 0.6097,
      "step": 504
    },
    {
      "epoch": 0.9404096834264432,
      "grad_norm": 0.15061826291118452,
      "learning_rate": 3.3126293995859218e-06,
      "loss": 0.6501,
      "step": 505
    },
    {
      "epoch": 0.9422718808193669,
      "grad_norm": 0.15517421879574889,
      "learning_rate": 3.2091097308488615e-06,
      "loss": 0.6479,
      "step": 506
    },
    {
      "epoch": 0.9441340782122905,
      "grad_norm": 0.15095802125294655,
      "learning_rate": 3.1055900621118013e-06,
      "loss": 0.6281,
      "step": 507
    },
    {
      "epoch": 0.9459962756052142,
      "grad_norm": 0.16373376352646593,
      "learning_rate": 3.0020703933747414e-06,
      "loss": 0.6488,
      "step": 508
    },
    {
      "epoch": 0.9478584729981379,
      "grad_norm": 0.16117187084099885,
      "learning_rate": 2.898550724637681e-06,
      "loss": 0.6464,
      "step": 509
    },
    {
      "epoch": 0.9497206703910615,
      "grad_norm": 0.19260139670307655,
      "learning_rate": 2.7950310559006214e-06,
      "loss": 0.646,
      "step": 510
    },
    {
      "epoch": 0.9515828677839852,
      "grad_norm": 0.15874350585459057,
      "learning_rate": 2.691511387163561e-06,
      "loss": 0.6366,
      "step": 511
    },
    {
      "epoch": 0.9534450651769087,
      "grad_norm": 0.1399216802871646,
      "learning_rate": 2.5879917184265013e-06,
      "loss": 0.6256,
      "step": 512
    },
    {
      "epoch": 0.9553072625698324,
      "grad_norm": 0.15960195357844323,
      "learning_rate": 2.484472049689441e-06,
      "loss": 0.6459,
      "step": 513
    },
    {
      "epoch": 0.957169459962756,
      "grad_norm": 0.23344296827319982,
      "learning_rate": 2.3809523809523808e-06,
      "loss": 0.7026,
      "step": 514
    },
    {
      "epoch": 0.9590316573556797,
      "grad_norm": 0.1492476692015684,
      "learning_rate": 2.277432712215321e-06,
      "loss": 0.6467,
      "step": 515
    },
    {
      "epoch": 0.9608938547486033,
      "grad_norm": 0.14589570431869128,
      "learning_rate": 2.173913043478261e-06,
      "loss": 0.646,
      "step": 516
    },
    {
      "epoch": 0.962756052141527,
      "grad_norm": 0.13576424778678453,
      "learning_rate": 2.070393374741201e-06,
      "loss": 0.6214,
      "step": 517
    },
    {
      "epoch": 0.9646182495344506,
      "grad_norm": 0.146103292008311,
      "learning_rate": 1.966873706004141e-06,
      "loss": 0.6242,
      "step": 518
    },
    {
      "epoch": 0.9664804469273743,
      "grad_norm": 0.13844678336784255,
      "learning_rate": 1.863354037267081e-06,
      "loss": 0.6245,
      "step": 519
    },
    {
      "epoch": 0.9683426443202979,
      "grad_norm": 0.14884826570606974,
      "learning_rate": 1.759834368530021e-06,
      "loss": 0.6378,
      "step": 520
    },
    {
      "epoch": 0.9702048417132216,
      "grad_norm": 0.1359037781196218,
      "learning_rate": 1.6563146997929609e-06,
      "loss": 0.6185,
      "step": 521
    },
    {
      "epoch": 0.9720670391061452,
      "grad_norm": 0.13942078672943728,
      "learning_rate": 1.5527950310559006e-06,
      "loss": 0.6057,
      "step": 522
    },
    {
      "epoch": 0.9739292364990689,
      "grad_norm": 0.17182461899299775,
      "learning_rate": 1.4492753623188406e-06,
      "loss": 0.6746,
      "step": 523
    },
    {
      "epoch": 0.9757914338919925,
      "grad_norm": 0.16293957273176385,
      "learning_rate": 1.3457556935817806e-06,
      "loss": 0.6508,
      "step": 524
    },
    {
      "epoch": 0.9776536312849162,
      "grad_norm": 0.20367427842372687,
      "learning_rate": 1.2422360248447205e-06,
      "loss": 0.6905,
      "step": 525
    },
    {
      "epoch": 0.9795158286778398,
      "grad_norm": 0.1396128987278587,
      "learning_rate": 1.1387163561076605e-06,
      "loss": 0.6227,
      "step": 526
    },
    {
      "epoch": 0.9813780260707635,
      "grad_norm": 0.16038445913072943,
      "learning_rate": 1.0351966873706004e-06,
      "loss": 0.6368,
      "step": 527
    },
    {
      "epoch": 0.9832402234636871,
      "grad_norm": 0.18552843233805502,
      "learning_rate": 9.316770186335405e-07,
      "loss": 0.6572,
      "step": 528
    },
    {
      "epoch": 0.9851024208566108,
      "grad_norm": 0.16074752408995427,
      "learning_rate": 8.281573498964804e-07,
      "loss": 0.6502,
      "step": 529
    },
    {
      "epoch": 0.9869646182495344,
      "grad_norm": 0.16645706687713197,
      "learning_rate": 7.246376811594203e-07,
      "loss": 0.6298,
      "step": 530
    },
    {
      "epoch": 0.9888268156424581,
      "grad_norm": 0.1488222308435524,
      "learning_rate": 6.211180124223603e-07,
      "loss": 0.6248,
      "step": 531
    },
    {
      "epoch": 0.9906890130353817,
      "grad_norm": 0.517992621089019,
      "learning_rate": 5.175983436853002e-07,
      "loss": 0.6505,
      "step": 532
    },
    {
      "epoch": 0.9925512104283054,
      "grad_norm": 0.1705373110310513,
      "learning_rate": 4.140786749482402e-07,
      "loss": 0.6836,
      "step": 533
    },
    {
      "epoch": 0.994413407821229,
      "grad_norm": 0.22736214649547232,
      "learning_rate": 3.1055900621118013e-07,
      "loss": 0.6439,
      "step": 534
    },
    {
      "epoch": 0.9962756052141527,
      "grad_norm": 0.14071195110214552,
      "learning_rate": 2.070393374741201e-07,
      "loss": 0.6214,
      "step": 535
    },
    {
      "epoch": 0.9981378026070763,
      "grad_norm": 0.14657292909916275,
      "learning_rate": 1.0351966873706006e-07,
      "loss": 0.6166,
      "step": 536
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.15767960405554154,
      "learning_rate": 0.0,
      "loss": 0.6489,
      "step": 537
    },
    {
      "epoch": 1.0,
      "step": 537,
      "total_flos": 489532856205312.0,
      "train_loss": 0.5822105497621292,
      "train_runtime": 29226.608,
      "train_samples_per_second": 0.587,
      "train_steps_per_second": 0.018
    }
  ],
  "logging_steps": 1,
  "max_steps": 537,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 489532856205312.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}