{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 469,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 1612.2679443359375,
      "epoch": 0.0021321961620469083,
      "grad_norm": 0.37527411760170093,
      "kl": 0.0,
      "learning_rate": 6.382978723404255e-08,
      "loss": 0.0,
      "reward": 1.2232144474983215,
      "reward_std": 0.4144461452960968,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5357142984867096,
      "step": 1
    },
    {
      "completion_length": 1643.2411499023438,
      "epoch": 0.0042643923240938165,
      "grad_norm": 0.1490266715973746,
      "kl": 0.0,
      "learning_rate": 1.276595744680851e-07,
      "loss": 0.0,
      "reward": 1.1250001192092896,
      "reward_std": 0.5277225375175476,
      "rewards/accuracy_reward": 0.6339285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4910714775323868,
      "step": 2
    },
    {
      "completion_length": 1393.9286499023438,
      "epoch": 0.006396588486140725,
      "grad_norm": 0.17182262215313787,
      "kl": -1.6987323760986328e-05,
      "learning_rate": 1.9148936170212765e-07,
      "loss": 0.0001,
      "reward": 1.083333432674408,
      "reward_std": 0.40549205243587494,
      "rewards/accuracy_reward": 0.6160714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4672619253396988,
      "step": 3
    },
    {
      "completion_length": 1266.5803833007812,
      "epoch": 0.008528784648187633,
      "grad_norm": 0.15510416131875848,
      "kl": -9.24617052078247e-06,
      "learning_rate": 2.553191489361702e-07,
      "loss": -0.0,
      "reward": 1.1875001192092896,
      "reward_std": 0.38191837072372437,
      "rewards/accuracy_reward": 0.6517857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5357142984867096,
      "step": 4
    },
    {
      "completion_length": 1437.4285888671875,
      "epoch": 0.010660980810234541,
      "grad_norm": 0.12998469446634192,
      "kl": -1.4603137969970703e-05,
      "learning_rate": 3.1914893617021275e-07,
      "loss": -0.0,
      "reward": 1.1845239400863647,
      "reward_std": 0.35707882046699524,
      "rewards/accuracy_reward": 0.6339285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5505952835083008,
      "step": 5
    },
    {
      "completion_length": 1475.02685546875,
      "epoch": 0.01279317697228145,
      "grad_norm": 1.4998667639503471,
      "kl": -1.3977289199829102e-05,
      "learning_rate": 3.829787234042553e-07,
      "loss": -0.0,
      "reward": 1.223214328289032,
      "reward_std": 0.3873746395111084,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5446428954601288,
      "step": 6
    },
    {
      "completion_length": 1342.3839721679688,
      "epoch": 0.014925373134328358,
      "grad_norm": 0.1347658916488422,
      "kl": -1.3828277587890625e-05,
      "learning_rate": 4.468085106382979e-07,
      "loss": 0.0001,
      "reward": 1.1130953431129456,
      "reward_std": 0.35466837882995605,
      "rewards/accuracy_reward": 0.6517857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4613095372915268,
      "step": 7
    },
    {
      "completion_length": 1615.0625610351562,
      "epoch": 0.017057569296375266,
      "grad_norm": 0.19452042479512952,
      "kl": -1.874566078186035e-05,
      "learning_rate": 5.106382978723404e-07,
      "loss": -0.0,
      "reward": 1.1339287161827087,
      "reward_std": 0.3360842615365982,
      "rewards/accuracy_reward": 0.6517857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4821428805589676,
      "step": 8
    },
    {
      "completion_length": 1311.65185546875,
      "epoch": 0.019189765458422176,
      "grad_norm": 0.14865477125218574,
      "kl": -1.7017126083374023e-05,
      "learning_rate": 5.74468085106383e-07,
      "loss": -0.0,
      "reward": 1.1011905670166016,
      "reward_std": 0.38452380895614624,
      "rewards/accuracy_reward": 0.6160714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4851190894842148,
      "step": 9
    },
    {
      "completion_length": 1502.5982666015625,
      "epoch": 0.021321961620469083,
      "grad_norm": 0.1972449392214933,
      "kl": -1.0907649993896484e-05,
      "learning_rate": 6.382978723404255e-07,
      "loss": -0.0,
      "reward": 1.1547620296478271,
      "reward_std": 0.322206974029541,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5297619551420212,
      "step": 10
    },
    {
      "completion_length": 1356.3125610351562,
      "epoch": 0.023454157782515993,
      "grad_norm": 2.036311179433113,
      "kl": -1.564621925354004e-05,
      "learning_rate": 7.021276595744681e-07,
      "loss": -0.0,
      "reward": 1.1577381491661072,
      "reward_std": 0.4210054576396942,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4791666567325592,
      "step": 11
    },
    {
      "completion_length": 1051.02685546875,
      "epoch": 0.0255863539445629,
      "grad_norm": 0.1512787651395608,
      "kl": -1.4156103134155273e-05,
      "learning_rate": 7.659574468085106e-07,
      "loss": -0.0,
      "reward": 1.1369048357009888,
      "reward_std": 0.3436587452888489,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4136904776096344,
      "step": 12
    },
    {
      "completion_length": 1248.7947082519531,
      "epoch": 0.02771855010660981,
      "grad_norm": 0.12105956513561754,
      "kl": -1.1593103408813477e-05,
      "learning_rate": 8.297872340425533e-07,
      "loss": -0.0,
      "reward": 1.1904763579368591,
      "reward_std": 0.2839813828468323,
      "rewards/accuracy_reward": 0.7232142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4672619551420212,
      "step": 13
    },
    {
      "completion_length": 1237.5000305175781,
      "epoch": 0.029850746268656716,
      "grad_norm": 0.13247960224832034,
      "kl": -7.793307304382324e-06,
      "learning_rate": 8.936170212765958e-07,
      "loss": -0.0,
      "reward": 1.297619104385376,
      "reward_std": 0.3820309638977051,
      "rewards/accuracy_reward": 0.7321428656578064,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5654762089252472,
      "step": 14
    },
    {
      "completion_length": 1200.0625610351562,
      "epoch": 0.031982942430703626,
      "grad_norm": 0.17812167050064984,
      "kl": -1.195073127746582e-05,
      "learning_rate": 9.574468085106384e-07,
      "loss": -0.0,
      "reward": 1.24702388048172,
      "reward_std": 0.4098159074783325,
      "rewards/accuracy_reward": 0.7232142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5238095223903656,
      "step": 15
    },
    {
      "completion_length": 1611.794677734375,
      "epoch": 0.03411513859275053,
      "grad_norm": 0.14690321126671024,
      "kl": -1.3500452041625977e-05,
      "learning_rate": 1.0212765957446809e-06,
      "loss": -0.0,
      "reward": 1.0773810744285583,
      "reward_std": 0.36473824083805084,
      "rewards/accuracy_reward": 0.5625000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.51488097012043,
      "step": 16
    },
    {
      "completion_length": 1534.0983276367188,
      "epoch": 0.03624733475479744,
      "grad_norm": 0.1825669569112118,
      "kl": -4.636123776435852e-06,
      "learning_rate": 1.0851063829787236e-06,
      "loss": -0.0,
      "reward": 1.0238096415996552,
      "reward_std": 0.4115717262029648,
      "rewards/accuracy_reward": 0.5446428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4791666716337204,
      "step": 17
    },
    {
      "completion_length": 999.482177734375,
      "epoch": 0.03837953091684435,
      "grad_norm": 0.2214155766118974,
      "kl": 2.305954694747925e-06,
      "learning_rate": 1.148936170212766e-06,
      "loss": 0.0,
      "reward": 1.1994048357009888,
      "reward_std": 0.3588518500328064,
      "rewards/accuracy_reward": 0.8125000596046448,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.386904776096344,
      "step": 18
    },
    {
      "completion_length": 1641.3750610351562,
      "epoch": 0.04051172707889126,
      "grad_norm": 0.2375467862134176,
      "kl": 1.6652047634124756e-06,
      "learning_rate": 1.2127659574468085e-06,
      "loss": 0.0,
      "reward": 1.2172619998455048,
      "reward_std": 0.4137149751186371,
      "rewards/accuracy_reward": 0.5982143133878708,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6190476715564728,
      "step": 19
    },
    {
      "completion_length": 1805.732177734375,
      "epoch": 0.042643923240938165,
      "grad_norm": 0.1501282269097858,
      "kl": -1.1995434761047363e-06,
      "learning_rate": 1.276595744680851e-06,
      "loss": 0.0,
      "reward": 0.9791666865348816,
      "reward_std": 0.38999173045158386,
      "rewards/accuracy_reward": 0.5625000149011612,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4166667014360428,
      "step": 20
    },
    {
      "completion_length": 1302.7500610351562,
      "epoch": 0.04477611940298507,
      "grad_norm": 0.2003064463046603,
      "kl": 3.7550926208496094e-05,
      "learning_rate": 1.3404255319148935e-06,
      "loss": 0.0,
      "reward": 1.1250001192092896,
      "reward_std": 0.41413141787052155,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5000000298023224,
      "step": 21
    },
    {
      "completion_length": 1746.4555053710938,
      "epoch": 0.046908315565031986,
      "grad_norm": 0.13368227623150883,
      "kl": 1.9669532775878906e-05,
      "learning_rate": 1.4042553191489362e-06,
      "loss": 0.0,
      "reward": 1.0922620296478271,
      "reward_std": 0.39611712098121643,
      "rewards/accuracy_reward": 0.5535714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5386905074119568,
      "step": 22
    },
    {
      "completion_length": 1705.6428833007812,
      "epoch": 0.04904051172707889,
      "grad_norm": 0.14840849969821548,
      "kl": 1.0162591934204102e-05,
      "learning_rate": 1.4680851063829787e-06,
      "loss": 0.0,
      "reward": 1.0922619700431824,
      "reward_std": 0.41978873312473297,
      "rewards/accuracy_reward": 0.5714285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5208333730697632,
      "step": 23
    },
    {
      "completion_length": 1839.7769165039062,
      "epoch": 0.0511727078891258,
      "grad_norm": 0.13210245064261075,
      "kl": 8.869171142578125e-05,
      "learning_rate": 1.5319148936170212e-06,
      "loss": 0.0,
      "reward": 1.1428572535514832,
      "reward_std": 0.4210691750049591,
      "rewards/accuracy_reward": 0.5803571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5625000596046448,
      "step": 24
    },
    {
      "completion_length": 1573.4910888671875,
      "epoch": 0.053304904051172705,
      "grad_norm": 0.1531137246701135,
      "kl": 0.0001442432403564453,
      "learning_rate": 1.5957446808510639e-06,
      "loss": 0.0,
      "reward": 1.1517857313156128,
      "reward_std": 0.39047636091709137,
      "rewards/accuracy_reward": 0.6517857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.500000074505806,
      "step": 25
    },
    {
      "completion_length": 1532.2500610351562,
      "epoch": 0.05543710021321962,
      "grad_norm": 0.1565661763926477,
      "kl": 0.00013875961303710938,
      "learning_rate": 1.6595744680851066e-06,
      "loss": 0.0,
      "reward": 1.0505953431129456,
      "reward_std": 0.4049612581729889,
      "rewards/accuracy_reward": 0.5357142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5148809850215912,
      "step": 26
    },
    {
      "completion_length": 787.3928833007812,
      "epoch": 0.057569296375266525,
      "grad_norm": 0.15718702837843357,
      "kl": 6.473064422607422e-05,
      "learning_rate": 1.723404255319149e-06,
      "loss": 0.0,
      "reward": 1.422619104385376,
      "reward_std": 0.36571209132671356,
      "rewards/accuracy_reward": 0.9017857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5208333730697632,
      "step": 27
    },
    {
      "completion_length": 1835.8483276367188,
      "epoch": 0.05970149253731343,
      "grad_norm": 0.13338654737065214,
      "kl": 0.0003032684326171875,
      "learning_rate": 1.7872340425531915e-06,
      "loss": 0.0,
      "reward": 1.1041668057441711,
      "reward_std": 0.49899065494537354,
      "rewards/accuracy_reward": 0.580357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.523809552192688,
      "step": 28
    },
    {
      "completion_length": 1342.90185546875,
      "epoch": 0.06183368869936034,
      "grad_norm": 0.14091168827480863,
      "kl": 0.000141143798828125,
      "learning_rate": 1.851063829787234e-06,
      "loss": 0.0,
      "reward": 1.2380952835083008,
      "reward_std": 0.34532831609249115,
      "rewards/accuracy_reward": 0.7142857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5238095223903656,
      "step": 29
    },
    {
      "completion_length": 1145.0714721679688,
      "epoch": 0.06396588486140725,
      "grad_norm": 0.1730670584634791,
      "kl": 0.00016164779663085938,
      "learning_rate": 1.9148936170212767e-06,
      "loss": 0.0,
      "reward": 1.05952388048172,
      "reward_std": 0.34266898036003113,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.3720238357782364,
      "step": 30
    },
    {
      "completion_length": 1541.58935546875,
      "epoch": 0.06609808102345416,
      "grad_norm": 0.1444952739223694,
      "kl": 0.0004215240478515625,
      "learning_rate": 1.978723404255319e-06,
      "loss": 0.0,
      "reward": 1.0000000298023224,
      "reward_std": 0.3065740764141083,
      "rewards/accuracy_reward": 0.517857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4821428805589676,
      "step": 31
    },
    {
      "completion_length": 1328.7054443359375,
      "epoch": 0.06823027718550106,
      "grad_norm": 0.1669844876352127,
      "kl": 0.0005350112915039062,
      "learning_rate": 2.0425531914893617e-06,
      "loss": 0.0001,
      "reward": 1.1428572535514832,
      "reward_std": 0.4028202295303345,
      "rewards/accuracy_reward": 0.660714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4821428954601288,
      "step": 32
    },
    {
      "completion_length": 1258.6875610351562,
      "epoch": 0.07036247334754797,
      "grad_norm": 0.13629750522206943,
      "kl": 0.00027751922607421875,
      "learning_rate": 2.1063829787234044e-06,
      "loss": 0.0,
      "reward": 1.2559524774551392,
      "reward_std": 0.3689538836479187,
      "rewards/accuracy_reward": 0.5892857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6666666865348816,
      "step": 33
    },
    {
      "completion_length": 1149.8572082519531,
      "epoch": 0.07249466950959488,
      "grad_norm": 0.17055489427435588,
      "kl": 0.00089263916015625,
      "learning_rate": 2.170212765957447e-06,
      "loss": 0.0,
      "reward": 1.2648810744285583,
      "reward_std": 0.3219149112701416,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5148809552192688,
      "step": 34
    },
    {
      "completion_length": 1696.2947387695312,
      "epoch": 0.07462686567164178,
      "grad_norm": 0.15364897561044907,
      "kl": 0.0003199577331542969,
      "learning_rate": 2.2340425531914894e-06,
      "loss": 0.0,
      "reward": 1.0297619700431824,
      "reward_std": 0.40441516041755676,
      "rewards/accuracy_reward": 0.517857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5119048058986664,
      "step": 35
    },
    {
      "completion_length": 1046.1250610351562,
      "epoch": 0.0767590618336887,
      "grad_norm": 0.2438479873970799,
      "kl": 0.0026397705078125,
      "learning_rate": 2.297872340425532e-06,
      "loss": 0.0002,
      "reward": 1.2559524774551392,
      "reward_std": 0.3933843970298767,
      "rewards/accuracy_reward": 0.8392857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4166667014360428,
      "step": 36
    },
    {
      "completion_length": 1581.2054443359375,
      "epoch": 0.07889125799573561,
      "grad_norm": 0.16228354831017966,
      "kl": 0.0008792877197265625,
      "learning_rate": 2.3617021276595748e-06,
      "loss": 0.0,
      "reward": 0.9196429252624512,
      "reward_std": 0.41390717029571533,
      "rewards/accuracy_reward": 0.4910714477300644,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4285714477300644,
      "step": 37
    },
    {
      "completion_length": 1066.6607666015625,
      "epoch": 0.08102345415778252,
      "grad_norm": 0.13492945870929596,
      "kl": 0.000690460205078125,
      "learning_rate": 2.425531914893617e-06,
      "loss": 0.0,
      "reward": 1.2172619700431824,
      "reward_std": 0.4130115658044815,
      "rewards/accuracy_reward": 0.705357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5119048058986664,
      "step": 38
    },
    {
      "completion_length": 1221.8036193847656,
      "epoch": 0.08315565031982942,
      "grad_norm": 0.12641520294835823,
      "kl": 0.0005064010620117188,
      "learning_rate": 2.4893617021276598e-06,
      "loss": 0.0,
      "reward": 1.2767857909202576,
      "reward_std": 0.35246704518795013,
      "rewards/accuracy_reward": 0.7321428656578064,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5446428954601288,
      "step": 39
    },
    {
      "completion_length": 1328.2857666015625,
      "epoch": 0.08528784648187633,
      "grad_norm": 0.15616319429960585,
      "kl": 0.0018177032470703125,
      "learning_rate": 2.553191489361702e-06,
      "loss": 0.0001,
      "reward": 1.3184524774551392,
      "reward_std": 0.37362396717071533,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5773809552192688,
      "step": 40
    },
    {
      "completion_length": 1644.3482666015625,
      "epoch": 0.08742004264392324,
      "grad_norm": 0.19584428259854464,
      "kl": 0.00396728515625,
      "learning_rate": 2.6170212765957447e-06,
      "loss": 0.0002,
      "reward": 1.0505953431129456,
      "reward_std": 0.4334677755832672,
      "rewards/accuracy_reward": 0.5000000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5505952835083008,
      "step": 41
    },
    {
      "completion_length": 620.8303833007812,
      "epoch": 0.08955223880597014,
      "grad_norm": 0.1741591050406915,
      "kl": 0.0010395050048828125,
      "learning_rate": 2.680851063829787e-06,
      "loss": 0.0,
      "reward": 1.3988096714019775,
      "reward_std": 0.32531705498695374,
      "rewards/accuracy_reward": 0.910714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4880952686071396,
      "step": 42
    },
    {
      "completion_length": 1427.6428833007812,
      "epoch": 0.09168443496801706,
      "grad_norm": 0.16060841869552117,
      "kl": 0.00191497802734375,
      "learning_rate": 2.7446808510638297e-06,
      "loss": 0.0001,
      "reward": 1.2202381491661072,
      "reward_std": 0.4095807373523712,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5952381193637848,
      "step": 43
    },
    {
      "completion_length": 795.6339721679688,
      "epoch": 0.09381663113006397,
      "grad_norm": 0.1773444777281968,
      "kl": 0.0009098052978515625,
      "learning_rate": 2.8085106382978724e-06,
      "loss": 0.0,
      "reward": 1.1994048953056335,
      "reward_std": 0.3726315051317215,
      "rewards/accuracy_reward": 0.785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4136905074119568,
      "step": 44
    },
    {
      "completion_length": 1152.3303833007812,
      "epoch": 0.09594882729211088,
      "grad_norm": 0.12347942536976399,
      "kl": 0.00148773193359375,
      "learning_rate": 2.872340425531915e-06,
      "loss": 0.0001,
      "reward": 1.3303572535514832,
      "reward_std": 0.33933600783348083,
      "rewards/accuracy_reward": 0.6517857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.678571492433548,
      "step": 45
    },
    {
      "completion_length": 1258.6875610351562,
      "epoch": 0.09808102345415778,
      "grad_norm": 0.40264471064581214,
      "kl": 0.002056121826171875,
      "learning_rate": 2.9361702127659574e-06,
      "loss": 0.0001,
      "reward": 1.285714328289032,
      "reward_std": 0.3747290223836899,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5446428656578064,
      "step": 46
    },
    {
      "completion_length": 1067.3840026855469,
      "epoch": 0.10021321961620469,
      "grad_norm": 0.15660803727355965,
      "kl": 0.0014190673828125,
      "learning_rate": 3e-06,
      "loss": 0.0001,
      "reward": 1.2559524774551392,
      "reward_std": 0.34250155091285706,
      "rewards/accuracy_reward": 0.7678571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4880952537059784,
      "step": 47
    },
    {
      "completion_length": 1257.169677734375,
      "epoch": 0.1023454157782516,
      "grad_norm": 0.13946403353765643,
      "kl": 0.00208282470703125,
      "learning_rate": 2.9999584343954855e-06,
      "loss": 0.0001,
      "reward": 1.3065477013587952,
      "reward_std": 0.32919032871723175,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5833333730697632,
      "step": 48
    },
    {
      "completion_length": 1281.1607666015625,
      "epoch": 0.1044776119402985,
      "grad_norm": 0.14213851065850516,
      "kl": 0.00183868408203125,
      "learning_rate": 2.999833739885541e-06,
      "loss": 0.0001,
      "reward": 1.172619104385376,
      "reward_std": 0.37455107271671295,
      "rewards/accuracy_reward": 0.7232142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.449404776096344,
      "step": 49
    },
    {
      "completion_length": 733.2589721679688,
      "epoch": 0.10660980810234541,
      "grad_norm": 0.14006123080875163,
      "kl": 0.001483917236328125,
      "learning_rate": 2.9996259233808368e-06,
      "loss": 0.0001,
      "reward": 1.3422619700431824,
      "reward_std": 0.3121134042739868,
      "rewards/accuracy_reward": 0.8392857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5029762089252472,
      "step": 50
    },
    {
      "completion_length": 1437.0625610351562,
      "epoch": 0.10874200426439233,
      "grad_norm": 0.16573913765855616,
      "kl": 0.00296783447265625,
      "learning_rate": 2.9993349963987307e-06,
      "loss": 0.0001,
      "reward": 1.2678571939468384,
      "reward_std": 0.36290039122104645,
      "rewards/accuracy_reward": 0.7142857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5535714328289032,
      "step": 51
    },
    {
      "completion_length": 1277.52685546875,
      "epoch": 0.11087420042643924,
      "grad_norm": 0.17053023868792777,
      "kl": 0.00319671630859375,
      "learning_rate": 2.9989609750626313e-06,
      "loss": 0.0001,
      "reward": 1.1934524774551392,
      "reward_std": 0.4573812037706375,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5684524178504944,
      "step": 52
    },
    {
      "completion_length": 1258.4108276367188,
      "epoch": 0.11300639658848614,
      "grad_norm": 0.15659956627637248,
      "kl": 0.00284576416015625,
      "learning_rate": 2.998503880101102e-06,
      "loss": 0.0001,
      "reward": 1.330357313156128,
      "reward_std": 0.40633879601955414,
      "rewards/accuracy_reward": 0.7321428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5982142984867096,
      "step": 53
    },
    {
      "completion_length": 945.1339721679688,
      "epoch": 0.11513859275053305,
      "grad_norm": 0.1530749759036004,
      "kl": 0.001972198486328125,
      "learning_rate": 2.9979637368467146e-06,
      "loss": 0.0002,
      "reward": 1.4315477013587952,
      "reward_std": 0.35975219309329987,
      "rewards/accuracy_reward": 0.8125000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6190476417541504,
      "step": 54
    },
    {
      "completion_length": 1829.0000610351562,
      "epoch": 0.11727078891257996,
      "grad_norm": 0.12872298400630902,
      "kl": 0.008697509765625,
      "learning_rate": 2.9973405752346425e-06,
      "loss": 0.0003,
      "reward": 1.1607144474983215,
      "reward_std": 0.4151493161916733,
      "rewards/accuracy_reward": 0.5357142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.625,
      "step": 55
    },
    {
      "completion_length": 1027.8572082519531,
      "epoch": 0.11940298507462686,
      "grad_norm": 0.21499636969549646,
      "kl": 0.0065460205078125,
      "learning_rate": 2.9966344298010057e-06,
      "loss": 0.0003,
      "reward": 1.2321429252624512,
      "reward_std": 0.4088515192270279,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5446428954601288,
      "step": 56
    },
    {
      "completion_length": 1178.669677734375,
      "epoch": 0.12153518123667377,
      "grad_norm": 0.1774574845097626,
      "kl": 0.008087158203125,
      "learning_rate": 2.9958453396809527e-06,
      "loss": 0.0003,
      "reward": 1.2648810744285583,
      "reward_std": 0.42859645187854767,
      "rewards/accuracy_reward": 0.7946428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.470238134264946,
      "step": 57
    },
    {
      "completion_length": 1250.9732971191406,
      "epoch": 0.12366737739872068,
      "grad_norm": 0.16477793012556885,
      "kl": 0.0052490234375,
      "learning_rate": 2.994973348606494e-06,
      "loss": 0.0002,
      "reward": 1.2559524774551392,
      "reward_std": 0.3528832942247391,
      "rewards/accuracy_reward": 0.7589285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4970238506793976,
      "step": 58
    },
    {
      "completion_length": 1324.2054443359375,
      "epoch": 0.1257995735607676,
      "grad_norm": 0.14809034758080783,
      "kl": 0.00528717041015625,
      "learning_rate": 2.994018504904078e-06,
      "loss": 0.0002,
      "reward": 1.3005953431129456,
      "reward_std": 0.36810819804668427,
      "rewards/accuracy_reward": 0.705357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5952381491661072,
      "step": 59
    },
    {
      "completion_length": 769.9464721679688,
      "epoch": 0.1279317697228145,
      "grad_norm": 0.19641112709258152,
      "kl": 0.00246429443359375,
      "learning_rate": 2.9929808614919113e-06,
      "loss": 0.0001,
      "reward": 1.4107144474983215,
      "reward_std": 0.3273903727531433,
      "rewards/accuracy_reward": 0.785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6250000298023224,
      "step": 60
    },
    {
      "completion_length": 2007.196533203125,
      "epoch": 0.1300639658848614,
      "grad_norm": 0.19871476651966316,
      "kl": 0.021087646484375,
      "learning_rate": 2.9918604758770298e-06,
      "loss": 0.0008,
      "reward": 1.0773810148239136,
      "reward_std": 0.39117348194122314,
      "rewards/accuracy_reward": 0.4732143133878708,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.604166716337204,
      "step": 61
    },
    {
      "completion_length": 1478.6429443359375,
      "epoch": 0.13219616204690832,
      "grad_norm": 0.1312228638003264,
      "kl": 0.008697509765625,
      "learning_rate": 2.9906574101521067e-06,
      "loss": 0.0003,
      "reward": 1.1309524774551392,
      "reward_std": 0.310528427362442,
      "rewards/accuracy_reward": 0.5535714477300644,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5773810148239136,
      "step": 62
    },
    {
      "completion_length": 1053.5893249511719,
      "epoch": 0.13432835820895522,
      "grad_norm": 0.1577911997084811,
      "kl": 0.00534820556640625,
      "learning_rate": 2.9893717309920135e-06,
      "loss": 0.0002,
      "reward": 1.2767857909202576,
      "reward_std": 0.3655283451080322,
      "rewards/accuracy_reward": 0.7321428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5446428954601288,
      "step": 63
    },
    {
      "completion_length": 1426.3125610351562,
      "epoch": 0.13646055437100213,
      "grad_norm": 0.13609500040382497,
      "kl": 0.0062103271484375,
      "learning_rate": 2.9880035096501265e-06,
      "loss": 0.0002,
      "reward": 1.2351191639900208,
      "reward_std": 0.3807966113090515,
      "rewards/accuracy_reward": 0.5535714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6815476417541504,
      "step": 64
    },
    {
      "completion_length": 821.2857360839844,
      "epoch": 0.13859275053304904,
      "grad_norm": 0.16830069891242935,
      "kl": 0.00616455078125,
      "learning_rate": 2.9865528219543747e-06,
      "loss": 0.0002,
      "reward": 1.357142984867096,
      "reward_std": 0.3566432595252991,
      "rewards/accuracy_reward": 0.8214285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.535714328289032,
      "step": 65
    },
    {
      "completion_length": 1064.7054443359375,
      "epoch": 0.14072494669509594,
      "grad_norm": 0.1496190904863996,
      "kl": 0.011322021484375,
      "learning_rate": 2.9850197483030394e-06,
      "loss": 0.0005,
      "reward": 1.4166667461395264,
      "reward_std": 0.3102722465991974,
      "rewards/accuracy_reward": 0.7589285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6577381491661072,
      "step": 66
    },
    {
      "completion_length": 873.7232666015625,
      "epoch": 0.14285714285714285,
      "grad_norm": 0.15876670304776375,
      "kl": 0.00478363037109375,
      "learning_rate": 2.9834043736602984e-06,
      "loss": 0.0003,
      "reward": 1.3630954027175903,
      "reward_std": 0.23177709430456161,
      "rewards/accuracy_reward": 0.8392857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5238095223903656,
      "step": 67
    },
    {
      "completion_length": 1094.0179443359375,
      "epoch": 0.14498933901918976,
      "grad_norm": 0.1550788773593924,
      "kl": 0.0059051513671875,
      "learning_rate": 2.9817067875515166e-06,
      "loss": 0.0002,
      "reward": 1.255952537059784,
      "reward_std": 0.37753310799598694,
      "rewards/accuracy_reward": 0.6517857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.604166716337204,
      "step": 68
    },
    {
      "completion_length": 849.7679138183594,
      "epoch": 0.14712153518123666,
      "grad_norm": 0.1858810212568047,
      "kl": 0.003997802734375,
      "learning_rate": 2.9799270840582835e-06,
      "loss": 0.0002,
      "reward": 1.4494048953056335,
      "reward_std": 0.30886104702949524,
      "rewards/accuracy_reward": 0.8035714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6458333432674408,
      "step": 69
    },
    {
      "completion_length": 940.9822082519531,
      "epoch": 0.14925373134328357,
      "grad_norm": 0.1833401137891618,
      "kl": 0.0055694580078125,
      "learning_rate": 2.978065361813203e-06,
      "loss": 0.0002,
      "reward": 1.4434524178504944,
      "reward_std": 0.3394984006881714,
      "rewards/accuracy_reward": 0.8392857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.604166716337204,
      "step": 70
    },
    {
      "completion_length": 1095.1786193847656,
      "epoch": 0.1513859275053305,
      "grad_norm": 0.1421362990111122,
      "kl": 0.0066375732421875,
      "learning_rate": 2.97612172399442e-06,
      "loss": 0.0003,
      "reward": 1.2261905670166016,
      "reward_std": 0.3793673664331436,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5833333432674408,
      "step": 71
    },
    {
      "completion_length": 1508.134033203125,
      "epoch": 0.1535181236673774,
      "grad_norm": 0.13859275445265892,
      "kl": 0.01348876953125,
      "learning_rate": 2.9740962783199107e-06,
      "loss": 0.0005,
      "reward": 1.3125001192092896,
      "reward_std": 0.37451834976673126,
      "rewards/accuracy_reward": 0.5982143133878708,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7142857611179352,
      "step": 72
    },
    {
      "completion_length": 759.1339721679688,
      "epoch": 0.15565031982942432,
      "grad_norm": 0.19849132450815932,
      "kl": 0.0047454833984375,
      "learning_rate": 2.971989137041507e-06,
      "loss": 0.0002,
      "reward": 1.4375001192092896,
      "reward_std": 0.3212766498327255,
      "rewards/accuracy_reward": 0.866071492433548,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5714285969734192,
      "step": 73
    },
    {
      "completion_length": 1401.5625610351562,
      "epoch": 0.15778251599147122,
      "grad_norm": 0.11909867480752401,
      "kl": 0.0097503662109375,
      "learning_rate": 2.969800416938676e-06,
      "loss": 0.0004,
      "reward": 1.282738208770752,
      "reward_std": 0.37306542694568634,
      "rewards/accuracy_reward": 0.6517857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.630952388048172,
      "step": 74
    },
    {
      "completion_length": 909.1428833007812,
      "epoch": 0.15991471215351813,
      "grad_norm": 0.152094252634616,
      "kl": 0.0076446533203125,
      "learning_rate": 2.967530239312051e-06,
      "loss": 0.0003,
      "reward": 1.345238208770752,
      "reward_std": 0.3590342551469803,
      "rewards/accuracy_reward": 0.8214285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5238095074892044,
      "step": 75
    },
    {
      "completion_length": 1231.8839721679688,
      "epoch": 0.16204690831556504,
      "grad_norm": 0.19139038002620093,
      "kl": 0.0108795166015625,
      "learning_rate": 2.9651787299767046e-06,
      "loss": 0.0004,
      "reward": 1.2886905670166016,
      "reward_std": 0.31089412420988083,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6458334028720856,
      "step": 76
    },
    {
      "completion_length": 944.1785888671875,
      "epoch": 0.16417910447761194,
      "grad_norm": 0.20265037332182936,
      "kl": 0.0051727294921875,
      "learning_rate": 2.9627460192551807e-06,
      "loss": 0.0002,
      "reward": 1.345238208770752,
      "reward_std": 0.34465400129556656,
      "rewards/accuracy_reward": 0.7232142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6220238208770752,
      "step": 77
    },
    {
      "completion_length": 704.7589721679688,
      "epoch": 0.16631130063965885,
      "grad_norm": 0.1812125917230859,
      "kl": 0.00510406494140625,
      "learning_rate": 2.960232241970268e-06,
      "loss": 0.0002,
      "reward": 1.3482144474983215,
      "reward_std": 0.32775330543518066,
      "rewards/accuracy_reward": 0.892857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4553571790456772,
      "step": 78
    },
    {
      "completion_length": 1378.1697387695312,
      "epoch": 0.16844349680170576,
      "grad_norm": 0.1600341396682676,
      "kl": 0.0107421875,
      "learning_rate": 2.957637537437529e-06,
      "loss": 0.0004,
      "reward": 1.3214287161827087,
      "reward_std": 0.31856413185596466,
      "rewards/accuracy_reward": 0.6607142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.660714328289032,
      "step": 79
    },
    {
      "completion_length": 1638.7054443359375,
      "epoch": 0.17057569296375266,
      "grad_norm": 0.14179506299406744,
      "kl": 0.0186767578125,
      "learning_rate": 2.9549620494575816e-06,
      "loss": 0.0007,
      "reward": 1.1160715222358704,
      "reward_std": 0.2958611100912094,
      "rewards/accuracy_reward": 0.535714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5803571939468384,
      "step": 80
    },
    {
      "completion_length": 1257.1339721679688,
      "epoch": 0.17270788912579957,
      "grad_norm": 0.17659841887300617,
      "kl": 0.01763916015625,
      "learning_rate": 2.952205926308125e-06,
      "loss": 0.0007,
      "reward": 1.24702388048172,
      "reward_std": 0.4294906556606293,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5595238208770752,
      "step": 81
    },
    {
      "completion_length": 925.0804138183594,
      "epoch": 0.17484008528784648,
      "grad_norm": 0.1866342369668585,
      "kl": 0.0086212158203125,
      "learning_rate": 2.9493693207357266e-06,
      "loss": 0.0003,
      "reward": 1.3898810744285583,
      "reward_std": 0.37664400041103363,
      "rewards/accuracy_reward": 0.785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.604166716337204,
      "step": 82
    },
    {
      "completion_length": 1276.3482666015625,
      "epoch": 0.17697228144989338,
      "grad_norm": 0.172394824576493,
      "kl": 0.0108795166015625,
      "learning_rate": 2.946452389947353e-06,
      "loss": 0.0004,
      "reward": 1.3005953431129456,
      "reward_std": 0.38728436827659607,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5595238506793976,
      "step": 83
    },
    {
      "completion_length": 1259.7054443359375,
      "epoch": 0.1791044776119403,
      "grad_norm": 0.13062365672859655,
      "kl": 0.009765625,
      "learning_rate": 2.9434552956016594e-06,
      "loss": 0.0004,
      "reward": 1.348214328289032,
      "reward_std": 0.3716337978839874,
      "rewards/accuracy_reward": 0.705357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.642857164144516,
      "step": 84
    },
    {
      "completion_length": 1101.0447082519531,
      "epoch": 0.1812366737739872,
      "grad_norm": 0.13329404075969153,
      "kl": 0.007720947265625,
      "learning_rate": 2.9403782038000303e-06,
      "loss": 0.0003,
      "reward": 1.4047619700431824,
      "reward_std": 0.26206931471824646,
      "rewards/accuracy_reward": 0.7232142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6815476417541504,
      "step": 85
    },
    {
      "completion_length": 1181.4643249511719,
      "epoch": 0.18336886993603413,
      "grad_norm": 0.15000154988633166,
      "kl": 0.0085296630859375,
      "learning_rate": 2.9372212850773744e-06,
      "loss": 0.0003,
      "reward": 1.407738208770752,
      "reward_std": 0.39618879556655884,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6666666567325592,
      "step": 86
    },
    {
      "completion_length": 1161.6786499023438,
      "epoch": 0.18550106609808104,
      "grad_norm": 0.13373561257234223,
      "kl": 0.01043701171875,
      "learning_rate": 2.9339847143926705e-06,
      "loss": 0.0004,
      "reward": 1.2857143878936768,
      "reward_std": 0.2954511120915413,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.598214328289032,
      "step": 87
    },
    {
      "completion_length": 1222.5714721679688,
      "epoch": 0.18763326226012794,
      "grad_norm": 0.1312682593705175,
      "kl": 0.009521484375,
      "learning_rate": 2.9306686711192755e-06,
      "loss": 0.0004,
      "reward": 1.4404762983322144,
      "reward_std": 0.30410095304250717,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.699404776096344,
      "step": 88
    },
    {
      "completion_length": 972.857177734375,
      "epoch": 0.18976545842217485,
      "grad_norm": 0.14674683604944735,
      "kl": 0.009033203125,
      "learning_rate": 2.92727333903498e-06,
      "loss": 0.0004,
      "reward": 1.55654776096344,
      "reward_std": 0.3546382039785385,
      "rewards/accuracy_reward": 0.830357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7261905372142792,
      "step": 89
    },
    {
      "completion_length": 800.107177734375,
      "epoch": 0.19189765458422176,
      "grad_norm": 0.1617019608905133,
      "kl": 0.00714111328125,
      "learning_rate": 2.923798906311825e-06,
      "loss": 0.0003,
      "reward": 1.5148810744285583,
      "reward_std": 0.38338369131088257,
      "rewards/accuracy_reward": 0.9017857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6130952537059784,
      "step": 90
    },
    {
      "completion_length": 1002.65185546875,
      "epoch": 0.19402985074626866,
      "grad_norm": 0.167091878574663,
      "kl": 0.009796142578125,
      "learning_rate": 2.920245565505673e-06,
      "loss": 0.0004,
      "reward": 1.3273810744285583,
      "reward_std": 0.3411993533372879,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6398809850215912,
      "step": 91
    },
    {
      "completion_length": 903.7589721679688,
      "epoch": 0.19616204690831557,
      "grad_norm": 0.15607119811402545,
      "kl": 0.007415771484375,
      "learning_rate": 2.916613513545535e-06,
      "loss": 0.0003,
      "reward": 1.5803572535514832,
      "reward_std": 0.29510386288166046,
      "rewards/accuracy_reward": 0.8303571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7500000596046448,
      "step": 92
    },
    {
      "completion_length": 1083.5179443359375,
      "epoch": 0.19829424307036247,
      "grad_norm": 0.1657671591841798,
      "kl": 0.012115478515625,
      "learning_rate": 2.912902951722658e-06,
      "loss": 0.0005,
      "reward": 1.407738208770752,
      "reward_std": 0.34263360500335693,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6845237612724304,
      "step": 93
    },
    {
      "completion_length": 895.982177734375,
      "epoch": 0.20042643923240938,
      "grad_norm": 0.17312651379451896,
      "kl": 0.0078277587890625,
      "learning_rate": 2.909114085679369e-06,
      "loss": 0.0003,
      "reward": 1.4047619700431824,
      "reward_std": 0.3064159005880356,
      "rewards/accuracy_reward": 0.7142857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6904762089252472,
      "step": 94
    },
    {
      "completion_length": 1203.4197082519531,
      "epoch": 0.2025586353944563,
      "grad_norm": 0.14103356704546774,
      "kl": 0.012054443359375,
      "learning_rate": 2.9052471253976785e-06,
      "loss": 0.0005,
      "reward": 1.520833432674408,
      "reward_std": 0.31196317821741104,
      "rewards/accuracy_reward": 0.7589285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7619048357009888,
      "step": 95
    },
    {
      "completion_length": 594.5536193847656,
      "epoch": 0.2046908315565032,
      "grad_norm": 0.16922492400128467,
      "kl": 0.0075531005859375,
      "learning_rate": 2.9013022851876413e-06,
      "loss": 0.0003,
      "reward": 1.645833432674408,
      "reward_std": 0.27628570795059204,
      "rewards/accuracy_reward": 0.9196428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7261905074119568,
      "step": 96
    },
    {
      "completion_length": 630.5000152587891,
      "epoch": 0.2068230277185501,
      "grad_norm": 0.15446556778100956,
      "kl": 0.006927490234375,
      "learning_rate": 2.897279783675483e-06,
      "loss": 0.0003,
      "reward": 1.6101192235946655,
      "reward_std": 0.2821899950504303,
      "rewards/accuracy_reward": 0.9017857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7083334028720856,
      "step": 97
    },
    {
      "completion_length": 1353.0357666015625,
      "epoch": 0.208955223880597,
      "grad_norm": 0.12240082567128792,
      "kl": 0.015167236328125,
      "learning_rate": 2.893179843791478e-06,
      "loss": 0.0006,
      "reward": 1.4553572535514832,
      "reward_std": 0.30320218205451965,
      "rewards/accuracy_reward": 0.705357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7500000298023224,
      "step": 98
    },
    {
      "completion_length": 1130.8661499023438,
      "epoch": 0.21108742004264391,
      "grad_norm": 0.13999315150021108,
      "kl": 0.012054443359375,
      "learning_rate": 2.8890026927576e-06,
      "loss": 0.0005,
      "reward": 1.4285714626312256,
      "reward_std": 0.253668449819088,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7053571939468384,
      "step": 99
    },
    {
      "completion_length": 791.5982360839844,
      "epoch": 0.21321961620469082,
      "grad_norm": 0.1811036084925086,
      "kl": 0.0096435546875,
      "learning_rate": 2.8847485620749263e-06,
      "loss": 0.0004,
      "reward": 1.4970239400863647,
      "reward_std": 0.3398481756448746,
      "rewards/accuracy_reward": 0.848214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6488095223903656,
      "step": 100
    },
    {
      "completion_length": 855.5178833007812,
      "epoch": 0.21535181236673773,
      "grad_norm": 0.17905237582161485,
      "kl": 0.010986328125,
      "learning_rate": 2.8804176875108078e-06,
      "loss": 0.0004,
      "reward": 1.4851191639900208,
      "reward_std": 0.35134656727313995,
      "rewards/accuracy_reward": 0.7678571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.71726194024086,
      "step": 101
    },
    {
      "completion_length": 723.1875305175781,
      "epoch": 0.21748400852878466,
      "grad_norm": 0.12814685276731494,
      "kl": 0.0095062255859375,
      "learning_rate": 2.876010309085804e-06,
      "loss": 0.0005,
      "reward": 1.5386905670166016,
      "reward_std": 0.2867877930402756,
      "rewards/accuracy_reward": 0.8392857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.699404776096344,
      "step": 102
    },
    {
      "completion_length": 1068.5179138183594,
      "epoch": 0.21961620469083157,
      "grad_norm": 0.15474275705963855,
      "kl": 0.015228271484375,
      "learning_rate": 2.8715266710603797e-06,
      "loss": 0.0006,
      "reward": 1.5892858505249023,
      "reward_std": 0.3706424683332443,
      "rewards/accuracy_reward": 0.8125000596046448,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7767857313156128,
      "step": 103
    },
    {
      "completion_length": 1549.196533203125,
      "epoch": 0.22174840085287847,
      "grad_norm": 0.12862452241129907,
      "kl": 0.0208740234375,
      "learning_rate": 2.8669670219213677e-06,
      "loss": 0.0008,
      "reward": 1.2886905670166016,
      "reward_std": 0.3467850983142853,
      "rewards/accuracy_reward": 0.598214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6904762089252472,
      "step": 104
    },
    {
      "completion_length": 941.0268249511719,
      "epoch": 0.22388059701492538,
      "grad_norm": 0.14821451036226277,
      "kl": 0.0120849609375,
      "learning_rate": 2.862331614368199e-06,
      "loss": 0.0005,
      "reward": 1.4166666865348816,
      "reward_std": 0.42007601261138916,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6755952835083008,
      "step": 105
    },
    {
      "completion_length": 1061.3482666015625,
      "epoch": 0.2260127931769723,
      "grad_norm": 0.19924511980284343,
      "kl": 0.0247802734375,
      "learning_rate": 2.857620705298896e-06,
      "loss": 0.001,
      "reward": 1.535714328289032,
      "reward_std": 0.3121153712272644,
      "rewards/accuracy_reward": 0.785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7500000298023224,
      "step": 106
    },
    {
      "completion_length": 1011.732177734375,
      "epoch": 0.2281449893390192,
      "grad_norm": 0.15424383485942247,
      "kl": 0.012420654296875,
      "learning_rate": 2.8528345557958363e-06,
      "loss": 0.0005,
      "reward": 1.4345239400863647,
      "reward_std": 0.29895633459091187,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7559524476528168,
      "step": 107
    },
    {
      "completion_length": 977.3125610351562,
      "epoch": 0.2302771855010661,
      "grad_norm": 0.1905486233828547,
      "kl": 0.0128173828125,
      "learning_rate": 2.847973431111284e-06,
      "loss": 0.0005,
      "reward": 1.5000000596046448,
      "reward_std": 0.305995412170887,
      "rewards/accuracy_reward": 0.7232142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7767857313156128,
      "step": 108
    },
    {
      "completion_length": 1368.8929138183594,
      "epoch": 0.232409381663113,
      "grad_norm": 0.14975724928017292,
      "kl": 0.0177764892578125,
      "learning_rate": 2.843037600652686e-06,
      "loss": 0.0007,
      "reward": 1.4880952835083008,
      "reward_std": 0.35562407970428467,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7470238506793976,
      "step": 109
    },
    {
      "completion_length": 1130.3304138183594,
      "epoch": 0.2345415778251599,
      "grad_norm": 0.16033914505651306,
      "kl": 0.01812744140625,
      "learning_rate": 2.8380273379677463e-06,
      "loss": 0.0007,
      "reward": 1.6130953431129456,
      "reward_std": 0.30107854306697845,
      "rewards/accuracy_reward": 0.8125000596046448,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8005952537059784,
      "step": 110
    },
    {
      "completion_length": 989.0536193847656,
      "epoch": 0.23667377398720682,
      "grad_norm": 0.12189034586330845,
      "kl": 0.014739990234375,
      "learning_rate": 2.8329429207292592e-06,
      "loss": 0.0006,
      "reward": 1.61904776096344,
      "reward_std": 0.32534319162368774,
      "rewards/accuracy_reward": 0.8303571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7886905074119568,
      "step": 111
    },
    {
      "completion_length": 1425.3928833007812,
      "epoch": 0.23880597014925373,
      "grad_norm": 0.12170876202218561,
      "kl": 0.0194091796875,
      "learning_rate": 2.827784630719728e-06,
      "loss": 0.0008,
      "reward": 1.4494048953056335,
      "reward_std": 0.3223812133073807,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7708333134651184,
      "step": 112
    },
    {
      "completion_length": 882.0089721679688,
      "epoch": 0.24093816631130063,
      "grad_norm": 0.1534029694717341,
      "kl": 0.013397216796875,
      "learning_rate": 2.8225527538157413e-06,
      "loss": 0.0005,
      "reward": 1.4464287161827087,
      "reward_std": 0.29481643438339233,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6964285969734192,
      "step": 113
    },
    {
      "completion_length": 717.4910888671875,
      "epoch": 0.24307036247334754,
      "grad_norm": 0.15108732952121567,
      "kl": 0.0099639892578125,
      "learning_rate": 2.8172475799721353e-06,
      "loss": 0.0005,
      "reward": 1.6636905670166016,
      "reward_std": 0.24413727223873138,
      "rewards/accuracy_reward": 0.9375000596046448,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7261905074119568,
      "step": 114
    },
    {
      "completion_length": 775.9464416503906,
      "epoch": 0.24520255863539445,
      "grad_norm": 0.1963996812858409,
      "kl": 0.035400390625,
      "learning_rate": 2.8118694032059203e-06,
      "loss": 0.0014,
      "reward": 1.5178572535514832,
      "reward_std": 0.253024697303772,
      "rewards/accuracy_reward": 0.7500000596046448,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7678571939468384,
      "step": 115
    },
    {
      "completion_length": 1138.3839721679688,
      "epoch": 0.24733475479744135,
      "grad_norm": 0.12427923261617566,
      "kl": 0.015533447265625,
      "learning_rate": 2.806418521579987e-06,
      "loss": 0.0006,
      "reward": 1.5892858505249023,
      "reward_std": 0.22502976655960083,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8392857313156128,
      "step": 116
    },
    {
      "completion_length": 848.9553833007812,
      "epoch": 0.24946695095948826,
      "grad_norm": 0.12134716530303082,
      "kl": 0.0137939453125,
      "learning_rate": 2.8008952371865888e-06,
      "loss": 0.0006,
      "reward": 1.7470239400863647,
      "reward_std": 0.24279744923114777,
      "rewards/accuracy_reward": 0.8750000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8720238506793976,
      "step": 117
    },
    {
      "completion_length": 717.1785888671875,
      "epoch": 0.2515991471215352,
      "grad_norm": 0.16308384313558255,
      "kl": 0.0128173828125,
      "learning_rate": 2.795299856130599e-06,
      "loss": 0.0005,
      "reward": 1.5178571939468384,
      "reward_std": 0.26987891644239426,
      "rewards/accuracy_reward": 0.7589285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7589285969734192,
      "step": 118
    },
    {
      "completion_length": 1046.0089721679688,
      "epoch": 0.2537313432835821,
      "grad_norm": 0.1736644485764988,
      "kl": 0.01654052734375,
      "learning_rate": 2.789632688512545e-06,
      "loss": 0.0007,
      "reward": 1.4970239400863647,
      "reward_std": 0.30475394427776337,
      "rewards/accuracy_reward": 0.7321428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7648809850215912,
      "step": 119
    },
    {
      "completion_length": 1572.544677734375,
      "epoch": 0.255863539445629,
      "grad_norm": 0.12925873637909777,
      "kl": 0.02764892578125,
      "learning_rate": 2.783894048411425e-06,
      "loss": 0.0011,
      "reward": 1.467262089252472,
      "reward_std": 0.32588915526866913,
      "rewards/accuracy_reward": 0.5892857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8779762387275696,
      "step": 120
    },
    {
      "completion_length": 587.8214721679688,
      "epoch": 0.2579957356076759,
      "grad_norm": 0.14556214526937136,
      "kl": 0.009033203125,
      "learning_rate": 2.7780842538672983e-06,
      "loss": 0.0004,
      "reward": 1.6875001192092896,
      "reward_std": 0.17977730184793472,
      "rewards/accuracy_reward": 0.910714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7767857611179352,
      "step": 121
    },
    {
      "completion_length": 649.0089416503906,
      "epoch": 0.2601279317697228,
      "grad_norm": 0.20701135509572693,
      "kl": 0.01568603515625,
      "learning_rate": 2.772203626863661e-06,
      "loss": 0.0006,
      "reward": 1.5744049549102783,
      "reward_std": 0.3113509714603424,
      "rewards/accuracy_reward": 0.848214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7261904776096344,
      "step": 122
    },
    {
      "completion_length": 836.919677734375,
      "epoch": 0.2622601279317697,
      "grad_norm": 0.17041884002430496,
      "kl": 0.02105712890625,
      "learning_rate": 2.766252493309603e-06,
      "loss": 0.0008,
      "reward": 1.6011905670166016,
      "reward_std": 0.3217628002166748,
      "rewards/accuracy_reward": 0.8035714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7976190745830536,
      "step": 123
    },
    {
      "completion_length": 1123.9911499023438,
      "epoch": 0.26439232409381663,
      "grad_norm": 0.1422895104223898,
      "kl": 0.03582763671875,
      "learning_rate": 2.7602311830217408e-06,
      "loss": 0.0014,
      "reward": 1.5119048953056335,
      "reward_std": 0.3638051897287369,
      "rewards/accuracy_reward": 0.7142857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7976191639900208,
      "step": 124
    },
    {
      "completion_length": 1279.7857666015625,
      "epoch": 0.26652452025586354,
      "grad_norm": 0.1707399846073365,
      "kl": 0.02166748046875,
      "learning_rate": 2.754140029705945e-06,
      "loss": 0.0009,
      "reward": 1.583333432674408,
      "reward_std": 0.36574582755565643,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8601191639900208,
      "step": 125
    },
    {
      "completion_length": 1264.5536499023438,
      "epoch": 0.26865671641791045,
      "grad_norm": 0.1385975367132021,
      "kl": 0.0262451171875,
      "learning_rate": 2.7479793709388413e-06,
      "loss": 0.0011,
      "reward": 1.5684524774551392,
      "reward_std": 0.27413927763700485,
      "rewards/accuracy_reward": 0.7142857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8541667461395264,
      "step": 126
    },
    {
      "completion_length": 752.0893249511719,
      "epoch": 0.27078891257995735,
      "grad_norm": 0.15440097471591496,
      "kl": 0.016845703125,
      "learning_rate": 2.741749548149105e-06,
      "loss": 0.0007,
      "reward": 1.6250001192092896,
      "reward_std": 0.2532976418733597,
      "rewards/accuracy_reward": 0.7946428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.830357164144516,
      "step": 127
    },
    {
      "completion_length": 1282.9286499023438,
      "epoch": 0.27292110874200426,
      "grad_norm": 0.1196006061134192,
      "kl": 0.02142333984375,
      "learning_rate": 2.735450906598535e-06,
      "loss": 0.0009,
      "reward": 1.6369048953056335,
      "reward_std": 0.33014658093452454,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8958333432674408,
      "step": 128
    },
    {
      "completion_length": 798.5982666015625,
      "epoch": 0.27505330490405117,
      "grad_norm": 0.13591950934272168,
      "kl": 0.0145263671875,
      "learning_rate": 2.7290837953629244e-06,
      "loss": 0.0006,
      "reward": 1.6994048953056335,
      "reward_std": 0.3371722549200058,
      "rewards/accuracy_reward": 0.9017857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7976190149784088,
      "step": 129
    },
    {
      "completion_length": 1482.544677734375,
      "epoch": 0.2771855010660981,
      "grad_norm": 0.13442072854507106,
      "kl": 0.034423828125,
      "learning_rate": 2.722648567312709e-06,
      "loss": 0.0014,
      "reward": 1.532738208770752,
      "reward_std": 0.28585047274827957,
      "rewards/accuracy_reward": 0.6696428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8630953133106232,
      "step": 130
    },
    {
      "completion_length": 1432.3839721679688,
      "epoch": 0.279317697228145,
      "grad_norm": 0.16266266916101127,
      "kl": 0.03045654296875,
      "learning_rate": 2.716145579093415e-06,
      "loss": 0.0012,
      "reward": 1.4464287161827087,
      "reward_std": 0.31591813266277313,
      "rewards/accuracy_reward": 0.705357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.741071492433548,
      "step": 131
    },
    {
      "completion_length": 1611.1072082519531,
      "epoch": 0.2814498933901919,
      "grad_norm": 0.12398557033252956,
      "kl": 0.03057861328125,
      "learning_rate": 2.70957519110589e-06,
      "loss": 0.0012,
      "reward": 1.4880953431129456,
      "reward_std": 0.33024005591869354,
      "rewards/accuracy_reward": 0.6517857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8363095819950104,
      "step": 132
    },
    {
      "completion_length": 1448.1072387695312,
      "epoch": 0.2835820895522388,
      "grad_norm": 0.1749866972413277,
      "kl": 0.03729248046875,
      "learning_rate": 2.702937767486333e-06,
      "loss": 0.0015,
      "reward": 1.3720239400863647,
      "reward_std": 0.31651265919208527,
      "rewards/accuracy_reward": 0.5535714477300644,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8184524178504944,
      "step": 133
    },
    {
      "completion_length": 1094.7678833007812,
      "epoch": 0.2857142857142857,
      "grad_norm": 0.13914163135927668,
      "kl": 0.021728515625,
      "learning_rate": 2.6962336760861105e-06,
      "loss": 0.0009,
      "reward": 1.6369048357009888,
      "reward_std": 0.22918323427438736,
      "rewards/accuracy_reward": 0.7767857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8601190447807312,
      "step": 134
    },
    {
      "completion_length": 1244.9107666015625,
      "epoch": 0.2878464818763326,
      "grad_norm": 0.14254875821632243,
      "kl": 0.02386474609375,
      "learning_rate": 2.689463288451372e-06,
      "loss": 0.001,
      "reward": 1.5505953431129456,
      "reward_std": 0.3597981333732605,
      "rewards/accuracy_reward": 0.7142857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8363095819950104,
      "step": 135
    },
    {
      "completion_length": 622.8303833007812,
      "epoch": 0.2899786780383795,
      "grad_norm": 0.17891650245601734,
      "kl": 0.01812744140625,
      "learning_rate": 2.6826269798024567e-06,
      "loss": 0.0007,
      "reward": 1.6339287161827087,
      "reward_std": 0.3337819129228592,
      "rewards/accuracy_reward": 0.910714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7232143580913544,
      "step": 136
    },
    {
      "completion_length": 990.15185546875,
      "epoch": 0.2921108742004264,
      "grad_norm": 0.12951319111687754,
      "kl": 0.019287109375,
      "learning_rate": 2.6757251290131003e-06,
      "loss": 0.0008,
      "reward": 1.7113096117973328,
      "reward_std": 0.26953089237213135,
      "rewards/accuracy_reward": 0.8303571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8809524178504944,
      "step": 137
    },
    {
      "completion_length": 983.1250610351562,
      "epoch": 0.2942430703624733,
      "grad_norm": 0.17507513354557844,
      "kl": 0.02203369140625,
      "learning_rate": 2.6687581185894363e-06,
      "loss": 0.0009,
      "reward": 1.6011905670166016,
      "reward_std": 0.3432065397500992,
      "rewards/accuracy_reward": 0.8214285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7797619700431824,
      "step": 138
    },
    {
      "completion_length": 1075.7322387695312,
      "epoch": 0.29637526652452023,
      "grad_norm": 0.1334238130822646,
      "kl": 0.020263671875,
      "learning_rate": 2.6617263346487987e-06,
      "loss": 0.0008,
      "reward": 1.5863096714019775,
      "reward_std": 0.32941678166389465,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8630953133106232,
      "step": 139
    },
    {
      "completion_length": 1348.6429443359375,
      "epoch": 0.29850746268656714,
      "grad_norm": 0.11492334210081338,
      "kl": 0.0357666015625,
      "learning_rate": 2.6546301668983207e-06,
      "loss": 0.0014,
      "reward": 1.5892857909202576,
      "reward_std": 0.25386694073677063,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8660714626312256,
      "step": 140
    },
    {
      "completion_length": 1306.732177734375,
      "epoch": 0.3006396588486141,
      "grad_norm": 0.11637433367559874,
      "kl": 0.02288818359375,
      "learning_rate": 2.6474700086133384e-06,
      "loss": 0.0009,
      "reward": 1.5416668057441711,
      "reward_std": 0.30222462117671967,
      "rewards/accuracy_reward": 0.6607142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8809524476528168,
      "step": 141
    },
    {
      "completion_length": 963.1964416503906,
      "epoch": 0.302771855010661,
      "grad_norm": 0.17500179680330255,
      "kl": 0.02349853515625,
      "learning_rate": 2.640246256615596e-06,
      "loss": 0.0009,
      "reward": 1.5505954027175903,
      "reward_std": 0.3368797302246094,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8095239102840424,
      "step": 142
    },
    {
      "completion_length": 1255.482177734375,
      "epoch": 0.3049040511727079,
      "grad_norm": 0.14991546275118545,
      "kl": 0.02655029296875,
      "learning_rate": 2.632959311251251e-06,
      "loss": 0.0011,
      "reward": 1.5357143878936768,
      "reward_std": 0.35554826259613037,
      "rewards/accuracy_reward": 0.6964285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8392857611179352,
      "step": 143
    },
    {
      "completion_length": 1503.4375610351562,
      "epoch": 0.3070362473347548,
      "grad_norm": 0.1547074928072192,
      "kl": 0.0281982421875,
      "learning_rate": 2.625609576368689e-06,
      "loss": 0.0011,
      "reward": 1.5446430444717407,
      "reward_std": 0.35729674249887466,
      "rewards/accuracy_reward": 0.6696428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8750000894069672,
      "step": 144
    },
    {
      "completion_length": 1104.3839721679688,
      "epoch": 0.3091684434968017,
      "grad_norm": 0.13466429784429426,
      "kl": 0.02349853515625,
      "learning_rate": 2.6181974592961413e-06,
      "loss": 0.0009,
      "reward": 1.6101191639900208,
      "reward_std": 0.33775724470615387,
      "rewards/accuracy_reward": 0.767857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8422619700431824,
      "step": 145
    },
    {
      "completion_length": 1312.1429138183594,
      "epoch": 0.31130063965884863,
      "grad_norm": 0.1354401840159625,
      "kl": 0.02880859375,
      "learning_rate": 2.610723370819111e-06,
      "loss": 0.0012,
      "reward": 1.6101192235946655,
      "reward_std": 0.28705208003520966,
      "rewards/accuracy_reward": 0.7321428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.877976268529892,
      "step": 146
    },
    {
      "completion_length": 1562.4375610351562,
      "epoch": 0.31343283582089554,
      "grad_norm": 0.1181484270070747,
      "kl": 0.0264892578125,
      "learning_rate": 2.6031877251576055e-06,
      "loss": 0.0011,
      "reward": 1.4017857909202576,
      "reward_std": 0.36547355353832245,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7589286267757416,
      "step": 147
    },
    {
      "completion_length": 1356.732177734375,
      "epoch": 0.31556503198294245,
      "grad_norm": 0.13294905321919406,
      "kl": 0.02947998046875,
      "learning_rate": 2.5955909399431797e-06,
      "loss": 0.0012,
      "reward": 1.5744048357009888,
      "reward_std": 0.2977776527404785,
      "rewards/accuracy_reward": 0.7142857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8601191639900208,
      "step": 148
    },
    {
      "completion_length": 787.5089721679688,
      "epoch": 0.31769722814498935,
      "grad_norm": 0.16333275269015285,
      "kl": 0.019256591796875,
      "learning_rate": 2.5879334361957955e-06,
      "loss": 0.0008,
      "reward": 1.7648810148239136,
      "reward_std": 0.24530308693647385,
      "rewards/accuracy_reward": 0.8839286267757416,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.880952388048172,
      "step": 149
    },
    {
      "completion_length": 1327.21435546875,
      "epoch": 0.31982942430703626,
      "grad_norm": 0.14227360251983465,
      "kl": 0.0294189453125,
      "learning_rate": 2.5802156383004816e-06,
      "loss": 0.0012,
      "reward": 1.5178572535514832,
      "reward_std": 0.28567779064178467,
      "rewards/accuracy_reward": 0.7321428656578064,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.785714328289032,
      "step": 150
    },
    {
      "completion_length": 1076.4554138183594,
      "epoch": 0.32196162046908317,
      "grad_norm": 0.19186322311174206,
      "kl": 0.0299072265625,
      "learning_rate": 2.572437973983818e-06,
      "loss": 0.0012,
      "reward": 1.595238208770752,
      "reward_std": 0.2562112510204315,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8720239102840424,
      "step": 151
    },
    {
      "completion_length": 1027.4822082519531,
      "epoch": 0.32409381663113007,
      "grad_norm": 0.1610326132320411,
      "kl": 0.02496337890625,
      "learning_rate": 2.5646008742902307e-06,
      "loss": 0.001,
      "reward": 1.6875001192092896,
      "reward_std": 0.2512718215584755,
      "rewards/accuracy_reward": 0.8125000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8750000894069672,
      "step": 152
    },
    {
      "completion_length": 1160.4911499023438,
      "epoch": 0.326226012793177,
      "grad_norm": 0.16371061772574935,
      "kl": 0.04669189453125,
      "learning_rate": 2.556704773558101e-06,
      "loss": 0.0019,
      "reward": 1.630952537059784,
      "reward_std": 0.3494434803724289,
      "rewards/accuracy_reward": 0.7321428656578064,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.898809552192688,
      "step": 153
    },
    {
      "completion_length": 1285.9286499023438,
      "epoch": 0.3283582089552239,
      "grad_norm": 0.1484934955715574,
      "kl": 0.0263671875,
      "learning_rate": 2.5487501093956955e-06,
      "loss": 0.0011,
      "reward": 1.4821430444717407,
      "reward_std": 0.3760380893945694,
      "rewards/accuracy_reward": 0.6517857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8303572237491608,
      "step": 154
    },
    {
      "completion_length": 892.7053833007812,
      "epoch": 0.3304904051172708,
      "grad_norm": 0.17952707021068917,
      "kl": 0.02532958984375,
      "learning_rate": 2.540737322656915e-06,
      "loss": 0.001,
      "reward": 1.5565477013587952,
      "reward_std": 0.3020409569144249,
      "rewards/accuracy_reward": 0.7767857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7797619998455048,
      "step": 155
    },
    {
      "completion_length": 1132.6160888671875,
      "epoch": 0.3326226012793177,
      "grad_norm": 0.1608294233862043,
      "kl": 0.025390625,
      "learning_rate": 2.532666857416858e-06,
      "loss": 0.001,
      "reward": 1.6011905670166016,
      "reward_std": 0.3485270142555237,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8511905670166016,
      "step": 156
    },
    {
      "completion_length": 703.669677734375,
      "epoch": 0.3347547974413646,
      "grad_norm": 0.19364153802931286,
      "kl": 0.0260009765625,
      "learning_rate": 2.524539160947213e-06,
      "loss": 0.001,
      "reward": 1.6696430444717407,
      "reward_std": 0.2634560242295265,
      "rewards/accuracy_reward": 0.848214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8214285969734192,
      "step": 157
    },
    {
      "completion_length": 1310.7142944335938,
      "epoch": 0.3368869936034115,
      "grad_norm": 0.11448935758511812,
      "kl": 0.0269775390625,
      "learning_rate": 2.5163546836914705e-06,
      "loss": 0.0011,
      "reward": 1.5892857909202576,
      "reward_std": 0.20700885355472565,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9107143580913544,
      "step": 158
    },
    {
      "completion_length": 733.7500152587891,
      "epoch": 0.3390191897654584,
      "grad_norm": 0.11877371818163751,
      "kl": 0.021728515625,
      "learning_rate": 2.5081138792399558e-06,
      "loss": 0.0009,
      "reward": 1.7321429252624512,
      "reward_std": 0.20278237015008926,
      "rewards/accuracy_reward": 0.8392857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8928572237491608,
      "step": 159
    },
    {
      "completion_length": 1480.27685546875,
      "epoch": 0.3411513859275053,
      "grad_norm": 0.1509716394601537,
      "kl": 0.03009033203125,
      "learning_rate": 2.499817204304694e-06,
      "loss": 0.0012,
      "reward": 1.5654763579368591,
      "reward_std": 0.2630036696791649,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8869048058986664,
      "step": 160
    },
    {
      "completion_length": 1154.0000610351562,
      "epoch": 0.34328358208955223,
      "grad_norm": 0.16636301419727328,
      "kl": 0.0303955078125,
      "learning_rate": 2.491465118694097e-06,
      "loss": 0.0012,
      "reward": 1.4464287161827087,
      "reward_std": 0.3122706562280655,
      "rewards/accuracy_reward": 0.6428571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8035714626312256,
      "step": 161
    },
    {
      "completion_length": 1526.6697387695312,
      "epoch": 0.34541577825159914,
      "grad_norm": 0.1388407671204369,
      "kl": 0.032470703125,
      "learning_rate": 2.483058085287483e-06,
      "loss": 0.0013,
      "reward": 1.520833432674408,
      "reward_std": 0.2781432121992111,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8422619104385376,
      "step": 162
    },
    {
      "completion_length": 1738.27685546875,
      "epoch": 0.34754797441364604,
      "grad_norm": 0.13271384448723114,
      "kl": 0.0443115234375,
      "learning_rate": 2.474596570009417e-06,
      "loss": 0.0018,
      "reward": 1.505952537059784,
      "reward_std": 0.32266250252723694,
      "rewards/accuracy_reward": 0.580357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9255952537059784,
      "step": 163
    },
    {
      "completion_length": 970.4107360839844,
      "epoch": 0.34968017057569295,
      "grad_norm": 0.13781933431218052,
      "kl": 0.022216796875,
      "learning_rate": 2.4660810418038984e-06,
      "loss": 0.0009,
      "reward": 1.6726191639900208,
      "reward_std": 0.24461942166090012,
      "rewards/accuracy_reward": 0.8035714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8690476417541504,
      "step": 164
    },
    {
      "completion_length": 1375.3750610351562,
      "epoch": 0.35181236673773986,
      "grad_norm": 0.10385982683574148,
      "kl": 0.02557373046875,
      "learning_rate": 2.4575119726083624e-06,
      "loss": 0.001,
      "reward": 1.5625001192092896,
      "reward_std": 0.29906313121318817,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9196429252624512,
      "step": 165
    },
    {
      "completion_length": 1114.2143249511719,
      "epoch": 0.35394456289978676,
      "grad_norm": 0.1515782682484494,
      "kl": 0.02716064453125,
      "learning_rate": 2.448889837327531e-06,
      "loss": 0.0011,
      "reward": 1.6041667461395264,
      "reward_std": 0.30316174030303955,
      "rewards/accuracy_reward": 0.767857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8363095819950104,
      "step": 166
    },
    {
      "completion_length": 1059.6339721679688,
      "epoch": 0.35607675906183367,
      "grad_norm": 0.15687886491662406,
      "kl": 0.02691650390625,
      "learning_rate": 2.440215113807091e-06,
      "loss": 0.0011,
      "reward": 1.6636906266212463,
      "reward_std": 0.28612659871578217,
      "rewards/accuracy_reward": 0.8125000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8511905372142792,
      "step": 167
    },
    {
      "completion_length": 786.0714721679688,
      "epoch": 0.3582089552238806,
      "grad_norm": 0.12367318338969734,
      "kl": 0.0208740234375,
      "learning_rate": 2.4314882828072126e-06,
      "loss": 0.0009,
      "reward": 1.6934524774551392,
      "reward_std": 0.2613615393638611,
      "rewards/accuracy_reward": 0.8839285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8095239102840424,
      "step": 168
    },
    {
      "completion_length": 1083.5000305175781,
      "epoch": 0.3603411513859275,
      "grad_norm": 0.1305876099746033,
      "kl": 0.0322265625,
      "learning_rate": 2.422709827975903e-06,
      "loss": 0.0013,
      "reward": 1.6934524774551392,
      "reward_std": 0.2953225076198578,
      "rewards/accuracy_reward": 0.8214285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.87202388048172,
      "step": 169
    },
    {
      "completion_length": 886.3839721679688,
      "epoch": 0.3624733475479744,
      "grad_norm": 0.12657022242065755,
      "kl": 0.02197265625,
      "learning_rate": 2.413880235822205e-06,
      "loss": 0.0009,
      "reward": 1.720238208770752,
      "reward_std": 0.17556405067443848,
      "rewards/accuracy_reward": 0.8571428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8630953431129456,
      "step": 170
    },
    {
      "completion_length": 1110.8660888671875,
      "epoch": 0.3646055437100213,
      "grad_norm": 0.14626190761677013,
      "kl": 0.024658203125,
      "learning_rate": 2.4049999956892328e-06,
      "loss": 0.001,
      "reward": 1.6696430444717407,
      "reward_std": 0.23191116750240326,
      "rewards/accuracy_reward": 0.7857142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8839286863803864,
      "step": 171
    },
    {
      "completion_length": 799.2946472167969,
      "epoch": 0.36673773987206826,
      "grad_norm": 0.15741278958272661,
      "kl": 0.0247802734375,
      "learning_rate": 2.396069599727051e-06,
      "loss": 0.001,
      "reward": 1.7261906266212463,
      "reward_std": 0.18283555656671524,
      "rewards/accuracy_reward": 0.830357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.895833432674408,
      "step": 172
    },
    {
      "completion_length": 1405.4732666015625,
      "epoch": 0.36886993603411516,
      "grad_norm": 0.14906594130324727,
      "kl": 0.031982421875,
      "learning_rate": 2.3870895428654033e-06,
      "loss": 0.0013,
      "reward": 1.5684524774551392,
      "reward_std": 0.2833923250436783,
      "rewards/accuracy_reward": 0.6964285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8720238506793976,
      "step": 173
    },
    {
      "completion_length": 1051.482177734375,
      "epoch": 0.37100213219616207,
      "grad_norm": 0.14485152206780982,
      "kl": 0.0264892578125,
      "learning_rate": 2.3780603227862782e-06,
      "loss": 0.0011,
      "reward": 1.5625001192092896,
      "reward_std": 0.22968532145023346,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.821428656578064,
      "step": 174
    },
    {
      "completion_length": 956.7589721679688,
      "epoch": 0.373134328358209,
      "grad_norm": 0.13896986496310818,
      "kl": 0.0272216796875,
      "learning_rate": 2.3689824398963307e-06,
      "loss": 0.0011,
      "reward": 1.7053572535514832,
      "reward_std": 0.3035230040550232,
      "rewards/accuracy_reward": 0.8214286267757416,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8839286267757416,
      "step": 175
    },
    {
      "completion_length": 1487.1607666015625,
      "epoch": 0.3752665245202559,
      "grad_norm": 0.11676965288929068,
      "kl": 0.032470703125,
      "learning_rate": 2.3598563972991476e-06,
      "loss": 0.0013,
      "reward": 1.517857313156128,
      "reward_std": 0.3088892251253128,
      "rewards/accuracy_reward": 0.6339285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8839285671710968,
      "step": 176
    },
    {
      "completion_length": 1292.6875915527344,
      "epoch": 0.3773987206823028,
      "grad_norm": 0.0873609807701862,
      "kl": 0.029052734375,
      "learning_rate": 2.350682700767365e-06,
      "loss": 0.0012,
      "reward": 1.6607143878936768,
      "reward_std": 0.291501447558403,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.910714328289032,
      "step": 177
    },
    {
      "completion_length": 1377.044677734375,
      "epoch": 0.3795309168443497,
      "grad_norm": 0.15625039480762848,
      "kl": 0.0404052734375,
      "learning_rate": 2.3414618587146394e-06,
      "loss": 0.0016,
      "reward": 1.5446429252624512,
      "reward_std": 0.3877594470977783,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8660714626312256,
      "step": 178
    },
    {
      "completion_length": 1371.9822387695312,
      "epoch": 0.3816631130063966,
      "grad_norm": 0.10754064868112888,
      "kl": 0.03253173828125,
      "learning_rate": 2.3321943821674686e-06,
      "loss": 0.0013,
      "reward": 1.6250001788139343,
      "reward_std": 0.2693508565425873,
      "rewards/accuracy_reward": 0.6696428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.955357164144516,
      "step": 179
    },
    {
      "completion_length": 1111.9732666015625,
      "epoch": 0.3837953091684435,
      "grad_norm": 0.21347434176114857,
      "kl": 0.03759765625,
      "learning_rate": 2.3228807847368733e-06,
      "loss": 0.0015,
      "reward": 1.5863096117973328,
      "reward_std": 0.35960404574871063,
      "rewards/accuracy_reward": 0.7589285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8273810148239136,
      "step": 180
    },
    {
      "completion_length": 1168.1250610351562,
      "epoch": 0.3859275053304904,
      "grad_norm": 0.12382753685886437,
      "kl": 0.02691650390625,
      "learning_rate": 2.3135215825899298e-06,
      "loss": 0.0011,
      "reward": 1.7053572535514832,
      "reward_std": 0.24524134397506714,
      "rewards/accuracy_reward": 0.7946428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9107143580913544,
      "step": 181
    },
    {
      "completion_length": 1192.1250610351562,
      "epoch": 0.3880597014925373,
      "grad_norm": 0.15445096411557757,
      "kl": 0.03143310546875,
      "learning_rate": 2.304117294421165e-06,
      "loss": 0.0013,
      "reward": 1.5982143878936768,
      "reward_std": 0.3228541314601898,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.910714328289032,
      "step": 182
    },
    {
      "completion_length": 1130.0447082519531,
      "epoch": 0.39019189765458423,
      "grad_norm": 0.17544938365827914,
      "kl": 0.0360107421875,
      "learning_rate": 2.294668441423809e-06,
      "loss": 0.0014,
      "reward": 1.6309524774551392,
      "reward_std": 0.26444800198078156,
      "rewards/accuracy_reward": 0.7321428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8988095819950104,
      "step": 183
    },
    {
      "completion_length": 1050.5714721679688,
      "epoch": 0.39232409381663114,
      "grad_norm": 0.11993804551483195,
      "kl": 0.02581787109375,
      "learning_rate": 2.2851755472609112e-06,
      "loss": 0.001,
      "reward": 1.6607144474983215,
      "reward_std": 0.2214297354221344,
      "rewards/accuracy_reward": 0.848214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8125000596046448,
      "step": 184
    },
    {
      "completion_length": 1672.1608276367188,
      "epoch": 0.39445628997867804,
      "grad_norm": 0.14815801108343554,
      "kl": 0.043701171875,
      "learning_rate": 2.2756391380363176e-06,
      "loss": 0.0017,
      "reward": 1.4553571939468384,
      "reward_std": 0.35273824632167816,
      "rewards/accuracy_reward": 0.5714285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8839286267757416,
      "step": 185
    },
    {
      "completion_length": 1225.4554138183594,
      "epoch": 0.39658848614072495,
      "grad_norm": 0.1466566076800738,
      "kl": 0.03936767578125,
      "learning_rate": 2.2660597422655136e-06,
      "loss": 0.0016,
      "reward": 1.6011905670166016,
      "reward_std": 0.1985476091504097,
      "rewards/accuracy_reward": 0.7142857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8869048357009888,
      "step": 186
    },
    {
      "completion_length": 1409.27685546875,
      "epoch": 0.39872068230277186,
      "grad_norm": 0.16194868649787014,
      "kl": 0.0546875,
      "learning_rate": 2.2564378908463343e-06,
      "loss": 0.0022,
      "reward": 1.580357313156128,
      "reward_std": 0.1849236637353897,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375000596046448,
      "step": 187
    },
    {
      "completion_length": 1484.1339721679688,
      "epoch": 0.40085287846481876,
      "grad_norm": 0.13022182959932455,
      "kl": 0.038818359375,
      "learning_rate": 2.24677411702954e-06,
      "loss": 0.0016,
      "reward": 1.4642857909202576,
      "reward_std": 0.4227034002542496,
      "rewards/accuracy_reward": 0.6339285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8303571939468384,
      "step": 188
    },
    {
      "completion_length": 1286.4465026855469,
      "epoch": 0.40298507462686567,
      "grad_norm": 0.11659455098724872,
      "kl": 0.03094482421875,
      "learning_rate": 2.237068956389266e-06,
      "loss": 0.0012,
      "reward": 1.5892858505249023,
      "reward_std": 0.27285589277744293,
      "rewards/accuracy_reward": 0.6964285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.892857164144516,
      "step": 189
    },
    {
      "completion_length": 1534.3929443359375,
      "epoch": 0.4051172707889126,
      "grad_norm": 0.10814230083404758,
      "kl": 0.03997802734375,
      "learning_rate": 2.227322946793337e-06,
      "loss": 0.0016,
      "reward": 1.5744048953056335,
      "reward_std": 0.2034289911389351,
      "rewards/accuracy_reward": 0.660714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9136905670166016,
      "step": 190
    },
    {
      "completion_length": 769.7500305175781,
      "epoch": 0.4072494669509595,
      "grad_norm": 0.1479484623603671,
      "kl": 0.02471923828125,
      "learning_rate": 2.21753662837346e-06,
      "loss": 0.001,
      "reward": 1.720238208770752,
      "reward_std": 0.2247210517525673,
      "rewards/accuracy_reward": 0.9017857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8184524178504944,
      "step": 191
    },
    {
      "completion_length": 980.7589721679688,
      "epoch": 0.4093816631130064,
      "grad_norm": 0.12328793739174856,
      "kl": 0.02349853515625,
      "learning_rate": 2.20771054349529e-06,
      "loss": 0.0009,
      "reward": 1.6755954027175903,
      "reward_std": 0.21394308656454086,
      "rewards/accuracy_reward": 0.7767857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8988096117973328,
      "step": 192
    },
    {
      "completion_length": 945.732177734375,
      "epoch": 0.4115138592750533,
      "grad_norm": 0.17965216126335168,
      "kl": 0.032470703125,
      "learning_rate": 2.197845236728371e-06,
      "loss": 0.0013,
      "reward": 1.696428656578064,
      "reward_std": 0.3708411902189255,
      "rewards/accuracy_reward": 0.8571428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8392857313156128,
      "step": 193
    },
    {
      "completion_length": 1243.1607666015625,
      "epoch": 0.4136460554371002,
      "grad_norm": 0.18722886472409694,
      "kl": 0.0533447265625,
      "learning_rate": 2.187941254815956e-06,
      "loss": 0.0021,
      "reward": 1.5684524178504944,
      "reward_std": 0.3524158149957657,
      "rewards/accuracy_reward": 0.705357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8630952537059784,
      "step": 194
    },
    {
      "completion_length": 1300.3215026855469,
      "epoch": 0.4157782515991471,
      "grad_norm": 0.18882077603954475,
      "kl": 0.03875732421875,
      "learning_rate": 2.1779991466447045e-06,
      "loss": 0.0015,
      "reward": 1.4910715818405151,
      "reward_std": 0.2929614335298538,
      "rewards/accuracy_reward": 0.6517857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8392857313156128,
      "step": 195
    },
    {
      "completion_length": 2191.52685546875,
      "epoch": 0.417910447761194,
      "grad_norm": 0.13888125794418735,
      "kl": 0.0484619140625,
      "learning_rate": 2.168019463214266e-06,
      "loss": 0.0019,
      "reward": 1.443452537059784,
      "reward_std": 0.3877466768026352,
      "rewards/accuracy_reward": 0.5089285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9345238208770752,
      "step": 196
    },
    {
      "completion_length": 1448.9375610351562,
      "epoch": 0.4200426439232409,
      "grad_norm": 0.13691438223964078,
      "kl": 0.040283203125,
      "learning_rate": 2.1580027576067387e-06,
      "loss": 0.0016,
      "reward": 1.4910715818405151,
      "reward_std": 0.33708688616752625,
      "rewards/accuracy_reward": 0.6071428656578064,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.883928656578064,
      "step": 197
    },
    {
      "completion_length": 1153.1339721679688,
      "epoch": 0.42217484008528783,
      "grad_norm": 0.12193846092955547,
      "kl": 0.03839111328125,
      "learning_rate": 2.1479495849560225e-06,
      "loss": 0.0015,
      "reward": 1.5386906266212463,
      "reward_std": 0.21275246143341064,
      "rewards/accuracy_reward": 0.6160714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9226190447807312,
      "step": 198
    },
    {
      "completion_length": 1101.8125610351562,
      "epoch": 0.42430703624733473,
      "grad_norm": 0.14215207315880884,
      "kl": 0.0343017578125,
      "learning_rate": 2.1378605024170477e-06,
      "loss": 0.0014,
      "reward": 1.6815478205680847,
      "reward_std": 0.2633539140224457,
      "rewards/accuracy_reward": 0.7767857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9047619700431824,
      "step": 199
    },
    {
      "completion_length": 1815.0625610351562,
      "epoch": 0.42643923240938164,
      "grad_norm": 0.13320621066555746,
      "kl": 0.05224609375,
      "learning_rate": 2.127736069134901e-06,
      "loss": 0.0021,
      "reward": 1.3958334922790527,
      "reward_std": 0.2813948392868042,
      "rewards/accuracy_reward": 0.5000000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.895833432674408,
      "step": 200
    },
    {
      "completion_length": 889.9643249511719,
      "epoch": 0.42857142857142855,
      "grad_norm": 0.19394057787403982,
      "kl": 0.031494140625,
      "learning_rate": 2.117576846213835e-06,
      "loss": 0.0013,
      "reward": 1.7619048953056335,
      "reward_std": 0.2080945372581482,
      "rewards/accuracy_reward": 0.8750000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8869048058986664,
      "step": 201
    },
    {
      "completion_length": 1053.2947387695312,
      "epoch": 0.43070362473347545,
      "grad_norm": 0.11900897106808464,
      "kl": 0.021728515625,
      "learning_rate": 2.107383396686173e-06,
      "loss": 0.0009,
      "reward": 1.6250001788139343,
      "reward_std": 0.3059679716825485,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464286267757416,
      "step": 202
    },
    {
      "completion_length": 1562.3482666015625,
      "epoch": 0.43283582089552236,
      "grad_norm": 0.1574409003024631,
      "kl": 0.0621337890625,
      "learning_rate": 2.0971562854811047e-06,
      "loss": 0.0025,
      "reward": 1.4404762983322144,
      "reward_std": 0.3610173761844635,
      "rewards/accuracy_reward": 0.5357142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9047619700431824,
      "step": 203
    },
    {
      "completion_length": 995.1875610351562,
      "epoch": 0.4349680170575693,
      "grad_norm": 0.13614923917133892,
      "kl": 0.0272216796875,
      "learning_rate": 2.0868960793933745e-06,
      "loss": 0.0011,
      "reward": 1.7232143878936768,
      "reward_std": 0.24250994622707367,
      "rewards/accuracy_reward": 0.8125000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.910714328289032,
      "step": 204
    },
    {
      "completion_length": 810.7857666015625,
      "epoch": 0.43710021321961623,
      "grad_norm": 0.14352832861092382,
      "kl": 0.036376953125,
      "learning_rate": 2.076603347051875e-06,
      "loss": 0.0015,
      "reward": 1.8035715222358704,
      "reward_std": 0.26105425506830215,
      "rewards/accuracy_reward": 0.8928571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9107143580913544,
      "step": 205
    },
    {
      "completion_length": 1090.044677734375,
      "epoch": 0.43923240938166314,
      "grad_norm": 0.14386125338718495,
      "kl": 0.0361328125,
      "learning_rate": 2.0662786588881275e-06,
      "loss": 0.0014,
      "reward": 1.6011905670166016,
      "reward_std": 0.18270110338926315,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9136905372142792,
      "step": 206
    },
    {
      "completion_length": 1665.3660888671875,
      "epoch": 0.44136460554371004,
      "grad_norm": 0.09846733994680718,
      "kl": 0.0361328125,
      "learning_rate": 2.0559225871046738e-06,
      "loss": 0.0014,
      "reward": 1.6190477013587952,
      "reward_std": 0.2768716514110565,
      "rewards/accuracy_reward": 0.6607142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "step": 207
    },
    {
      "completion_length": 1358.1339721679688,
      "epoch": 0.44349680170575695,
      "grad_norm": 0.10823124179400646,
      "kl": 0.0447998046875,
      "learning_rate": 2.045535705643358e-06,
      "loss": 0.0018,
      "reward": 1.6428571939468384,
      "reward_std": 0.26139702647924423,
      "rewards/accuracy_reward": 0.7142857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9285714328289032,
      "step": 208
    },
    {
      "completion_length": 1755.3572387695312,
      "epoch": 0.44562899786780386,
      "grad_norm": 0.09781546818387855,
      "kl": 0.0460205078125,
      "learning_rate": 2.0351185901535227e-06,
      "loss": 0.0018,
      "reward": 1.532738208770752,
      "reward_std": 0.369817778468132,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9077381193637848,
      "step": 209
    },
    {
      "completion_length": 1201.982177734375,
      "epoch": 0.44776119402985076,
      "grad_norm": 0.14057660575921935,
      "kl": 0.0325927734375,
      "learning_rate": 2.0246718179601055e-06,
      "loss": 0.0013,
      "reward": 1.6845239400863647,
      "reward_std": 0.26169511675834656,
      "rewards/accuracy_reward": 0.7142857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9702381789684296,
      "step": 210
    },
    {
      "completion_length": 1293.8214721679688,
      "epoch": 0.44989339019189767,
      "grad_norm": 0.14764489932703093,
      "kl": 0.0322265625,
      "learning_rate": 2.014195968031641e-06,
      "loss": 0.0013,
      "reward": 1.5773810744285583,
      "reward_std": 0.30484169721603394,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.889881044626236,
      "step": 211
    },
    {
      "completion_length": 826.2589416503906,
      "epoch": 0.4520255863539446,
      "grad_norm": 0.1313507376829412,
      "kl": 0.02740478515625,
      "learning_rate": 2.003691620948176e-06,
      "loss": 0.0011,
      "reward": 1.7232143878936768,
      "reward_std": 0.2237681895494461,
      "rewards/accuracy_reward": 0.8214285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9017857611179352,
      "step": 212
    },
    {
      "completion_length": 1533.9732666015625,
      "epoch": 0.4541577825159915,
      "grad_norm": 0.1367148753560789,
      "kl": 0.03857421875,
      "learning_rate": 1.993159358869093e-06,
      "loss": 0.0015,
      "reward": 1.5416667461395264,
      "reward_std": 0.20068277418613434,
      "rewards/accuracy_reward": 0.6517857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.889881044626236,
      "step": 213
    },
    {
      "completion_length": 1256.919677734375,
      "epoch": 0.4562899786780384,
      "grad_norm": 0.13453988997610022,
      "kl": 0.0447998046875,
      "learning_rate": 1.9825997655008457e-06,
      "loss": 0.0018,
      "reward": 1.6875000596046448,
      "reward_std": 0.17740774899721146,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375000298023224,
      "step": 214
    },
    {
      "completion_length": 865.8928833007812,
      "epoch": 0.4584221748400853,
      "grad_norm": 0.1521551920034723,
      "kl": 0.0260009765625,
      "learning_rate": 1.9720134260646093e-06,
      "loss": 0.001,
      "reward": 1.6398810744285583,
      "reward_std": 0.2674245461821556,
      "rewards/accuracy_reward": 0.7321428656578064,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9077381491661072,
      "step": 215
    },
    {
      "completion_length": 1225.732177734375,
      "epoch": 0.4605543710021322,
      "grad_norm": 0.15992687073791476,
      "kl": 0.03564453125,
      "learning_rate": 1.9614009272638483e-06,
      "loss": 0.0014,
      "reward": 1.6011906862258911,
      "reward_std": 0.29304975271224976,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9136905372142792,
      "step": 216
    },
    {
      "completion_length": 1237.7500610351562,
      "epoch": 0.4626865671641791,
      "grad_norm": 0.13620891337211982,
      "kl": 0.02734375,
      "learning_rate": 1.9507628572518003e-06,
      "loss": 0.0011,
      "reward": 1.5386905670166016,
      "reward_std": 0.3156110495328903,
      "rewards/accuracy_reward": 0.6160714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9226190745830536,
      "step": 217
    },
    {
      "completion_length": 725.1786193847656,
      "epoch": 0.464818763326226,
      "grad_norm": 0.14522938555988527,
      "kl": 0.0322265625,
      "learning_rate": 1.9400998055988797e-06,
      "loss": 0.0013,
      "reward": 1.8273811340332031,
      "reward_std": 0.27639400213956833,
      "rewards/accuracy_reward": 0.8928571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.93452388048172,
      "step": 218
    },
    {
      "completion_length": 1183.8929443359375,
      "epoch": 0.4669509594882729,
      "grad_norm": 0.1410923649140446,
      "kl": 0.03509521484375,
      "learning_rate": 1.9294123632600037e-06,
      "loss": 0.0014,
      "reward": 1.55654776096344,
      "reward_std": 0.23864730447530746,
      "rewards/accuracy_reward": 0.6339285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9226191341876984,
      "step": 219
    },
    {
      "completion_length": 1052.1250610351562,
      "epoch": 0.4690831556503198,
      "grad_norm": 0.1340233669577213,
      "kl": 0.0360107421875,
      "learning_rate": 1.9187011225418415e-06,
      "loss": 0.0014,
      "reward": 1.6875000596046448,
      "reward_std": 0.22216517478227615,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464285969734192,
      "step": 220
    },
    {
      "completion_length": 1072.65185546875,
      "epoch": 0.47121535181236673,
      "grad_norm": 0.13131584795218754,
      "kl": 0.03179931640625,
      "learning_rate": 1.907966677069986e-06,
      "loss": 0.0013,
      "reward": 1.7023810744285583,
      "reward_std": 0.28471318632364273,
      "rewards/accuracy_reward": 0.8125000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8898810148239136,
      "step": 221
    },
    {
      "completion_length": 1105.6160888671875,
      "epoch": 0.47334754797441364,
      "grad_norm": 0.13349010097165195,
      "kl": 0.036376953125,
      "learning_rate": 1.8972096217560587e-06,
      "loss": 0.0015,
      "reward": 1.630952537059784,
      "reward_std": 0.35798773169517517,
      "rewards/accuracy_reward": 0.7767857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.854166716337204,
      "step": 222
    },
    {
      "completion_length": 1658.08935546875,
      "epoch": 0.47547974413646055,
      "grad_norm": 0.1313497637053602,
      "kl": 0.0625,
      "learning_rate": 1.886430552764735e-06,
      "loss": 0.0025,
      "reward": 1.595238208770752,
      "reward_std": 0.19404470175504684,
      "rewards/accuracy_reward": 0.6607142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9345239102840424,
      "step": 223
    },
    {
      "completion_length": 1536.90185546875,
      "epoch": 0.47761194029850745,
      "grad_norm": 0.13869083403051397,
      "kl": 0.06201171875,
      "learning_rate": 1.8756300674807064e-06,
      "loss": 0.0025,
      "reward": 1.5386906266212463,
      "reward_std": 0.21386030316352844,
      "rewards/accuracy_reward": 0.6071428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315476715564728,
      "step": 224
    },
    {
      "completion_length": 1239.4553833007812,
      "epoch": 0.47974413646055436,
      "grad_norm": 0.13177734380297848,
      "kl": 0.040283203125,
      "learning_rate": 1.8648087644755727e-06,
      "loss": 0.0016,
      "reward": 1.5803571939468384,
      "reward_std": 0.44632141292095184,
      "rewards/accuracy_reward": 0.6696428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.910714328289032,
      "step": 225
    },
    {
      "completion_length": 1319.2678833007812,
      "epoch": 0.48187633262260127,
      "grad_norm": 0.15696552624004592,
      "kl": 0.0384521484375,
      "learning_rate": 1.8539672434746695e-06,
      "loss": 0.0015,
      "reward": 1.4761905074119568,
      "reward_std": 0.3276621699333191,
      "rewards/accuracy_reward": 0.5535714477300644,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.922619104385376,
      "step": 226
    },
    {
      "completion_length": 1092.6250610351562,
      "epoch": 0.4840085287846482,
      "grad_norm": 0.13754707355963405,
      "kl": 0.0301513671875,
      "learning_rate": 1.8431061053238275e-06,
      "loss": 0.0012,
      "reward": 1.6517858505249023,
      "reward_std": 0.25230662524700165,
      "rewards/accuracy_reward": 0.785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8660714328289032,
      "step": 227
    },
    {
      "completion_length": 1183.3661193847656,
      "epoch": 0.4861407249466951,
      "grad_norm": 0.1202407893805198,
      "kl": 0.0274658203125,
      "learning_rate": 1.832225951956079e-06,
      "loss": 0.0011,
      "reward": 1.6904762983322144,
      "reward_std": 0.25201524049043655,
      "rewards/accuracy_reward": 0.7321428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "step": 228
    },
    {
      "completion_length": 1144.3125610351562,
      "epoch": 0.488272921108742,
      "grad_norm": 0.16221374846684403,
      "kl": 0.0377197265625,
      "learning_rate": 1.8213273863582918e-06,
      "loss": 0.0015,
      "reward": 1.5684524774551392,
      "reward_std": 0.3636120408773422,
      "rewards/accuracy_reward": 0.6517857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9166667461395264,
      "step": 229
    },
    {
      "completion_length": 1097.982177734375,
      "epoch": 0.4904051172707889,
      "grad_norm": 0.1296595948514835,
      "kl": 0.030517578125,
      "learning_rate": 1.8104110125377569e-06,
      "loss": 0.0012,
      "reward": 1.720238208770752,
      "reward_std": 0.21355750411748886,
      "rewards/accuracy_reward": 0.7857142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9345239102840424,
      "step": 230
    },
    {
      "completion_length": 1463.0000610351562,
      "epoch": 0.4925373134328358,
      "grad_norm": 0.10447488644041192,
      "kl": 0.0357666015625,
      "learning_rate": 1.7994774354887095e-06,
      "loss": 0.0014,
      "reward": 1.6458334922790527,
      "reward_std": 0.20884304493665695,
      "rewards/accuracy_reward": 0.6696428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9761905074119568,
      "step": 231
    },
    {
      "completion_length": 961.7232666015625,
      "epoch": 0.4946695095948827,
      "grad_norm": 0.1103336975542664,
      "kl": 0.030517578125,
      "learning_rate": 1.7885272611588032e-06,
      "loss": 0.0012,
      "reward": 1.657738208770752,
      "reward_std": 0.24157967418432236,
      "rewards/accuracy_reward": 0.785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.87202388048172,
      "step": 232
    },
    {
      "completion_length": 1314.2678833007812,
      "epoch": 0.4968017057569296,
      "grad_norm": 0.13276823826920633,
      "kl": 0.0445556640625,
      "learning_rate": 1.7775610964155246e-06,
      "loss": 0.0018,
      "reward": 1.6398810148239136,
      "reward_std": 0.30527733266353607,
      "rewards/accuracy_reward": 0.705357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9345238506793976,
      "step": 233
    },
    {
      "completion_length": 1386.6786499023438,
      "epoch": 0.4989339019189765,
      "grad_norm": 0.12520967671578292,
      "kl": 0.0401611328125,
      "learning_rate": 1.7665795490125628e-06,
      "loss": 0.0016,
      "reward": 1.5029762983322144,
      "reward_std": 0.2754606753587723,
      "rewards/accuracy_reward": 0.5535714477300644,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9494048357009888,
      "step": 234
    },
    {
      "completion_length": 1257.1339721679688,
      "epoch": 0.5010660980810234,
      "grad_norm": 0.10571756225370639,
      "kl": 0.0341796875,
      "learning_rate": 1.7555832275561267e-06,
      "loss": 0.0014,
      "reward": 1.7291667461395264,
      "reward_std": 0.20035482197999954,
      "rewards/accuracy_reward": 0.7767857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9523809850215912,
      "step": 235
    },
    {
      "completion_length": 1641.2232666015625,
      "epoch": 0.5031982942430704,
      "grad_norm": 0.1410529056974932,
      "kl": 0.03863525390625,
      "learning_rate": 1.7445727414712143e-06,
      "loss": 0.0015,
      "reward": 1.4970239400863647,
      "reward_std": 0.30114057660102844,
      "rewards/accuracy_reward": 0.5982142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8988096117973328,
      "step": 236
    },
    {
      "completion_length": 1315.357177734375,
      "epoch": 0.5053304904051172,
      "grad_norm": 0.13900745333651954,
      "kl": 0.0374755859375,
      "learning_rate": 1.7335487009678392e-06,
      "loss": 0.0015,
      "reward": 1.583333432674408,
      "reward_std": 0.3546690344810486,
      "rewards/accuracy_reward": 0.6607142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.922619104385376,
      "step": 237
    },
    {
      "completion_length": 1394.9107666015625,
      "epoch": 0.5074626865671642,
      "grad_norm": 0.13243409719881816,
      "kl": 0.036865234375,
      "learning_rate": 1.7225117170072113e-06,
      "loss": 0.0015,
      "reward": 1.607142984867096,
      "reward_std": 0.2215317338705063,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.919642984867096,
      "step": 238
    },
    {
      "completion_length": 1573.0625610351562,
      "epoch": 0.509594882729211,
      "grad_norm": 0.0873564042782907,
      "kl": 0.04156494140625,
      "learning_rate": 1.7114624012678788e-06,
      "loss": 0.0017,
      "reward": 1.6011905074119568,
      "reward_std": 0.2528657466173172,
      "rewards/accuracy_reward": 0.6696428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.931547611951828,
      "step": 239
    },
    {
      "completion_length": 852.9107360839844,
      "epoch": 0.511727078891258,
      "grad_norm": 0.12638770378936462,
      "kl": 0.02490234375,
      "learning_rate": 1.7004013661118244e-06,
      "loss": 0.001,
      "reward": 1.6339287161827087,
      "reward_std": 0.2431677132844925,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8928572237491608,
      "step": 240
    },
    {
      "completion_length": 1267.8036193847656,
      "epoch": 0.5138592750533049,
      "grad_norm": 0.15030750185013256,
      "kl": 0.037109375,
      "learning_rate": 1.689329224550533e-06,
      "loss": 0.0015,
      "reward": 1.633928656578064,
      "reward_std": 0.3783131092786789,
      "rewards/accuracy_reward": 0.7142857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9196428954601288,
      "step": 241
    },
    {
      "completion_length": 1946.2769165039062,
      "epoch": 0.5159914712153518,
      "grad_norm": 0.15578871098445377,
      "kl": 0.0985107421875,
      "learning_rate": 1.6782465902110138e-06,
      "loss": 0.0039,
      "reward": 1.470238208770752,
      "reward_std": 0.2373259961605072,
      "rewards/accuracy_reward": 0.5357143133878708,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9345239102840424,
      "step": 242
    },
    {
      "completion_length": 916.3035888671875,
      "epoch": 0.5181236673773987,
      "grad_norm": 0.14850623822326492,
      "kl": 0.03179931640625,
      "learning_rate": 1.6671540773017952e-06,
      "loss": 0.0013,
      "reward": 1.648809552192688,
      "reward_std": 0.2565556615591049,
      "rewards/accuracy_reward": 0.7678571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8809524774551392,
      "step": 243
    },
    {
      "completion_length": 1371.27685546875,
      "epoch": 0.5202558635394456,
      "grad_norm": 0.11666209550518883,
      "kl": 0.0537109375,
      "learning_rate": 1.6560523005788832e-06,
      "loss": 0.0022,
      "reward": 1.5982144474983215,
      "reward_std": 0.2750514820218086,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9553571939468384,
      "step": 244
    },
    {
      "completion_length": 1155.6697387695312,
      "epoch": 0.5223880597014925,
      "grad_norm": 0.2069102177684734,
      "kl": 0.0379638671875,
      "learning_rate": 1.6449418753116917e-06,
      "loss": 0.0015,
      "reward": 1.657738208770752,
      "reward_std": 0.42612889409065247,
      "rewards/accuracy_reward": 0.7589285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8988095819950104,
      "step": 245
    },
    {
      "completion_length": 1090.6339721679688,
      "epoch": 0.5245202558635395,
      "grad_norm": 0.12162933441492509,
      "kl": 0.02911376953125,
      "learning_rate": 1.6338234172489443e-06,
      "loss": 0.0012,
      "reward": 1.6696429252624512,
      "reward_std": 0.25411921739578247,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464286267757416,
      "step": 246
    },
    {
      "completion_length": 1265.8304443359375,
      "epoch": 0.5266524520255863,
      "grad_norm": 0.12460998219369009,
      "kl": 0.0423583984375,
      "learning_rate": 1.6226975425845488e-06,
      "loss": 0.0017,
      "reward": 1.5744048953056335,
      "reward_std": 0.287114679813385,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.949404776096344,
      "step": 247
    },
    {
      "completion_length": 1127.482177734375,
      "epoch": 0.5287846481876333,
      "grad_norm": 0.11999672217889887,
      "kl": 0.03814697265625,
      "learning_rate": 1.6115648679234468e-06,
      "loss": 0.0015,
      "reward": 1.720238208770752,
      "reward_std": 0.2920038104057312,
      "rewards/accuracy_reward": 0.7946428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9255953431129456,
      "step": 248
    },
    {
      "completion_length": 1071.3036193847656,
      "epoch": 0.5309168443496801,
      "grad_norm": 0.14774514751131324,
      "kl": 0.0364990234375,
      "learning_rate": 1.6004260102474408e-06,
      "loss": 0.0015,
      "reward": 1.6785715818405151,
      "reward_std": 0.2558442950248718,
      "rewards/accuracy_reward": 0.7589285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9196429252624512,
      "step": 249
    },
    {
      "completion_length": 1505.02685546875,
      "epoch": 0.5330490405117271,
      "grad_norm": 0.11849998682768462,
      "kl": 0.0430908203125,
      "learning_rate": 1.5892815868810014e-06,
      "loss": 0.0017,
      "reward": 1.5416667461395264,
      "reward_std": 0.2611609846353531,
      "rewards/accuracy_reward": 0.6160714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9255953133106232,
      "step": 250
    },
    {
      "completion_length": 1346.9910888671875,
      "epoch": 0.535181236673774,
      "grad_norm": 0.15300085764409654,
      "kl": 0.0419921875,
      "learning_rate": 1.5781322154570548e-06,
      "loss": 0.0017,
      "reward": 1.5416667461395264,
      "reward_std": 0.2866556644439697,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.898809552192688,
      "step": 251
    },
    {
      "completion_length": 1478.52685546875,
      "epoch": 0.5373134328358209,
      "grad_norm": 0.12282862508093974,
      "kl": 0.042236328125,
      "learning_rate": 1.5669785138827513e-06,
      "loss": 0.0017,
      "reward": 1.6279762983322144,
      "reward_std": 0.266901895403862,
      "rewards/accuracy_reward": 0.6964286267757416,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315476715564728,
      "step": 252
    },
    {
      "completion_length": 1024.8929138183594,
      "epoch": 0.5394456289978679,
      "grad_norm": 0.15372307791892473,
      "kl": 0.0419921875,
      "learning_rate": 1.5558211003052223e-06,
      "loss": 0.0017,
      "reward": 1.7500001192092896,
      "reward_std": 0.2297554612159729,
      "rewards/accuracy_reward": 0.7946428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9553572237491608,
      "step": 253
    },
    {
      "completion_length": 1265.4375610351562,
      "epoch": 0.5415778251599147,
      "grad_norm": 0.20421587746841124,
      "kl": 0.038330078125,
      "learning_rate": 1.5446605930773215e-06,
      "loss": 0.0015,
      "reward": 1.6547620296478271,
      "reward_std": 0.27190451323986053,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315476417541504,
      "step": 254
    },
    {
      "completion_length": 954.3929138183594,
      "epoch": 0.5437100213219617,
      "grad_norm": 0.1261437166849143,
      "kl": 0.0289306640625,
      "learning_rate": 1.5334976107233556e-06,
      "loss": 0.0012,
      "reward": 1.7797620296478271,
      "reward_std": 0.26373956352472305,
      "rewards/accuracy_reward": 0.848214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315476715564728,
      "step": 255
    },
    {
      "completion_length": 743.982177734375,
      "epoch": 0.5458422174840085,
      "grad_norm": 0.17297002201589576,
      "kl": 0.0347900390625,
      "learning_rate": 1.5223327719048027e-06,
      "loss": 0.0014,
      "reward": 1.708333432674408,
      "reward_std": 0.22732830047607422,
      "rewards/accuracy_reward": 0.8035714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.90476194024086,
      "step": 256
    },
    {
      "completion_length": 2090.6876220703125,
      "epoch": 0.5479744136460555,
      "grad_norm": 0.493377450357997,
      "kl": 0.225830078125,
      "learning_rate": 1.511166695386031e-06,
      "loss": 0.0091,
      "reward": 1.3303572535514832,
      "reward_std": 0.3155038505792618,
      "rewards/accuracy_reward": 0.455357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8750000596046448,
      "step": 257
    },
    {
      "completion_length": 998.6340026855469,
      "epoch": 0.5501066098081023,
      "grad_norm": 0.1218644621403974,
      "kl": 0.0301513671875,
      "learning_rate": 1.5e-06,
      "loss": 0.0012,
      "reward": 1.7380953431129456,
      "reward_std": 0.27773067355155945,
      "rewards/accuracy_reward": 0.848214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8898810148239136,
      "step": 258
    },
    {
      "completion_length": 1194.6875610351562,
      "epoch": 0.5522388059701493,
      "grad_norm": 0.1298845806704854,
      "kl": 0.0335693359375,
      "learning_rate": 1.4888333046139694e-06,
      "loss": 0.0013,
      "reward": 1.583333432674408,
      "reward_std": 0.36205314099788666,
      "rewards/accuracy_reward": 0.7232142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.860119104385376,
      "step": 259
    },
    {
      "completion_length": 1159.8929138183594,
      "epoch": 0.5543710021321961,
      "grad_norm": 0.11916777926100809,
      "kl": 0.02813720703125,
      "learning_rate": 1.477667228095197e-06,
      "loss": 0.0011,
      "reward": 1.7678572535514832,
      "reward_std": 0.29690539091825485,
      "rewards/accuracy_reward": 0.8214286267757416,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.946428656578064,
      "step": 260
    },
    {
      "completion_length": 1695.259033203125,
      "epoch": 0.5565031982942431,
      "grad_norm": 0.17040647358335148,
      "kl": 0.06298828125,
      "learning_rate": 1.4665023892766447e-06,
      "loss": 0.0025,
      "reward": 1.3928571939468384,
      "reward_std": 0.2581215351819992,
      "rewards/accuracy_reward": 0.4910714477300644,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.90178582072258,
      "step": 261
    },
    {
      "completion_length": 936.3125305175781,
      "epoch": 0.55863539445629,
      "grad_norm": 0.20209415608536654,
      "kl": 0.04083251953125,
      "learning_rate": 1.4553394069226786e-06,
      "loss": 0.0016,
      "reward": 1.7916667461395264,
      "reward_std": 0.20067217200994492,
      "rewards/accuracy_reward": 0.848214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9434525072574615,
      "step": 262
    },
    {
      "completion_length": 1039.9375305175781,
      "epoch": 0.5607675906183369,
      "grad_norm": 0.14218648518618457,
      "kl": 0.03106689453125,
      "learning_rate": 1.444178899694778e-06,
      "loss": 0.0012,
      "reward": 1.7470239400863647,
      "reward_std": 0.31789839267730713,
      "rewards/accuracy_reward": 0.8392857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9077381491661072,
      "step": 263
    },
    {
      "completion_length": 861.232177734375,
      "epoch": 0.5628997867803838,
      "grad_norm": 0.137921627716378,
      "kl": 0.03131103515625,
      "learning_rate": 1.4330214861172487e-06,
      "loss": 0.0013,
      "reward": 1.7440477013587952,
      "reward_std": 0.22818148136138916,
      "rewards/accuracy_reward": 0.8660714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8779763281345367,
      "step": 264
    },
    {
      "completion_length": 1441.7232666015625,
      "epoch": 0.5650319829424307,
      "grad_norm": 0.12062303339995169,
      "kl": 0.042724609375,
      "learning_rate": 1.4218677845429455e-06,
      "loss": 0.0017,
      "reward": 1.5803571939468384,
      "reward_std": 0.2801452577114105,
      "rewards/accuracy_reward": 0.6517857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.928571492433548,
      "step": 265
    },
    {
      "completion_length": 1045.4107666015625,
      "epoch": 0.5671641791044776,
      "grad_norm": 0.10347544664259314,
      "kl": 0.03033447265625,
      "learning_rate": 1.410718413118999e-06,
      "loss": 0.0012,
      "reward": 1.767857313156128,
      "reward_std": 0.2563594616949558,
      "rewards/accuracy_reward": 0.8125000596046448,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9553571939468384,
      "step": 266
    },
    {
      "completion_length": 837.1339721679688,
      "epoch": 0.5692963752665245,
      "grad_norm": 0.12753315918078648,
      "kl": 0.0301513671875,
      "learning_rate": 1.3995739897525592e-06,
      "loss": 0.0012,
      "reward": 1.7440478205680847,
      "reward_std": 0.28018371760845184,
      "rewards/accuracy_reward": 0.8839285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.860119104385376,
      "step": 267
    },
    {
      "completion_length": 1110.2322082519531,
      "epoch": 0.5714285714285714,
      "grad_norm": 0.18226543562093087,
      "kl": 0.037109375,
      "learning_rate": 1.3884351320765534e-06,
      "loss": 0.0015,
      "reward": 1.5029762387275696,
      "reward_std": 0.4101780951023102,
      "rewards/accuracy_reward": 0.7142857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7886905074119568,
      "step": 268
    },
    {
      "completion_length": 1175.1697082519531,
      "epoch": 0.5735607675906184,
      "grad_norm": 0.13202964215005078,
      "kl": 0.039306640625,
      "learning_rate": 1.3773024574154515e-06,
      "loss": 0.0016,
      "reward": 1.5386905670166016,
      "reward_std": 0.2827586382627487,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9136905074119568,
      "step": 269
    },
    {
      "completion_length": 1280.08935546875,
      "epoch": 0.5756929637526652,
      "grad_norm": 0.1463028280010102,
      "kl": 0.042724609375,
      "learning_rate": 1.3661765827510562e-06,
      "loss": 0.0017,
      "reward": 1.6458334922790527,
      "reward_std": 0.28385498374700546,
      "rewards/accuracy_reward": 0.7232142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9226190745830536,
      "step": 270
    },
    {
      "completion_length": 1637.1964721679688,
      "epoch": 0.5778251599147122,
      "grad_norm": 0.12493734564278242,
      "kl": 0.044677734375,
      "learning_rate": 1.3550581246883084e-06,
      "loss": 0.0018,
      "reward": 1.3809524774551392,
      "reward_std": 0.3128320872783661,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9434524178504944,
      "step": 271
    },
    {
      "completion_length": 942.7857360839844,
      "epoch": 0.579957356076759,
      "grad_norm": 0.11294701904006466,
      "kl": 0.02777099609375,
      "learning_rate": 1.3439476994211171e-06,
      "loss": 0.0011,
      "reward": 1.6369048357009888,
      "reward_std": 0.2524035796523094,
      "rewards/accuracy_reward": 0.7053571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315476417541504,
      "step": 272
    },
    {
      "completion_length": 1143.3661499023438,
      "epoch": 0.582089552238806,
      "grad_norm": 0.13644101990949595,
      "kl": 0.03338623046875,
      "learning_rate": 1.3328459226982051e-06,
      "loss": 0.0013,
      "reward": 1.645833432674408,
      "reward_std": 0.34698250889778137,
      "rewards/accuracy_reward": 0.7589285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8869048357009888,
      "step": 273
    },
    {
      "completion_length": 1371.8482666015625,
      "epoch": 0.5842217484008528,
      "grad_norm": 0.11846287674003973,
      "kl": 0.03363037109375,
      "learning_rate": 1.3217534097889865e-06,
      "loss": 0.0013,
      "reward": 1.669642984867096,
      "reward_std": 0.360143817961216,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464285969734192,
      "step": 274
    },
    {
      "completion_length": 1397.4910888671875,
      "epoch": 0.5863539445628998,
      "grad_norm": 0.09183680223404596,
      "kl": 0.035888671875,
      "learning_rate": 1.310670775449467e-06,
      "loss": 0.0014,
      "reward": 1.654762089252472,
      "reward_std": 0.20924697816371918,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.96726194024086,
      "step": 275
    },
    {
      "completion_length": 1565.5982666015625,
      "epoch": 0.5884861407249466,
      "grad_norm": 0.11260766537122707,
      "kl": 0.0360107421875,
      "learning_rate": 1.2995986338881757e-06,
      "loss": 0.0014,
      "reward": 1.5178571939468384,
      "reward_std": 0.32358796894550323,
      "rewards/accuracy_reward": 0.5714285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464285969734192,
      "step": 276
    },
    {
      "completion_length": 749.544677734375,
      "epoch": 0.5906183368869936,
      "grad_norm": 0.15612915342993317,
      "kl": 0.0321044921875,
      "learning_rate": 1.2885375987321222e-06,
      "loss": 0.0013,
      "reward": 1.7648810744285583,
      "reward_std": 0.26617763936519623,
      "rewards/accuracy_reward": 0.9017857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8630953133106232,
      "step": 277
    },
    {
      "completion_length": 1077.1250305175781,
      "epoch": 0.5927505330490405,
      "grad_norm": 0.11482297364596955,
      "kl": 0.0372314453125,
      "learning_rate": 1.2774882829927886e-06,
      "loss": 0.0015,
      "reward": 1.693452537059784,
      "reward_std": 0.1889224275946617,
      "rewards/accuracy_reward": 0.767857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9255952537059784,
      "step": 278
    },
    {
      "completion_length": 1559.0982666015625,
      "epoch": 0.5948827292110874,
      "grad_norm": 0.1219574343416616,
      "kl": 0.044921875,
      "learning_rate": 1.2664512990321611e-06,
      "loss": 0.0018,
      "reward": 1.68154776096344,
      "reward_std": 0.22186339646577835,
      "rewards/accuracy_reward": 0.7321428656578064,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9494048357009888,
      "step": 279
    },
    {
      "completion_length": 1752.2054443359375,
      "epoch": 0.5970149253731343,
      "grad_norm": 0.1435477689602166,
      "kl": 0.0460205078125,
      "learning_rate": 1.2554272585287862e-06,
      "loss": 0.0018,
      "reward": 1.4940477013587952,
      "reward_std": 0.3627081513404846,
      "rewards/accuracy_reward": 0.5625000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315476417541504,
      "step": 280
    },
    {
      "completion_length": 1471.6607666015625,
      "epoch": 0.5991471215351812,
      "grad_norm": 0.13460643839555783,
      "kl": 0.0440673828125,
      "learning_rate": 1.244416772443874e-06,
      "loss": 0.0018,
      "reward": 1.5386905670166016,
      "reward_std": 0.3618791103363037,
      "rewards/accuracy_reward": 0.6607142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.877976268529892,
      "step": 281
    },
    {
      "completion_length": 1205.3214721679688,
      "epoch": 0.6012793176972282,
      "grad_norm": 0.13028015618629238,
      "kl": 0.040771484375,
      "learning_rate": 1.2334204509874373e-06,
      "loss": 0.0016,
      "reward": 1.6934524178504944,
      "reward_std": 0.2705199867486954,
      "rewards/accuracy_reward": 0.7321428656578064,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.961309552192688,
      "step": 282
    },
    {
      "completion_length": 1284.6339721679688,
      "epoch": 0.603411513859275,
      "grad_norm": 0.22048029299691663,
      "kl": 0.049072265625,
      "learning_rate": 1.2224389035844757e-06,
      "loss": 0.002,
      "reward": 1.6041667461395264,
      "reward_std": 0.29733674973249435,
      "rewards/accuracy_reward": 0.705357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8988095819950104,
      "step": 283
    },
    {
      "completion_length": 1004.4375610351562,
      "epoch": 0.605543710021322,
      "grad_norm": 0.1970888940625973,
      "kl": 0.0499267578125,
      "learning_rate": 1.2114727388411973e-06,
      "loss": 0.002,
      "reward": 1.6726191639900208,
      "reward_std": 0.1617276445031166,
      "rewards/accuracy_reward": 0.7321428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9404762089252472,
      "step": 284
    },
    {
      "completion_length": 1326.732177734375,
      "epoch": 0.6076759061833689,
      "grad_norm": 0.18072434411907168,
      "kl": 0.0489501953125,
      "learning_rate": 1.2005225645112906e-06,
      "loss": 0.002,
      "reward": 1.5446430444717407,
      "reward_std": 0.30309489369392395,
      "rewards/accuracy_reward": 0.5892857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9553571343421936,
      "step": 285
    },
    {
      "completion_length": 1430.4107666015625,
      "epoch": 0.6098081023454158,
      "grad_norm": 0.12764571889048212,
      "kl": 0.0501708984375,
      "learning_rate": 1.1895889874622432e-06,
      "loss": 0.002,
      "reward": 1.5000001192092896,
      "reward_std": 0.3255736529827118,
      "rewards/accuracy_reward": 0.6517857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8482142984867096,
      "step": 286
    },
    {
      "completion_length": 1621.8482666015625,
      "epoch": 0.6119402985074627,
      "grad_norm": 0.11860417182383699,
      "kl": 0.046875,
      "learning_rate": 1.1786726136417083e-06,
      "loss": 0.0019,
      "reward": 1.5267858505249023,
      "reward_std": 0.2720203250646591,
      "rewards/accuracy_reward": 0.5982142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9285714626312256,
      "step": 287
    },
    {
      "completion_length": 1118.7232666015625,
      "epoch": 0.6140724946695096,
      "grad_norm": 0.1413483184373263,
      "kl": 0.02978515625,
      "learning_rate": 1.1677740480439218e-06,
      "loss": 0.0012,
      "reward": 1.645833432674408,
      "reward_std": 0.35935135185718536,
      "rewards/accuracy_reward": 0.7767857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.869047611951828,
      "step": 288
    },
    {
      "completion_length": 1807.6428833007812,
      "epoch": 0.6162046908315565,
      "grad_norm": 0.12555270498764995,
      "kl": 0.0467529296875,
      "learning_rate": 1.1568938946761726e-06,
      "loss": 0.0019,
      "reward": 1.532738208770752,
      "reward_std": 0.34981586039066315,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9077381491661072,
      "step": 289
    },
    {
      "completion_length": 1133.669677734375,
      "epoch": 0.6183368869936035,
      "grad_norm": 0.09690315150358902,
      "kl": 0.0408935546875,
      "learning_rate": 1.1460327565253308e-06,
      "loss": 0.0016,
      "reward": 1.7410715222358704,
      "reward_std": 0.20596107095479965,
      "rewards/accuracy_reward": 0.7946428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464285671710968,
      "step": 290
    },
    {
      "completion_length": 904.8035888671875,
      "epoch": 0.6204690831556503,
      "grad_norm": 0.1493934523962931,
      "kl": 0.03240966796875,
      "learning_rate": 1.1351912355244273e-06,
      "loss": 0.0013,
      "reward": 1.7083334922790527,
      "reward_std": 0.3852698504924774,
      "rewards/accuracy_reward": 0.8392857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8690477013587952,
      "step": 291
    },
    {
      "completion_length": 680.857177734375,
      "epoch": 0.6226012793176973,
      "grad_norm": 0.2149336707144881,
      "kl": 0.02923583984375,
      "learning_rate": 1.1243699325192936e-06,
      "loss": 0.0012,
      "reward": 1.6220239400863647,
      "reward_std": 0.29434096813201904,
      "rewards/accuracy_reward": 0.7767857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8452381193637848,
      "step": 292
    },
    {
      "completion_length": 1336.3125610351562,
      "epoch": 0.6247334754797441,
      "grad_norm": 0.12265737631567608,
      "kl": 0.037109375,
      "learning_rate": 1.1135694472352654e-06,
      "loss": 0.0015,
      "reward": 1.6458334922790527,
      "reward_std": 0.21428977698087692,
      "rewards/accuracy_reward": 0.7232142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9226190745830536,
      "step": 293
    },
    {
      "completion_length": 845.919677734375,
      "epoch": 0.6268656716417911,
      "grad_norm": 0.11631500000292745,
      "kl": 0.02935791015625,
      "learning_rate": 1.1027903782439413e-06,
      "loss": 0.0012,
      "reward": 1.848214328289032,
      "reward_std": 0.20294971019029617,
      "rewards/accuracy_reward": 0.910714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375000298023224,
      "step": 294
    },
    {
      "completion_length": 1668.7857666015625,
      "epoch": 0.6289978678038379,
      "grad_norm": 0.10753829559198369,
      "kl": 0.0404052734375,
      "learning_rate": 1.092033322930014e-06,
      "loss": 0.0016,
      "reward": 1.4732143878936768,
      "reward_std": 0.2986525744199753,
      "rewards/accuracy_reward": 0.5714285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9017857909202576,
      "step": 295
    },
    {
      "completion_length": 1028.4196472167969,
      "epoch": 0.6311300639658849,
      "grad_norm": 0.12696807337123583,
      "kl": 0.03375244140625,
      "learning_rate": 1.0812988774581588e-06,
      "loss": 0.0014,
      "reward": 1.6755953431129456,
      "reward_std": 0.2574143186211586,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9255952835083008,
      "step": 296
    },
    {
      "completion_length": 1042.544677734375,
      "epoch": 0.6332622601279317,
      "grad_norm": 0.1665161318125881,
      "kl": 0.037109375,
      "learning_rate": 1.0705876367399966e-06,
      "loss": 0.0015,
      "reward": 1.68154776096344,
      "reward_std": 0.37781922519207,
      "rewards/accuracy_reward": 0.7767857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9047619998455048,
      "step": 297
    },
    {
      "completion_length": 1133.6786499023438,
      "epoch": 0.6353944562899787,
      "grad_norm": 0.38871627457421837,
      "kl": 0.0560302734375,
      "learning_rate": 1.0599001944011204e-06,
      "loss": 0.0022,
      "reward": 1.7172620296478271,
      "reward_std": 0.188481867313385,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.976190596818924,
      "step": 298
    },
    {
      "completion_length": 967.6428833007812,
      "epoch": 0.6375266524520256,
      "grad_norm": 0.1163168039589315,
      "kl": 0.025146484375,
      "learning_rate": 1.0492371427482002e-06,
      "loss": 0.001,
      "reward": 1.6964287161827087,
      "reward_std": 0.21599113196134567,
      "rewards/accuracy_reward": 0.8035714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.892857164144516,
      "step": 299
    },
    {
      "completion_length": 996.6250305175781,
      "epoch": 0.6396588486140725,
      "grad_norm": 0.14167478850400705,
      "kl": 0.02911376953125,
      "learning_rate": 1.0385990727361518e-06,
      "loss": 0.0012,
      "reward": 1.720238208770752,
      "reward_std": 0.2488807886838913,
      "rewards/accuracy_reward": 0.8214286267757416,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8988095223903656,
      "step": 300
    },
    {
      "completion_length": 1080.2679443359375,
      "epoch": 0.6417910447761194,
      "grad_norm": 0.8370741095224584,
      "kl": 0.0389404296875,
      "learning_rate": 1.027986573935391e-06,
      "loss": 0.0016,
      "reward": 1.6250001192092896,
      "reward_std": 0.27859867364168167,
      "rewards/accuracy_reward": 0.7589286267757416,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.866071492433548,
      "step": 301
    },
    {
      "completion_length": 1511.3036499023438,
      "epoch": 0.6439232409381663,
      "grad_norm": 0.14485697371190448,
      "kl": 0.0579833984375,
      "learning_rate": 1.0174002344991544e-06,
      "loss": 0.0023,
      "reward": 1.5505953431129456,
      "reward_std": 0.17795322090387344,
      "rewards/accuracy_reward": 0.6339286267757416,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.916666716337204,
      "step": 302
    },
    {
      "completion_length": 839.4910888671875,
      "epoch": 0.6460554371002132,
      "grad_norm": 0.20178165234297277,
      "kl": 0.05029296875,
      "learning_rate": 1.0068406411309068e-06,
      "loss": 0.002,
      "reward": 1.7321429252624512,
      "reward_std": 0.22728823870420456,
      "rewards/accuracy_reward": 0.892857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8392857909202576,
      "step": 303
    },
    {
      "completion_length": 1495.08935546875,
      "epoch": 0.6481876332622601,
      "grad_norm": 0.14285175930396962,
      "kl": 0.04296875,
      "learning_rate": 9.96308379051824e-07,
      "loss": 0.0017,
      "reward": 1.5654762983322144,
      "reward_std": 0.268161840736866,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.922619104385376,
      "step": 304
    },
    {
      "completion_length": 954.0000305175781,
      "epoch": 0.650319829424307,
      "grad_norm": 0.0990665989668795,
      "kl": 0.0396728515625,
      "learning_rate": 9.858040319683595e-07,
      "loss": 0.0016,
      "reward": 1.7797619700431824,
      "reward_std": 0.2227657251060009,
      "rewards/accuracy_reward": 0.8571428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9226191639900208,
      "step": 305
    },
    {
      "completion_length": 1334.0625915527344,
      "epoch": 0.652452025586354,
      "grad_norm": 0.18287580761403507,
      "kl": 0.0484619140625,
      "learning_rate": 9.753281820398952e-07,
      "loss": 0.0019,
      "reward": 1.607142984867096,
      "reward_std": 0.24213335663080215,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8571428954601288,
      "step": 306
    },
    {
      "completion_length": 1144.8482666015625,
      "epoch": 0.6545842217484008,
      "grad_norm": 0.14528756747502938,
      "kl": 0.0345458984375,
      "learning_rate": 9.648814098464774e-07,
      "loss": 0.0014,
      "reward": 1.657738208770752,
      "reward_std": 0.235881969332695,
      "rewards/accuracy_reward": 0.785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8720238208770752,
      "step": 307
    },
    {
      "completion_length": 1018.1340026855469,
      "epoch": 0.6567164179104478,
      "grad_norm": 0.1293336680217839,
      "kl": 0.03265380859375,
      "learning_rate": 9.544642943566426e-07,
      "loss": 0.0013,
      "reward": 1.5238096714019775,
      "reward_std": 0.29545123875141144,
      "rewards/accuracy_reward": 0.6696428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8541667461395264,
      "step": 308
    },
    {
      "completion_length": 1064.4822082519531,
      "epoch": 0.6588486140724946,
      "grad_norm": 0.16708618104466488,
      "kl": 0.049072265625,
      "learning_rate": 9.440774128953266e-07,
      "loss": 0.002,
      "reward": 1.6041668057441711,
      "reward_std": 0.2053099423646927,
      "rewards/accuracy_reward": 0.7500000596046448,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8541667461395264,
      "step": 309
    },
    {
      "completion_length": 889.3125610351562,
      "epoch": 0.6609808102345416,
      "grad_norm": 0.15314232496983873,
      "kl": 0.02801513671875,
      "learning_rate": 9.337213411118722e-07,
      "loss": 0.0011,
      "reward": 1.6815477013587952,
      "reward_std": 0.22859305888414383,
      "rewards/accuracy_reward": 0.8125000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8690476715564728,
      "step": 310
    },
    {
      "completion_length": 1235.821533203125,
      "epoch": 0.6631130063965884,
      "grad_norm": 0.07996066253944341,
      "kl": 0.0374755859375,
      "learning_rate": 9.233966529481255e-07,
      "loss": 0.0015,
      "reward": 1.6488096117973328,
      "reward_std": 0.24340485036373138,
      "rewards/accuracy_reward": 0.6696428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9791667461395264,
      "step": 311
    },
    {
      "completion_length": 1209.3929443359375,
      "epoch": 0.6652452025586354,
      "grad_norm": 0.12378064127064799,
      "kl": 0.0404052734375,
      "learning_rate": 9.131039206066261e-07,
      "loss": 0.0016,
      "reward": 1.6934524774551392,
      "reward_std": 0.3237743675708771,
      "rewards/accuracy_reward": 0.785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9077381491661072,
      "step": 312
    },
    {
      "completion_length": 1099.8661499023438,
      "epoch": 0.6673773987206824,
      "grad_norm": 0.11619244589413569,
      "kl": 0.0325927734375,
      "learning_rate": 9.028437145188962e-07,
      "loss": 0.0013,
      "reward": 1.645833432674408,
      "reward_std": 0.23711279034614563,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9047619700431824,
      "step": 313
    },
    {
      "completion_length": 933.6339416503906,
      "epoch": 0.6695095948827292,
      "grad_norm": 0.1690696337431253,
      "kl": 0.0328369140625,
      "learning_rate": 8.926166033138266e-07,
      "loss": 0.0013,
      "reward": 1.5803571939468384,
      "reward_std": 0.3813829571008682,
      "rewards/accuracy_reward": 0.7232142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8571428954601288,
      "step": 314
    },
    {
      "completion_length": 1484.6161193847656,
      "epoch": 0.6716417910447762,
      "grad_norm": 0.11033606103827916,
      "kl": 0.0411376953125,
      "learning_rate": 8.82423153786165e-07,
      "loss": 0.0016,
      "reward": 1.6011905670166016,
      "reward_std": 0.23707984387874603,
      "rewards/accuracy_reward": 0.660714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9404762089252472,
      "step": 315
    },
    {
      "completion_length": 1352.5893249511719,
      "epoch": 0.673773987206823,
      "grad_norm": 0.150169300158415,
      "kl": 0.06072998046875,
      "learning_rate": 8.72263930865099e-07,
      "loss": 0.0024,
      "reward": 1.5446430444717407,
      "reward_std": 0.1911533996462822,
      "rewards/accuracy_reward": 0.6071428805589676,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375001192092896,
      "step": 316
    },
    {
      "completion_length": 1439.3304443359375,
      "epoch": 0.67590618336887,
      "grad_norm": 0.09572159223172827,
      "kl": 0.04052734375,
      "learning_rate": 8.62139497582953e-07,
      "loss": 0.0016,
      "reward": 1.657738208770752,
      "reward_std": 0.2721657454967499,
      "rewards/accuracy_reward": 0.7053571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9523810148239136,
      "step": 317
    },
    {
      "completion_length": 1527.5000610351562,
      "epoch": 0.6780383795309168,
      "grad_norm": 0.09912835412540279,
      "kl": 0.03997802734375,
      "learning_rate": 8.520504150439773e-07,
      "loss": 0.0016,
      "reward": 1.5625001192092896,
      "reward_std": 0.2268635481595993,
      "rewards/accuracy_reward": 0.6160714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464286267757416,
      "step": 318
    },
    {
      "completion_length": 1507.4733276367188,
      "epoch": 0.6801705756929638,
      "grad_norm": 0.14181101525252318,
      "kl": 0.048095703125,
      "learning_rate": 8.419972423932613e-07,
      "loss": 0.0019,
      "reward": 1.5000000596046448,
      "reward_std": 0.30202968418598175,
      "rewards/accuracy_reward": 0.5982143133878708,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9017857313156128,
      "step": 319
    },
    {
      "completion_length": 1678.6697387695312,
      "epoch": 0.6823027718550106,
      "grad_norm": 0.15063181587062768,
      "kl": 0.0762939453125,
      "learning_rate": 8.319805367857344e-07,
      "loss": 0.003,
      "reward": 1.5773810744285583,
      "reward_std": 0.27056390047073364,
      "rewards/accuracy_reward": 0.660714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9166666865348816,
      "step": 320
    },
    {
      "completion_length": 1061.2589721679688,
      "epoch": 0.6844349680170576,
      "grad_norm": 0.11601848495036499,
      "kl": 0.03045654296875,
      "learning_rate": 8.220008533552953e-07,
      "loss": 0.0012,
      "reward": 1.7232144474983215,
      "reward_std": 0.19748198986053467,
      "rewards/accuracy_reward": 0.8125000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.910714328289032,
      "step": 321
    },
    {
      "completion_length": 1737.3572387695312,
      "epoch": 0.6865671641791045,
      "grad_norm": 0.1804987693201595,
      "kl": 0.0849609375,
      "learning_rate": 8.120587451840439e-07,
      "loss": 0.0034,
      "reward": 1.6250000596046448,
      "reward_std": 0.3257995992898941,
      "rewards/accuracy_reward": 0.6607142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9642857313156128,
      "step": 322
    },
    {
      "completion_length": 1680.9375610351562,
      "epoch": 0.6886993603411514,
      "grad_norm": 0.1243647395821222,
      "kl": 0.043701171875,
      "learning_rate": 8.021547632716291e-07,
      "loss": 0.0017,
      "reward": 1.5505953431129456,
      "reward_std": 0.19279200583696365,
      "rewards/accuracy_reward": 0.5892857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9613096117973328,
      "step": 323
    },
    {
      "completion_length": 1009.08935546875,
      "epoch": 0.6908315565031983,
      "grad_norm": 0.11805621072022374,
      "kl": 0.0308837890625,
      "learning_rate": 7.9228945650471e-07,
      "loss": 0.0012,
      "reward": 1.7142858505249023,
      "reward_std": 0.15783970803022385,
      "rewards/accuracy_reward": 0.7589285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.955357164144516,
      "step": 324
    },
    {
      "completion_length": 1332.2053833007812,
      "epoch": 0.6929637526652452,
      "grad_norm": 0.15723121537761126,
      "kl": 0.03564453125,
      "learning_rate": 7.824633716265399e-07,
      "loss": 0.0014,
      "reward": 1.595238208770752,
      "reward_std": 0.18090301007032394,
      "rewards/accuracy_reward": 0.6964285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8988096117973328,
      "step": 325
    },
    {
      "completion_length": 1181.6161499023438,
      "epoch": 0.6950959488272921,
      "grad_norm": 0.0966092869920288,
      "kl": 0.037841796875,
      "learning_rate": 7.72677053206663e-07,
      "loss": 0.0015,
      "reward": 1.6875000596046448,
      "reward_std": 0.3462984189391136,
      "rewards/accuracy_reward": 0.7589286267757416,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.928571492433548,
      "step": 326
    },
    {
      "completion_length": 1013.5625305175781,
      "epoch": 0.697228144989339,
      "grad_norm": 0.14507139208547692,
      "kl": 0.0355224609375,
      "learning_rate": 7.629310436107342e-07,
      "loss": 0.0014,
      "reward": 1.6666668057441711,
      "reward_std": 0.29228442907333374,
      "rewards/accuracy_reward": 0.7767857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8898810148239136,
      "step": 327
    },
    {
      "completion_length": 1470.4197387695312,
      "epoch": 0.6993603411513859,
      "grad_norm": 0.12972628443513368,
      "kl": 0.046630859375,
      "learning_rate": 7.5322588297046e-07,
      "loss": 0.0019,
      "reward": 1.6160715818405151,
      "reward_std": 0.2882423996925354,
      "rewards/accuracy_reward": 0.6785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375000298023224,
      "step": 328
    },
    {
      "completion_length": 733.5803833007812,
      "epoch": 0.7014925373134329,
      "grad_norm": 0.11209563772083175,
      "kl": 0.02801513671875,
      "learning_rate": 7.43562109153666e-07,
      "loss": 0.0011,
      "reward": 1.7708334922790527,
      "reward_std": 0.21954227983951569,
      "rewards/accuracy_reward": 0.8482142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.922619104385376,
      "step": 329
    },
    {
      "completion_length": 1410.46435546875,
      "epoch": 0.7036247334754797,
      "grad_norm": 0.14042326810573139,
      "kl": 0.06591796875,
      "learning_rate": 7.339402577344863e-07,
      "loss": 0.0026,
      "reward": 1.6369048357009888,
      "reward_std": 0.34282638132572174,
      "rewards/accuracy_reward": 0.6964285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.940476268529892,
      "step": 330
    },
    {
      "completion_length": 692.4107360839844,
      "epoch": 0.7057569296375267,
      "grad_norm": 0.1772477843680614,
      "kl": 0.02886962890625,
      "learning_rate": 7.243608619636828e-07,
      "loss": 0.0012,
      "reward": 1.7261905670166016,
      "reward_std": 0.27383117377758026,
      "rewards/accuracy_reward": 0.8214285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9047619700431824,
      "step": 331
    },
    {
      "completion_length": 1293.419677734375,
      "epoch": 0.7078891257995735,
      "grad_norm": 0.11148692488420758,
      "kl": 0.03765869140625,
      "learning_rate": 7.14824452739089e-07,
      "loss": 0.0015,
      "reward": 1.7172620296478271,
      "reward_std": 0.1581154614686966,
      "rewards/accuracy_reward": 0.7857142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315476715564728,
      "step": 332
    },
    {
      "completion_length": 996.3214416503906,
      "epoch": 0.7100213219616205,
      "grad_norm": 0.11623432923127859,
      "kl": 0.02978515625,
      "learning_rate": 7.053315585761911e-07,
      "loss": 0.0012,
      "reward": 1.767857313156128,
      "reward_std": 0.16021830961108208,
      "rewards/accuracy_reward": 0.8214286267757416,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464285969734192,
      "step": 333
    },
    {
      "completion_length": 1117.71435546875,
      "epoch": 0.7121535181236673,
      "grad_norm": 0.10967971784335497,
      "kl": 0.02996826171875,
      "learning_rate": 6.958827055788351e-07,
      "loss": 0.0012,
      "reward": 1.7232144474983215,
      "reward_std": 0.23977699875831604,
      "rewards/accuracy_reward": 0.8125000596046448,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.910714328289032,
      "step": 334
    },
    {
      "completion_length": 931.8036193847656,
      "epoch": 0.7142857142857143,
      "grad_norm": 0.14401086290135962,
      "kl": 0.02655029296875,
      "learning_rate": 6.864784174100703e-07,
      "loss": 0.0011,
      "reward": 1.6279762983322144,
      "reward_std": 0.23763355612754822,
      "rewards/accuracy_reward": 0.705357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.922619104385376,
      "step": 335
    },
    {
      "completion_length": 1514.4375610351562,
      "epoch": 0.7164179104477612,
      "grad_norm": 0.12191156605912155,
      "kl": 0.04150390625,
      "learning_rate": 6.771192152631274e-07,
      "loss": 0.0017,
      "reward": 1.5565476417541504,
      "reward_std": 0.30112220346927643,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315477013587952,
      "step": 336
    },
    {
      "completion_length": 1449.1875610351562,
      "epoch": 0.7185501066098081,
      "grad_norm": 0.2277659122292507,
      "kl": 0.115966796875,
      "learning_rate": 6.678056178325319e-07,
      "loss": 0.0046,
      "reward": 1.5059524774551392,
      "reward_std": 0.26851165294647217,
      "rewards/accuracy_reward": 0.535714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9702380895614624,
      "step": 337
    },
    {
      "completion_length": 1176.8214721679688,
      "epoch": 0.720682302771855,
      "grad_norm": 0.09261524322577522,
      "kl": 0.02899169921875,
      "learning_rate": 6.585381412853612e-07,
      "loss": 0.0012,
      "reward": 1.7142858505249023,
      "reward_std": 0.18909979611635208,
      "rewards/accuracy_reward": 0.7678571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464285969734192,
      "step": 338
    },
    {
      "completion_length": 1057.6607666015625,
      "epoch": 0.7228144989339019,
      "grad_norm": 0.10692477497393,
      "kl": 0.03466796875,
      "learning_rate": 6.49317299232635e-07,
      "loss": 0.0014,
      "reward": 1.7827381491661072,
      "reward_std": 0.3106798082590103,
      "rewards/accuracy_reward": 0.8035714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "step": 339
    },
    {
      "completion_length": 1170.919677734375,
      "epoch": 0.7249466950959488,
      "grad_norm": 0.11953042382895512,
      "kl": 0.03094482421875,
      "learning_rate": 6.401436027008529e-07,
      "loss": 0.0012,
      "reward": 1.7946430444717407,
      "reward_std": 0.25388067215681076,
      "rewards/accuracy_reward": 0.848214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464285671710968,
      "step": 340
    },
    {
      "completion_length": 1205.6161499023438,
      "epoch": 0.7270788912579957,
      "grad_norm": 0.20370370936325236,
      "kl": 0.03411865234375,
      "learning_rate": 6.310175601036695e-07,
      "loss": 0.0014,
      "reward": 1.592262089252472,
      "reward_std": 0.2987225353717804,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9136905074119568,
      "step": 341
    },
    {
      "completion_length": 1114.4197082519531,
      "epoch": 0.7292110874200426,
      "grad_norm": 0.12732422554184672,
      "kl": 0.03955078125,
      "learning_rate": 6.219396772137218e-07,
      "loss": 0.0016,
      "reward": 1.5625001192092896,
      "reward_std": 0.21285807341337204,
      "rewards/accuracy_reward": 0.6339285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9285714626312256,
      "step": 342
    },
    {
      "completion_length": 1619.3125610351562,
      "epoch": 0.7313432835820896,
      "grad_norm": 0.17548919496087298,
      "kl": 0.0506591796875,
      "learning_rate": 6.129104571345968e-07,
      "loss": 0.002,
      "reward": 1.532738208770752,
      "reward_std": 0.30879029631614685,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9077381491661072,
      "step": 343
    },
    {
      "completion_length": 1329.196533203125,
      "epoch": 0.7334754797441365,
      "grad_norm": 0.10997894827112174,
      "kl": 0.0323486328125,
      "learning_rate": 6.039304002729494e-07,
      "loss": 0.0013,
      "reward": 1.529762089252472,
      "reward_std": 0.2201211005449295,
      "rewards/accuracy_reward": 0.580357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9494048058986664,
      "step": 344
    },
    {
      "completion_length": 1225.0536499023438,
      "epoch": 0.7356076759061834,
      "grad_norm": 0.1570166244637025,
      "kl": 0.0355224609375,
      "learning_rate": 5.950000043107681e-07,
      "loss": 0.0014,
      "reward": 1.55952388048172,
      "reward_std": 0.30511046946048737,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.880952388048172,
      "step": 345
    },
    {
      "completion_length": 932.5714721679688,
      "epoch": 0.7377398720682303,
      "grad_norm": 0.17803863506903936,
      "kl": 0.0345458984375,
      "learning_rate": 5.861197641777953e-07,
      "loss": 0.0014,
      "reward": 1.6250001788139343,
      "reward_std": 0.24293237924575806,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8839286267757416,
      "step": 346
    },
    {
      "completion_length": 1269.46435546875,
      "epoch": 0.7398720682302772,
      "grad_norm": 0.1523837401416516,
      "kl": 0.042724609375,
      "learning_rate": 5.772901720240971e-07,
      "loss": 0.0017,
      "reward": 1.6488096117973328,
      "reward_std": 0.3910396248102188,
      "rewards/accuracy_reward": 0.785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8630952537059784,
      "step": 347
    },
    {
      "completion_length": 1550.107177734375,
      "epoch": 0.7420042643923241,
      "grad_norm": 0.09720473194620638,
      "kl": 0.0452880859375,
      "learning_rate": 5.685117171927879e-07,
      "loss": 0.0018,
      "reward": 1.5238096714019775,
      "reward_std": 0.212030541151762,
      "rewards/accuracy_reward": 0.5982142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9255952835083008,
      "step": 348
    },
    {
      "completion_length": 1297.4465026855469,
      "epoch": 0.744136460554371,
      "grad_norm": 0.13314929947349957,
      "kl": 0.037841796875,
      "learning_rate": 5.597848861929091e-07,
      "loss": 0.0015,
      "reward": 1.598214328289032,
      "reward_std": 0.20494047552347183,
      "rewards/accuracy_reward": 0.6964285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9017857313156128,
      "step": 349
    },
    {
      "completion_length": 1340.1964721679688,
      "epoch": 0.746268656716418,
      "grad_norm": 0.1637249754976297,
      "kl": 0.04296875,
      "learning_rate": 5.511101626724693e-07,
      "loss": 0.0017,
      "reward": 1.538690447807312,
      "reward_std": 0.3721921741962433,
      "rewards/accuracy_reward": 0.6339285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.90476194024086,
      "step": 350
    },
    {
      "completion_length": 1277.5536499023438,
      "epoch": 0.7484008528784648,
      "grad_norm": 0.13681903365552808,
      "kl": 0.0404052734375,
      "learning_rate": 5.42488027391638e-07,
      "loss": 0.0016,
      "reward": 1.6845239400863647,
      "reward_std": 0.23247595876455307,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9345238208770752,
      "step": 351
    },
    {
      "completion_length": 1211.15185546875,
      "epoch": 0.7505330490405118,
      "grad_norm": 0.17884998596281568,
      "kl": 0.0509033203125,
      "learning_rate": 5.339189581961024e-07,
      "loss": 0.002,
      "reward": 1.657738208770752,
      "reward_std": 0.2812913954257965,
      "rewards/accuracy_reward": 0.7589286267757416,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.898809552192688,
      "step": 352
    },
    {
      "completion_length": 1484.9911499023438,
      "epoch": 0.7526652452025586,
      "grad_norm": 0.13353874986632655,
      "kl": 0.0413818359375,
      "learning_rate": 5.254034299905825e-07,
      "loss": 0.0017,
      "reward": 1.5863096714019775,
      "reward_std": 0.24698269367218018,
      "rewards/accuracy_reward": 0.6696428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9166667461395264,
      "step": 353
    },
    {
      "completion_length": 844.7768249511719,
      "epoch": 0.7547974413646056,
      "grad_norm": 0.15358780142997902,
      "kl": 0.030517578125,
      "learning_rate": 5.169419147125176e-07,
      "loss": 0.0012,
      "reward": 1.7470239400863647,
      "reward_std": 0.36288994550704956,
      "rewards/accuracy_reward": 0.848214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8988096117973328,
      "step": 354
    },
    {
      "completion_length": 1110.1965026855469,
      "epoch": 0.7569296375266524,
      "grad_norm": 0.11620645729799127,
      "kl": 0.0419921875,
      "learning_rate": 5.085348813059028e-07,
      "loss": 0.0017,
      "reward": 1.6755953431129456,
      "reward_std": 0.17641759663820267,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9523809850215912,
      "step": 355
    },
    {
      "completion_length": 1237.8750610351562,
      "epoch": 0.7590618336886994,
      "grad_norm": 0.13287523404873314,
      "kl": 0.0408935546875,
      "learning_rate": 5.001827956953066e-07,
      "loss": 0.0016,
      "reward": 1.5625000596046448,
      "reward_std": 0.27621495723724365,
      "rewards/accuracy_reward": 0.6160714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464286863803864,
      "step": 356
    },
    {
      "completion_length": 1456.5358276367188,
      "epoch": 0.7611940298507462,
      "grad_norm": 0.19000753882543067,
      "kl": 0.0865478515625,
      "learning_rate": 4.918861207600445e-07,
      "loss": 0.0035,
      "reward": 1.595238208770752,
      "reward_std": 0.2245616391301155,
      "rewards/accuracy_reward": 0.6785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9166666865348816,
      "step": 357
    },
    {
      "completion_length": 1232.9375915527344,
      "epoch": 0.7633262260127932,
      "grad_norm": 0.142817499830363,
      "kl": 0.0391845703125,
      "learning_rate": 4.8364531630853e-07,
      "loss": 0.0016,
      "reward": 1.5773810744285583,
      "reward_std": 0.2484392449259758,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8988095819950104,
      "step": 358
    },
    {
      "completion_length": 1120.2857666015625,
      "epoch": 0.7654584221748401,
      "grad_norm": 0.11899977419043893,
      "kl": 0.0423583984375,
      "learning_rate": 4.754608390527869e-07,
      "loss": 0.0017,
      "reward": 1.6666667461395264,
      "reward_std": 0.20751924067735672,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9434524476528168,
      "step": 359
    },
    {
      "completion_length": 1172.08935546875,
      "epoch": 0.767590618336887,
      "grad_norm": 0.10262412241706531,
      "kl": 0.0330810546875,
      "learning_rate": 4.6733314258314206e-07,
      "loss": 0.0013,
      "reward": 1.6845238208770752,
      "reward_std": 0.25823765248060226,
      "rewards/accuracy_reward": 0.7678571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.916666716337204,
      "step": 360
    },
    {
      "completion_length": 1363.7411499023438,
      "epoch": 0.7697228144989339,
      "grad_norm": 0.130750825787567,
      "kl": 0.05517578125,
      "learning_rate": 4.59262677343085e-07,
      "loss": 0.0022,
      "reward": 1.5535715222358704,
      "reward_std": 0.30036911368370056,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.928571492433548,
      "step": 361
    },
    {
      "completion_length": 831.33935546875,
      "epoch": 0.7718550106609808,
      "grad_norm": 0.23363645229805155,
      "kl": 0.04248046875,
      "learning_rate": 4.512498906043046e-07,
      "loss": 0.0017,
      "reward": 1.7351191639900208,
      "reward_std": 0.16400109231472015,
      "rewards/accuracy_reward": 0.8035714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315477013587952,
      "step": 362
    },
    {
      "completion_length": 1347.0000915527344,
      "epoch": 0.7739872068230277,
      "grad_norm": 0.08618999053311673,
      "kl": 0.03839111328125,
      "learning_rate": 4.432952264418995e-07,
      "loss": 0.0015,
      "reward": 1.5595239400863647,
      "reward_std": 0.09903123043477535,
      "rewards/accuracy_reward": 0.6071428805589676,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9523809850215912,
      "step": 363
    },
    {
      "completion_length": 1326.5267944335938,
      "epoch": 0.7761194029850746,
      "grad_norm": 0.1514647296097974,
      "kl": 0.0340576171875,
      "learning_rate": 4.3539912570976967e-07,
      "loss": 0.0014,
      "reward": 1.6220239400863647,
      "reward_std": 0.2556470036506653,
      "rewards/accuracy_reward": 0.705357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9166666865348816,
      "step": 364
    },
    {
      "completion_length": 992.0000305175781,
      "epoch": 0.7782515991471215,
      "grad_norm": 0.1996671581057544,
      "kl": 0.0389404296875,
      "learning_rate": 4.275620260161819e-07,
      "loss": 0.0016,
      "reward": 1.6845239400863647,
      "reward_std": 0.31671933829784393,
      "rewards/accuracy_reward": 0.830357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8541667461395264,
      "step": 365
    },
    {
      "completion_length": 1329.90185546875,
      "epoch": 0.7803837953091685,
      "grad_norm": 0.1199691075652537,
      "kl": 0.046630859375,
      "learning_rate": 4.1978436169951883e-07,
      "loss": 0.0019,
      "reward": 1.6458334922790527,
      "reward_std": 0.2024006024003029,
      "rewards/accuracy_reward": 0.6696428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9761905074119568,
      "step": 366
    },
    {
      "completion_length": 1420.1250610351562,
      "epoch": 0.7825159914712153,
      "grad_norm": 0.1150407519433988,
      "kl": 0.037841796875,
      "learning_rate": 4.1206656380420467e-07,
      "loss": 0.0015,
      "reward": 1.532738208770752,
      "reward_std": 0.334537073969841,
      "rewards/accuracy_reward": 0.598214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9345239102840424,
      "step": 367
    },
    {
      "completion_length": 1151.0803833007812,
      "epoch": 0.7846481876332623,
      "grad_norm": 0.12307118505101071,
      "kl": 0.03509521484375,
      "learning_rate": 4.044090600568202e-07,
      "loss": 0.0014,
      "reward": 1.6369048357009888,
      "reward_std": 0.2953372374176979,
      "rewards/accuracy_reward": 0.7142857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.922619104385376,
      "step": 368
    },
    {
      "completion_length": 1256.08935546875,
      "epoch": 0.7867803837953091,
      "grad_norm": 0.13511070935983757,
      "kl": 0.0491943359375,
      "learning_rate": 3.9681227484239497e-07,
      "loss": 0.002,
      "reward": 1.4791667461395264,
      "reward_std": 0.3595585227012634,
      "rewards/accuracy_reward": 0.6160714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8630952835083008,
      "step": 369
    },
    {
      "completion_length": 1493.509033203125,
      "epoch": 0.7889125799573561,
      "grad_norm": 0.13484780684289133,
      "kl": 0.0467529296875,
      "learning_rate": 3.892766291808893e-07,
      "loss": 0.0019,
      "reward": 1.595238208770752,
      "reward_std": 0.21601328253746033,
      "rewards/accuracy_reward": 0.6160714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "step": 370
    },
    {
      "completion_length": 1226.6875610351562,
      "epoch": 0.7910447761194029,
      "grad_norm": 0.1250200622241644,
      "kl": 0.03643798828125,
      "learning_rate": 3.818025407038582e-07,
      "loss": 0.0015,
      "reward": 1.699404776096344,
      "reward_std": 0.2875891625881195,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9583333730697632,
      "step": 371
    },
    {
      "completion_length": 1715.5179443359375,
      "epoch": 0.7931769722814499,
      "grad_norm": 0.14330549870888795,
      "kl": 0.0560302734375,
      "learning_rate": 3.74390423631311e-07,
      "loss": 0.0022,
      "reward": 1.4404762983322144,
      "reward_std": 0.3010445237159729,
      "rewards/accuracy_reward": 0.517857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.922619104385376,
      "step": 372
    },
    {
      "completion_length": 901.2589721679688,
      "epoch": 0.7953091684434968,
      "grad_norm": 0.1149527351611412,
      "kl": 0.03070068359375,
      "learning_rate": 3.6704068874874916e-07,
      "loss": 0.0012,
      "reward": 1.8511906266212463,
      "reward_std": 0.1833096146583557,
      "rewards/accuracy_reward": 0.8750000596046448,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9761905670166016,
      "step": 373
    },
    {
      "completion_length": 1373.8839721679688,
      "epoch": 0.7974413646055437,
      "grad_norm": 0.15626457490186665,
      "kl": 0.0579833984375,
      "learning_rate": 3.597537433844046e-07,
      "loss": 0.0023,
      "reward": 1.392857313156128,
      "reward_std": 0.3387402445077896,
      "rewards/accuracy_reward": 0.5714285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8214285969734192,
      "step": 374
    },
    {
      "completion_length": 1052.2590026855469,
      "epoch": 0.7995735607675906,
      "grad_norm": 0.12233075810923236,
      "kl": 0.04052734375,
      "learning_rate": 3.525299913866615e-07,
      "loss": 0.0016,
      "reward": 1.657738208770752,
      "reward_std": 0.25121498107910156,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9077381491661072,
      "step": 375
    },
    {
      "completion_length": 801.9464721679688,
      "epoch": 0.8017057569296375,
      "grad_norm": 0.13669168267185408,
      "kl": 0.0263671875,
      "learning_rate": 3.4536983310167975e-07,
      "loss": 0.0011,
      "reward": 1.8154762983322144,
      "reward_std": 0.25102973729372025,
      "rewards/accuracy_reward": 0.8839285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315476417541504,
      "step": 376
    },
    {
      "completion_length": 1159.9375610351562,
      "epoch": 0.8038379530916845,
      "grad_norm": 0.16672624812616796,
      "kl": 0.04248046875,
      "learning_rate": 3.382736653512016e-07,
      "loss": 0.0017,
      "reward": 1.5982143878936768,
      "reward_std": 0.24641003459692,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8750000596046448,
      "step": 377
    },
    {
      "completion_length": 1381.8750610351562,
      "epoch": 0.8059701492537313,
      "grad_norm": 0.1269805447529519,
      "kl": 0.0377197265625,
      "learning_rate": 3.312418814105638e-07,
      "loss": 0.0015,
      "reward": 1.6488096117973328,
      "reward_std": 0.2789728194475174,
      "rewards/accuracy_reward": 0.7053571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9434524476528168,
      "step": 378
    },
    {
      "completion_length": 1079.02685546875,
      "epoch": 0.8081023454157783,
      "grad_norm": 0.16169011309615655,
      "kl": 0.0400390625,
      "learning_rate": 3.242748709868999e-07,
      "loss": 0.0016,
      "reward": 1.7529762387275696,
      "reward_std": 0.3037189543247223,
      "rewards/accuracy_reward": 0.830357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9226190745830536,
      "step": 379
    },
    {
      "completion_length": 1212.2142944335938,
      "epoch": 0.8102345415778252,
      "grad_norm": 0.11960444898950202,
      "kl": 0.035400390625,
      "learning_rate": 3.173730201975439e-07,
      "loss": 0.0014,
      "reward": 1.6517858505249023,
      "reward_std": 0.25564439594745636,
      "rewards/accuracy_reward": 0.6696428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9821429550647736,
      "step": 380
    },
    {
      "completion_length": 1032.0000305175781,
      "epoch": 0.8123667377398721,
      "grad_norm": 0.12058030000636127,
      "kl": 0.0357666015625,
      "learning_rate": 3.1053671154862833e-07,
      "loss": 0.0014,
      "reward": 1.7023810744285583,
      "reward_std": 0.22417501360177994,
      "rewards/accuracy_reward": 0.7946428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9077381193637848,
      "step": 381
    },
    {
      "completion_length": 1326.3750610351562,
      "epoch": 0.814498933901919,
      "grad_norm": 0.1218410254139213,
      "kl": 0.035400390625,
      "learning_rate": 3.037663239138895e-07,
      "loss": 0.0014,
      "reward": 1.6130953431129456,
      "reward_std": 0.26377037912607193,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9255952835083008,
      "step": 382
    },
    {
      "completion_length": 993.3036193847656,
      "epoch": 0.8166311300639659,
      "grad_norm": 0.14248304915148197,
      "kl": 0.03662109375,
      "learning_rate": 2.970622325136669e-07,
      "loss": 0.0015,
      "reward": 1.6547620296478271,
      "reward_std": 0.3086494654417038,
      "rewards/accuracy_reward": 0.785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8690476715564728,
      "step": 383
    },
    {
      "completion_length": 1219.169677734375,
      "epoch": 0.8187633262260128,
      "grad_norm": 0.14948454171203893,
      "kl": 0.03814697265625,
      "learning_rate": 2.904248088941102e-07,
      "loss": 0.0015,
      "reward": 1.6875001788139343,
      "reward_std": 0.302191361784935,
      "rewards/accuracy_reward": 0.7678571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9196428954601288,
      "step": 384
    },
    {
      "completion_length": 1417.5982666015625,
      "epoch": 0.8208955223880597,
      "grad_norm": 0.14509864231973565,
      "kl": 0.0439453125,
      "learning_rate": 2.8385442090658554e-07,
      "loss": 0.0018,
      "reward": 1.6130953431129456,
      "reward_std": 0.26444968581199646,
      "rewards/accuracy_reward": 0.6785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9345238506793976,
      "step": 385
    },
    {
      "completion_length": 750.9018249511719,
      "epoch": 0.8230277185501066,
      "grad_norm": 0.4506328580930503,
      "kl": 0.0579833984375,
      "learning_rate": 2.773514326872911e-07,
      "loss": 0.0023,
      "reward": 1.7142858505249023,
      "reward_std": 0.24653327465057373,
      "rewards/accuracy_reward": 0.803571492433548,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9107142984867096,
      "step": 386
    },
    {
      "completion_length": 1075.696533203125,
      "epoch": 0.8251599147121536,
      "grad_norm": 0.15042743014220517,
      "kl": 0.039794921875,
      "learning_rate": 2.7091620463707565e-07,
      "loss": 0.0016,
      "reward": 1.6190477013587952,
      "reward_std": 0.30496712028980255,
      "rewards/accuracy_reward": 0.7142857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9047619700431824,
      "step": 387
    },
    {
      "completion_length": 1252.8840026855469,
      "epoch": 0.8272921108742004,
      "grad_norm": 0.1352318691557005,
      "kl": 0.0313720703125,
      "learning_rate": 2.6454909340146526e-07,
      "loss": 0.0013,
      "reward": 1.6339287161827087,
      "reward_std": 0.2621423155069351,
      "rewards/accuracy_reward": 0.6964285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375000298023224,
      "step": 388
    },
    {
      "completion_length": 1268.8929443359375,
      "epoch": 0.8294243070362474,
      "grad_norm": 0.14403787352305003,
      "kl": 0.03955078125,
      "learning_rate": 2.5825045185089576e-07,
      "loss": 0.0016,
      "reward": 1.4464287161827087,
      "reward_std": 0.30982543528079987,
      "rewards/accuracy_reward": 0.6071428656578064,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8392857909202576,
      "step": 389
    },
    {
      "completion_length": 1204.8572387695312,
      "epoch": 0.8315565031982942,
      "grad_norm": 0.09882065362631139,
      "kl": 0.0401611328125,
      "learning_rate": 2.5202062906115886e-07,
      "loss": 0.0016,
      "reward": 1.6011905074119568,
      "reward_std": 0.27657826244831085,
      "rewards/accuracy_reward": 0.6517857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.949404776096344,
      "step": 390
    },
    {
      "completion_length": 1447.1607666015625,
      "epoch": 0.8336886993603412,
      "grad_norm": 0.09984800463645258,
      "kl": 0.0401611328125,
      "learning_rate": 2.458599702940551e-07,
      "loss": 0.0016,
      "reward": 1.610119104385376,
      "reward_std": 0.3406985253095627,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9672619700431824,
      "step": 391
    },
    {
      "completion_length": 1095.5535888671875,
      "epoch": 0.835820895522388,
      "grad_norm": 0.14152519483023468,
      "kl": 0.0394287109375,
      "learning_rate": 2.3976881697825945e-07,
      "loss": 0.0016,
      "reward": 1.6011906266212463,
      "reward_std": 0.2730865254998207,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9136905372142792,
      "step": 392
    },
    {
      "completion_length": 1200.3214721679688,
      "epoch": 0.837953091684435,
      "grad_norm": 0.2690765381174367,
      "kl": 0.121826171875,
      "learning_rate": 2.337475066903973e-07,
      "loss": 0.0049,
      "reward": 1.7023810744285583,
      "reward_std": 0.22425533086061478,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9613095819950104,
      "step": 393
    },
    {
      "completion_length": 1389.3304443359375,
      "epoch": 0.8400852878464818,
      "grad_norm": 0.14854640733815014,
      "kl": 0.0560302734375,
      "learning_rate": 2.2779637313633867e-07,
      "loss": 0.0022,
      "reward": 1.5297620296478271,
      "reward_std": 0.2779865562915802,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8511905074119568,
      "step": 394
    },
    {
      "completion_length": 1124.8125610351562,
      "epoch": 0.8422174840085288,
      "grad_norm": 0.1186415366291206,
      "kl": 0.0321044921875,
      "learning_rate": 2.2191574613270176e-07,
      "loss": 0.0013,
      "reward": 1.7529762983322144,
      "reward_std": 0.22258639335632324,
      "rewards/accuracy_reward": 0.8125000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.940476268529892,
      "step": 395
    },
    {
      "completion_length": 1535.33935546875,
      "epoch": 0.8443496801705757,
      "grad_norm": 0.11313954056540633,
      "kl": 0.04541015625,
      "learning_rate": 2.16105951588575e-07,
      "loss": 0.0018,
      "reward": 1.5803571939468384,
      "reward_std": 0.38106925785541534,
      "rewards/accuracy_reward": 0.6517857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.928571492433548,
      "step": 396
    },
    {
      "completion_length": 1180.6250610351562,
      "epoch": 0.8464818763326226,
      "grad_norm": 0.1669176196026825,
      "kl": 0.0472412109375,
      "learning_rate": 2.103673114874552e-07,
      "loss": 0.0019,
      "reward": 1.6488096117973328,
      "reward_std": 0.3128168359398842,
      "rewards/accuracy_reward": 0.705357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9434524178504944,
      "step": 397
    },
    {
      "completion_length": 770.9286193847656,
      "epoch": 0.8486140724946695,
      "grad_norm": 0.13692983987755097,
      "kl": 0.02972412109375,
      "learning_rate": 2.047001438694015e-07,
      "loss": 0.0012,
      "reward": 1.8303572535514832,
      "reward_std": 0.27880559116601944,
      "rewards/accuracy_reward": 0.9196428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9107143878936768,
      "step": 398
    },
    {
      "completion_length": 1214.7322082519531,
      "epoch": 0.8507462686567164,
      "grad_norm": 0.1358856197175065,
      "kl": 0.03814697265625,
      "learning_rate": 1.9910476281341155e-07,
      "loss": 0.0015,
      "reward": 1.5386905670166016,
      "reward_std": 0.2426416277885437,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9136905372142792,
      "step": 399
    },
    {
      "completion_length": 1383.3839721679688,
      "epoch": 0.8528784648187633,
      "grad_norm": 0.11868642239159,
      "kl": 0.0450439453125,
      "learning_rate": 1.9358147842001328e-07,
      "loss": 0.0018,
      "reward": 1.5446429252624512,
      "reward_std": 0.28238774836063385,
      "rewards/accuracy_reward": 0.5892857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9553572237491608,
      "step": 400
    },
    {
      "completion_length": 965.8661193847656,
      "epoch": 0.8550106609808102,
      "grad_norm": 0.10529830911739203,
      "kl": 0.0322265625,
      "learning_rate": 1.8813059679408012e-07,
      "loss": 0.0013,
      "reward": 1.7172620296478271,
      "reward_std": 0.2009986713528633,
      "rewards/accuracy_reward": 0.7678571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9494048058986664,
      "step": 401
    },
    {
      "completion_length": 1494.5089721679688,
      "epoch": 0.8571428571428571,
      "grad_norm": 0.10085423668595599,
      "kl": 0.044677734375,
      "learning_rate": 1.827524200278648e-07,
      "loss": 0.0018,
      "reward": 1.5089287161827087,
      "reward_std": 0.32547377049922943,
      "rewards/accuracy_reward": 0.580357164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9285714328289032,
      "step": 402
    },
    {
      "completion_length": 1146.1875610351562,
      "epoch": 0.8592750533049041,
      "grad_norm": 0.10802376598908192,
      "kl": 0.0447998046875,
      "learning_rate": 1.7744724618425868e-07,
      "loss": 0.0018,
      "reward": 1.6785714626312256,
      "reward_std": 0.21483220905065536,
      "rewards/accuracy_reward": 0.7321428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464286267757416,
      "step": 403
    },
    {
      "completion_length": 1038.7054138183594,
      "epoch": 0.8614072494669509,
      "grad_norm": 0.12848555145423365,
      "kl": 0.03125,
      "learning_rate": 1.7221536928027232e-07,
      "loss": 0.0012,
      "reward": 1.6815477013587952,
      "reward_std": 0.3760823905467987,
      "rewards/accuracy_reward": 0.7946428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8869048357009888,
      "step": 404
    },
    {
      "completion_length": 1194.9464721679688,
      "epoch": 0.8635394456289979,
      "grad_norm": 0.14656695665150976,
      "kl": 0.0401611328125,
      "learning_rate": 1.6705707927074104e-07,
      "loss": 0.0016,
      "reward": 1.672619104385376,
      "reward_std": 0.25925473123788834,
      "rewards/accuracy_reward": 0.7767857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8958333730697632,
      "step": 405
    },
    {
      "completion_length": 1297.9911499023438,
      "epoch": 0.8656716417910447,
      "grad_norm": 0.10901235657511074,
      "kl": 0.03759765625,
      "learning_rate": 1.6197266203225441e-07,
      "loss": 0.0015,
      "reward": 1.6607144474983215,
      "reward_std": 0.18611250817775726,
      "rewards/accuracy_reward": 0.7053571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9553572535514832,
      "step": 406
    },
    {
      "completion_length": 1126.0804443359375,
      "epoch": 0.8678038379530917,
      "grad_norm": 0.09765216412447629,
      "kl": 0.040771484375,
      "learning_rate": 1.5696239934731394e-07,
      "loss": 0.0016,
      "reward": 1.7410715222358704,
      "reward_std": 0.2679038271307945,
      "rewards/accuracy_reward": 0.8035714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375000596046448,
      "step": 407
    },
    {
      "completion_length": 898.0714416503906,
      "epoch": 0.8699360341151386,
      "grad_norm": 0.13809211210849864,
      "kl": 0.041015625,
      "learning_rate": 1.520265688887162e-07,
      "loss": 0.0016,
      "reward": 1.7500000596046448,
      "reward_std": 0.3112553283572197,
      "rewards/accuracy_reward": 0.8392857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.910714328289032,
      "step": 408
    },
    {
      "completion_length": 1307.2411193847656,
      "epoch": 0.8720682302771855,
      "grad_norm": 0.08735143326719495,
      "kl": 0.03350830078125,
      "learning_rate": 1.4716544420416366e-07,
      "loss": 0.0013,
      "reward": 1.6904762983322144,
      "reward_std": 0.3190811350941658,
      "rewards/accuracy_reward": 0.7767857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9136905670166016,
      "step": 409
    },
    {
      "completion_length": 1572.2410888671875,
      "epoch": 0.8742004264392325,
      "grad_norm": 0.12725505104160498,
      "kl": 0.0426025390625,
      "learning_rate": 1.4237929470110406e-07,
      "loss": 0.0017,
      "reward": 1.6398810148239136,
      "reward_std": 0.21715587377548218,
      "rewards/accuracy_reward": 0.6964285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9434524476528168,
      "step": 410
    },
    {
      "completion_length": 1446.02685546875,
      "epoch": 0.8763326226012793,
      "grad_norm": 0.11422558070468906,
      "kl": 0.03857421875,
      "learning_rate": 1.3766838563180117e-07,
      "loss": 0.0015,
      "reward": 1.5892858505249023,
      "reward_std": 0.2522902563214302,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464285969734192,
      "step": 411
    },
    {
      "completion_length": 952.2411193847656,
      "epoch": 0.8784648187633263,
      "grad_norm": 0.1403229970382729,
      "kl": 0.0374755859375,
      "learning_rate": 1.330329780786324e-07,
      "loss": 0.0015,
      "reward": 1.7767857909202576,
      "reward_std": 0.3148331865668297,
      "rewards/accuracy_reward": 0.8303571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464286863803864,
      "step": 412
    },
    {
      "completion_length": 1404.5982666015625,
      "epoch": 0.8805970149253731,
      "grad_norm": 0.14946564729484713,
      "kl": 0.0460205078125,
      "learning_rate": 1.2847332893962078e-07,
      "loss": 0.0018,
      "reward": 1.5744048953056335,
      "reward_std": 0.33053530752658844,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315476417541504,
      "step": 413
    },
    {
      "completion_length": 1234.3125610351562,
      "epoch": 0.8827292110874201,
      "grad_norm": 0.15181371466412985,
      "kl": 0.04638671875,
      "learning_rate": 1.23989690914196e-07,
      "loss": 0.0018,
      "reward": 1.6607144474983215,
      "reward_std": 0.2704368233680725,
      "rewards/accuracy_reward": 0.7142857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9464285671710968,
      "step": 414
    },
    {
      "completion_length": 1354.607177734375,
      "epoch": 0.8848614072494669,
      "grad_norm": 0.10249027049517351,
      "kl": 0.04278564453125,
      "learning_rate": 1.1958231248919232e-07,
      "loss": 0.0017,
      "reward": 1.693452537059784,
      "reward_std": 0.26540887355804443,
      "rewards/accuracy_reward": 0.7321428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.961309552192688,
      "step": 415
    },
    {
      "completion_length": 1131.6428833007812,
      "epoch": 0.8869936034115139,
      "grad_norm": 0.14500826128485092,
      "kl": 0.03289794921875,
      "learning_rate": 1.1525143792507397e-07,
      "loss": 0.0013,
      "reward": 1.7172620296478271,
      "reward_std": 0.27453210204839706,
      "rewards/accuracy_reward": 0.7767857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.940476268529892,
      "step": 416
    },
    {
      "completion_length": 1316.9375610351562,
      "epoch": 0.8891257995735607,
      "grad_norm": 0.1055482839048449,
      "kl": 0.0367431640625,
      "learning_rate": 1.1099730724240037e-07,
      "loss": 0.0015,
      "reward": 1.654762089252472,
      "reward_std": 0.3039039522409439,
      "rewards/accuracy_reward": 0.7053571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.949404776096344,
      "step": 417
    },
    {
      "completion_length": 912.9553833007812,
      "epoch": 0.8912579957356077,
      "grad_norm": 0.11508632240873057,
      "kl": 0.03399658203125,
      "learning_rate": 1.0682015620852214e-07,
      "loss": 0.0014,
      "reward": 1.8154763579368591,
      "reward_std": 0.20787137746810913,
      "rewards/accuracy_reward": 0.8660714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9494048357009888,
      "step": 418
    },
    {
      "completion_length": 850.7500610351562,
      "epoch": 0.8933901918976546,
      "grad_norm": 0.259385367648073,
      "kl": 0.035888671875,
      "learning_rate": 1.0272021632451745e-07,
      "loss": 0.0014,
      "reward": 1.592262089252472,
      "reward_std": 0.2282465174794197,
      "rewards/accuracy_reward": 0.7142857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8779762089252472,
      "step": 419
    },
    {
      "completion_length": 1285.232177734375,
      "epoch": 0.8955223880597015,
      "grad_norm": 0.10199336036810368,
      "kl": 0.0355224609375,
      "learning_rate": 9.869771481235851e-08,
      "loss": 0.0014,
      "reward": 1.6250001192092896,
      "reward_std": 0.189996600151062,
      "rewards/accuracy_reward": 0.6696428656578064,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.955357164144516,
      "step": 420
    },
    {
      "completion_length": 1323.169677734375,
      "epoch": 0.8976545842217484,
      "grad_norm": 0.19459934526843709,
      "kl": 0.043701171875,
      "learning_rate": 9.475287460232174e-08,
      "loss": 0.0017,
      "reward": 1.6964287161827087,
      "reward_std": 0.22361726313829422,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9553571343421936,
      "step": 421
    },
    {
      "completion_length": 1493.3660888671875,
      "epoch": 0.8997867803837953,
      "grad_norm": 0.1308497423949086,
      "kl": 0.0560302734375,
      "learning_rate": 9.088591432063109e-08,
      "loss": 0.0022,
      "reward": 1.470238208770752,
      "reward_std": 0.31787319481372833,
      "rewards/accuracy_reward": 0.5357143133878708,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9345238506793976,
      "step": 422
    },
    {
      "completion_length": 1243.6607666015625,
      "epoch": 0.9019189765458422,
      "grad_norm": 0.11568592864739352,
      "kl": 0.03155517578125,
      "learning_rate": 8.709704827734244e-08,
      "loss": 0.0013,
      "reward": 1.6011905670166016,
      "reward_std": 0.16856589168310165,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9583334028720856,
      "step": 423
    },
    {
      "completion_length": 1076.6429138183594,
      "epoch": 0.9040511727078892,
      "grad_norm": 0.12800487989831735,
      "kl": 0.0426025390625,
      "learning_rate": 8.33864864544654e-08,
      "loss": 0.0017,
      "reward": 1.7172620296478271,
      "reward_std": 0.2536582425236702,
      "rewards/accuracy_reward": 0.8035714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9136905372142792,
      "step": 424
    },
    {
      "completion_length": 1079.7232360839844,
      "epoch": 0.906183368869936,
      "grad_norm": 0.13027104894119632,
      "kl": 0.05224609375,
      "learning_rate": 7.975443449432712e-08,
      "loss": 0.0021,
      "reward": 1.6279763579368591,
      "reward_std": 0.2700909525156021,
      "rewards/accuracy_reward": 0.6964285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315476417541504,
      "step": 425
    },
    {
      "completion_length": 1085.2857666015625,
      "epoch": 0.908315565031983,
      "grad_norm": 0.13326184622620485,
      "kl": 0.05078125,
      "learning_rate": 7.620109368817479e-08,
      "loss": 0.002,
      "reward": 1.6934524774551392,
      "reward_std": 0.22493162006139755,
      "rewards/accuracy_reward": 0.7589285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9345239102840424,
      "step": 426
    },
    {
      "completion_length": 1154.2857666015625,
      "epoch": 0.9104477611940298,
      "grad_norm": 0.13168110528745983,
      "kl": 0.032958984375,
      "learning_rate": 7.272666096502017e-08,
      "loss": 0.0013,
      "reward": 1.7113096117973328,
      "reward_std": 0.17928045243024826,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9613095223903656,
      "step": 427
    },
    {
      "completion_length": 1208.5089721679688,
      "epoch": 0.9125799573560768,
      "grad_norm": 0.15422867944510443,
      "kl": 0.0496826171875,
      "learning_rate": 6.933132888072452e-08,
      "loss": 0.002,
      "reward": 1.6607143878936768,
      "reward_std": 0.2651449218392372,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375000298023224,
      "step": 428
    },
    {
      "completion_length": 937.9286193847656,
      "epoch": 0.9147121535181236,
      "grad_norm": 0.16397940646701067,
      "kl": 0.0355224609375,
      "learning_rate": 6.601528560732978e-08,
      "loss": 0.0014,
      "reward": 1.7053572535514832,
      "reward_std": 0.19854045659303665,
      "rewards/accuracy_reward": 0.7767857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.928571492433548,
      "step": 429
    },
    {
      "completion_length": 1021.1875610351562,
      "epoch": 0.9168443496801706,
      "grad_norm": 0.18741914785216834,
      "kl": 0.04736328125,
      "learning_rate": 6.277871492262593e-08,
      "loss": 0.0019,
      "reward": 1.720238208770752,
      "reward_std": 0.30338047444820404,
      "rewards/accuracy_reward": 0.8125000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9077381193637848,
      "step": 430
    },
    {
      "completion_length": 1440.0179443359375,
      "epoch": 0.9189765458422174,
      "grad_norm": 0.1252606982663048,
      "kl": 0.0455322265625,
      "learning_rate": 5.962179619996966e-08,
      "loss": 0.0018,
      "reward": 1.6011905670166016,
      "reward_std": 0.2180982008576393,
      "rewards/accuracy_reward": 0.6428571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9583333730697632,
      "step": 431
    },
    {
      "completion_length": 1043.7411499023438,
      "epoch": 0.9211087420042644,
      "grad_norm": 0.15456690299553452,
      "kl": 0.0389404296875,
      "learning_rate": 5.654470439834058e-08,
      "loss": 0.0016,
      "reward": 1.6428572535514832,
      "reward_std": 0.19835803657770157,
      "rewards/accuracy_reward": 0.7142857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.928571492433548,
      "step": 432
    },
    {
      "completion_length": 1064.7857666015625,
      "epoch": 0.9232409381663113,
      "grad_norm": 0.11768132307157626,
      "kl": 0.0333251953125,
      "learning_rate": 5.3547610052647246e-08,
      "loss": 0.0013,
      "reward": 1.7321429252624512,
      "reward_std": 0.25611863285303116,
      "rewards/accuracy_reward": 0.8303571939468384,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9017857611179352,
      "step": 433
    },
    {
      "completion_length": 1395.7857666015625,
      "epoch": 0.9253731343283582,
      "grad_norm": 0.13388651100817098,
      "kl": 0.0416259765625,
      "learning_rate": 5.063067926427345e-08,
      "loss": 0.0017,
      "reward": 1.595238208770752,
      "reward_std": 0.25440268218517303,
      "rewards/accuracy_reward": 0.6517857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.943452388048172,
      "step": 434
    },
    {
      "completion_length": 1014.607177734375,
      "epoch": 0.9275053304904051,
      "grad_norm": 0.15843742217156698,
      "kl": 0.04046630859375,
      "learning_rate": 4.7794073691875e-08,
      "loss": 0.0016,
      "reward": 1.7767858505249023,
      "reward_std": 0.22809705138206482,
      "rewards/accuracy_reward": 0.8571428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9196429550647736,
      "step": 435
    },
    {
      "completion_length": 1108.5447082519531,
      "epoch": 0.929637526652452,
      "grad_norm": 0.0931815179333363,
      "kl": 0.033935546875,
      "learning_rate": 4.5037950542418327e-08,
      "loss": 0.0014,
      "reward": 1.7232144474983215,
      "reward_std": 0.2243082970380783,
      "rewards/accuracy_reward": 0.7946428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.928571492433548,
      "step": 436
    },
    {
      "completion_length": 1058.5535888671875,
      "epoch": 0.9317697228144989,
      "grad_norm": 0.12902866519324294,
      "kl": 0.03387451171875,
      "learning_rate": 4.236246256247084e-08,
      "loss": 0.0014,
      "reward": 1.815476417541504,
      "reward_std": 0.25273216515779495,
      "rewards/accuracy_reward": 0.848214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.96726194024086,
      "step": 437
    },
    {
      "completion_length": 1244.2768249511719,
      "epoch": 0.9339019189765458,
      "grad_norm": 0.10531711025827536,
      "kl": 0.0352783203125,
      "learning_rate": 3.976775802973232e-08,
      "loss": 0.0014,
      "reward": 1.657738208770752,
      "reward_std": 0.2436121702194214,
      "rewards/accuracy_reward": 0.7410714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.916666716337204,
      "step": 438
    },
    {
      "completion_length": 1260.8035888671875,
      "epoch": 0.9360341151385928,
      "grad_norm": 0.1273149151243534,
      "kl": 0.0386962890625,
      "learning_rate": 3.7253980744819335e-08,
      "loss": 0.0016,
      "reward": 1.5803571939468384,
      "reward_std": 0.32651571929454803,
      "rewards/accuracy_reward": 0.6696428656578064,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9107143580913544,
      "step": 439
    },
    {
      "completion_length": 1235.4732666015625,
      "epoch": 0.9381663113006397,
      "grad_norm": 0.11991570015390349,
      "kl": 0.0355224609375,
      "learning_rate": 3.482127002329532e-08,
      "loss": 0.0014,
      "reward": 1.7619048953056335,
      "reward_std": 0.21403488516807556,
      "rewards/accuracy_reward": 0.7946428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9672619104385376,
      "step": 440
    },
    {
      "completion_length": 1700.4108276367188,
      "epoch": 0.9402985074626866,
      "grad_norm": 0.0905295817387942,
      "kl": 0.045654296875,
      "learning_rate": 3.246976068794938e-08,
      "loss": 0.0018,
      "reward": 1.520833432674408,
      "reward_std": 0.29365843534469604,
      "rewards/accuracy_reward": 0.5535714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.96726194024086,
      "step": 441
    },
    {
      "completion_length": 1133.4018249511719,
      "epoch": 0.9424307036247335,
      "grad_norm": 0.14343490070049067,
      "kl": 0.03826904296875,
      "learning_rate": 3.019958306132409e-08,
      "loss": 0.0015,
      "reward": 1.7470239400863647,
      "reward_std": 0.26383814960718155,
      "rewards/accuracy_reward": 0.7857142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9613095819950104,
      "step": 442
    },
    {
      "completion_length": 895.6607666015625,
      "epoch": 0.9445628997867804,
      "grad_norm": 0.15534874681311633,
      "kl": 0.03472900390625,
      "learning_rate": 2.8010862958493143e-08,
      "loss": 0.0014,
      "reward": 1.7857144474983215,
      "reward_std": 0.19552049040794373,
      "rewards/accuracy_reward": 0.8571429252624512,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.928571492433548,
      "step": 443
    },
    {
      "completion_length": 1353.4286193847656,
      "epoch": 0.9466950959488273,
      "grad_norm": 0.1026717102964393,
      "kl": 0.03857421875,
      "learning_rate": 2.5903721680089088e-08,
      "loss": 0.0015,
      "reward": 1.580357313156128,
      "reward_std": 0.18070637807250023,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375001192092896,
      "step": 444
    },
    {
      "completion_length": 810.5982360839844,
      "epoch": 0.9488272921108742,
      "grad_norm": 0.13071367775020673,
      "kl": 0.02972412109375,
      "learning_rate": 2.3878276005580014e-08,
      "loss": 0.0012,
      "reward": 1.857142984867096,
      "reward_std": 0.23583583533763885,
      "rewards/accuracy_reward": 0.9285714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.928571492433548,
      "step": 445
    },
    {
      "completion_length": 1267.5536499023438,
      "epoch": 0.9509594882729211,
      "grad_norm": 0.11914284998039783,
      "kl": 0.04052734375,
      "learning_rate": 2.1934638186797418e-08,
      "loss": 0.0016,
      "reward": 1.6726190447807312,
      "reward_std": 0.21762053668498993,
      "rewards/accuracy_reward": 0.7142857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "step": 446
    },
    {
      "completion_length": 878.21435546875,
      "epoch": 0.9530916844349681,
      "grad_norm": 0.15200228242195024,
      "kl": 0.03155517578125,
      "learning_rate": 2.0072915941716176e-08,
      "loss": 0.0013,
      "reward": 1.6845239400863647,
      "reward_std": 0.22438118606805801,
      "rewards/accuracy_reward": 0.723214328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9613096117973328,
      "step": 447
    },
    {
      "completion_length": 1117.3036499023438,
      "epoch": 0.9552238805970149,
      "grad_norm": 0.13990017882595185,
      "kl": 0.0340576171875,
      "learning_rate": 1.8293212448483476e-08,
      "loss": 0.0014,
      "reward": 1.68154776096344,
      "reward_std": 0.27074815332889557,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9315477013587952,
      "step": 448
    },
    {
      "completion_length": 1148.4464721679688,
      "epoch": 0.9573560767590619,
      "grad_norm": 0.5722123439287153,
      "kl": 0.0599365234375,
      "learning_rate": 1.6595626339701407e-08,
      "loss": 0.0024,
      "reward": 1.6220239400863647,
      "reward_std": 0.2894679382443428,
      "rewards/accuracy_reward": 0.7321428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8898809552192688,
      "step": 449
    },
    {
      "completion_length": 1087.0089721679688,
      "epoch": 0.9594882729211087,
      "grad_norm": 0.12234323130822797,
      "kl": 0.03643798828125,
      "learning_rate": 1.498025169696049e-08,
      "loss": 0.0015,
      "reward": 1.5982144474983215,
      "reward_std": 0.2565459758043289,
      "rewards/accuracy_reward": 0.7142857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.883928656578064,
      "step": 450
    },
    {
      "completion_length": 1019.5625305175781,
      "epoch": 0.9616204690831557,
      "grad_norm": 0.15061682820334918,
      "kl": 0.03997802734375,
      "learning_rate": 1.344717804562534e-08,
      "loss": 0.0016,
      "reward": 1.705357313156128,
      "reward_std": 0.301651306450367,
      "rewards/accuracy_reward": 0.8125000596046448,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.892857164144516,
      "step": 451
    },
    {
      "completion_length": 1150.919677734375,
      "epoch": 0.9637526652452025,
      "grad_norm": 0.15124753603113633,
      "kl": 0.04052734375,
      "learning_rate": 1.1996490349873657e-08,
      "loss": 0.0016,
      "reward": 1.660714328289032,
      "reward_std": 0.3527335077524185,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.910714328289032,
      "step": 452
    },
    {
      "completion_length": 984.8392944335938,
      "epoch": 0.9658848614072495,
      "grad_norm": 0.12502426606666367,
      "kl": 0.02923583984375,
      "learning_rate": 1.062826900798647e-08,
      "loss": 0.0012,
      "reward": 1.711309552192688,
      "reward_std": 0.2803713083267212,
      "rewards/accuracy_reward": 0.785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9255953133106232,
      "step": 453
    },
    {
      "completion_length": 970.3304138183594,
      "epoch": 0.9680170575692963,
      "grad_norm": 0.13053916555179285,
      "kl": 0.03765869140625,
      "learning_rate": 9.34258984789338e-09,
      "loss": 0.0016,
      "reward": 1.6666668057441711,
      "reward_std": 0.24765829741954803,
      "rewards/accuracy_reward": 0.7946428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8720238506793976,
      "step": 454
    },
    {
      "completion_length": 1477.4107666015625,
      "epoch": 0.9701492537313433,
      "grad_norm": 0.15324376156031438,
      "kl": 0.06689453125,
      "learning_rate": 8.139524122970254e-09,
      "loss": 0.0027,
      "reward": 1.5744048357009888,
      "reward_std": 0.28467129170894623,
      "rewards/accuracy_reward": 0.6517857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.922619104385376,
      "step": 455
    },
    {
      "completion_length": 1162.419677734375,
      "epoch": 0.9722814498933902,
      "grad_norm": 0.09624723120966117,
      "kl": 0.03216552734375,
      "learning_rate": 7.019138508088552e-09,
      "loss": 0.0013,
      "reward": 1.6845239400863647,
      "reward_std": 0.2717607207596302,
      "rewards/accuracy_reward": 0.7321428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9523810148239136,
      "step": 456
    },
    {
      "completion_length": 1556.4554443359375,
      "epoch": 0.9744136460554371,
      "grad_norm": 0.19975315297940835,
      "kl": 0.108642578125,
      "learning_rate": 5.98149509592244e-09,
      "loss": 0.0043,
      "reward": 1.4970239400863647,
      "reward_std": 0.3308578431606293,
      "rewards/accuracy_reward": 0.5982142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8988095223903656,
      "step": 457
    },
    {
      "completion_length": 824.2500610351562,
      "epoch": 0.976545842217484,
      "grad_norm": 0.1430107614258019,
      "kl": 0.037353515625,
      "learning_rate": 5.026651393506387e-09,
      "loss": 0.0015,
      "reward": 1.7142858505249023,
      "reward_std": 0.261274516582489,
      "rewards/accuracy_reward": 0.8482142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8660714328289032,
      "step": 458
    },
    {
      "completion_length": 1221.7322082519531,
      "epoch": 0.9786780383795309,
      "grad_norm": 0.12745976833073078,
      "kl": 0.0380859375,
      "learning_rate": 4.154660319047543e-09,
      "loss": 0.0015,
      "reward": 1.6517857909202576,
      "reward_std": 0.3353511542081833,
      "rewards/accuracy_reward": 0.7232142984867096,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9285714626312256,
      "step": 459
    },
    {
      "completion_length": 1560.6964721679688,
      "epoch": 0.9808102345415778,
      "grad_norm": 0.15603183716314337,
      "kl": 0.0450439453125,
      "learning_rate": 3.3655701989944164e-09,
      "loss": 0.0018,
      "reward": 1.5059524774551392,
      "reward_std": 0.21744857728481293,
      "rewards/accuracy_reward": 0.571428582072258,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9345238506793976,
      "step": 460
    },
    {
      "completion_length": 1631.71435546875,
      "epoch": 0.9829424307036247,
      "grad_norm": 0.15320489961911887,
      "kl": 0.0709228515625,
      "learning_rate": 2.659424765357521e-09,
      "loss": 0.0028,
      "reward": 1.6011905670166016,
      "reward_std": 0.1412961259484291,
      "rewards/accuracy_reward": 0.6339285969734192,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.96726194024086,
      "step": 461
    },
    {
      "completion_length": 1511.8750610351562,
      "epoch": 0.9850746268656716,
      "grad_norm": 0.156556526868105,
      "kl": 0.0517578125,
      "learning_rate": 2.0362631532856445e-09,
      "loss": 0.0021,
      "reward": 1.6071429252624512,
      "reward_std": 0.2726936489343643,
      "rewards/accuracy_reward": 0.6517857313156128,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.955357164144516,
      "step": 462
    },
    {
      "completion_length": 1163.4910888671875,
      "epoch": 0.9872068230277186,
      "grad_norm": 0.1190245979691987,
      "kl": 0.036376953125,
      "learning_rate": 1.4961198988979185e-09,
      "loss": 0.0015,
      "reward": 1.5744048953056335,
      "reward_std": 0.2445257529616356,
      "rewards/accuracy_reward": 0.6071428954601288,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9672619700431824,
      "step": 463
    },
    {
      "completion_length": 833.544677734375,
      "epoch": 0.9893390191897654,
      "grad_norm": 0.1380464209921175,
      "kl": 0.03192138671875,
      "learning_rate": 1.0390249373686823e-09,
      "loss": 0.0013,
      "reward": 1.7767857909202576,
      "reward_std": 0.25276561826467514,
      "rewards/accuracy_reward": 0.8392857611179352,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375000596046448,
      "step": 464
    },
    {
      "completion_length": 1463.8036499023438,
      "epoch": 0.9914712153518124,
      "grad_norm": 0.11607125455980168,
      "kl": 0.0498046875,
      "learning_rate": 6.650036012693095e-10,
      "loss": 0.002,
      "reward": 1.61904776096344,
      "reward_std": 0.3180083930492401,
      "rewards/accuracy_reward": 0.6785714626312256,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.940476268529892,
      "step": 465
    },
    {
      "completion_length": 1182.65185546875,
      "epoch": 0.9936034115138592,
      "grad_norm": 0.13326162495838936,
      "kl": 0.039794921875,
      "learning_rate": 3.7407661916349924e-10,
      "loss": 0.0016,
      "reward": 1.6904762983322144,
      "reward_std": 0.2840602174401283,
      "rewards/accuracy_reward": 0.785714328289032,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9047619998455048,
      "step": 466
    },
    {
      "completion_length": 1316.3215026855469,
      "epoch": 0.9957356076759062,
      "grad_norm": 0.1395927362024972,
      "kl": 0.0367431640625,
      "learning_rate": 1.6626011445919353e-10,
      "loss": 0.0015,
      "reward": 1.5208334922790527,
      "reward_std": 0.2840786427259445,
      "rewards/accuracy_reward": 0.642857164144516,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8779762387275696,
      "step": 467
    },
    {
      "completion_length": 1214.4107666015625,
      "epoch": 0.997867803837953,
      "grad_norm": 0.11120469266241977,
      "kl": 0.03289794921875,
      "learning_rate": 4.156560451462621e-11,
      "loss": 0.0013,
      "reward": 1.5952381491661072,
      "reward_std": 0.220785453915596,
      "rewards/accuracy_reward": 0.6696428656578064,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9255953431129456,
      "step": 468
    },
    {
      "completion_length": 1323.894287109375,
      "epoch": 1.0,
      "grad_norm": 0.11988431616837944,
      "kl": 0.0323486328125,
      "learning_rate": 0.0,
      "loss": 0.0013,
      "reward": 1.6934524774551392,
      "reward_std": 0.2353028729557991,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/format_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9434524774551392,
      "step": 469
    },
    {
      "epoch": 1.0,
      "step": 469,
      "total_flos": 0.0,
      "train_loss": 0.0012212838229837806,
      "train_runtime": 71356.4876,
      "train_samples_per_second": 0.105,
      "train_steps_per_second": 0.007
    }
  ],
  "logging_steps": 1,
  "max_steps": 469,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}