[train] step 0: loss/diff: 0.945337, loss/stop: 0.161467, lr: 0.000000, epoch: 0.000000, grad_norm: 10.750696
[train] step 100: loss/diff: 1.036662, loss/stop: 0.019588, lr: 0.000001, epoch: 0.000910, grad_norm: 5.212692, log interval: 73.36s
[train] step 200: loss/diff: 0.994111, loss/stop: 0.011338, lr: 0.000002, epoch: 0.001820, grad_norm: 3.055358, log interval: 45.93s
[train] step 300: loss/diff: 0.886275, loss/stop: 0.011979, lr: 0.000003, epoch: 0.002730, grad_norm: 2.238166, log interval: 40.66s
[train] step 400: loss/diff: 0.892217, loss/stop: 0.012973, lr: 0.000004, epoch: 0.003641, grad_norm: 1.878980, log interval: 44.88s
[train] step 500: loss/diff: 0.965479, loss/stop: 0.052462, lr: 0.000005, epoch: 0.004551, grad_norm: 2.998939, log interval: 47.17s
[train] step 600: loss/diff: 0.819023, loss/stop: 0.004427, lr: 0.000006, epoch: 0.005461, grad_norm: 2.300835, log interval: 45.97s
[train] step 700: loss/diff: 0.890742, loss/stop: 0.013981, lr: 0.000007, epoch: 0.006371, grad_norm: 2.964619, log interval: 41.37s
[train] step 800: loss/diff: 0.856536, loss/stop: 0.006308, lr: 0.000008, epoch: 0.007281, grad_norm: 1.903850, log interval: 42.50s
[train] step 900: loss/diff: 0.815515, loss/stop: 0.010665, lr: 0.000009, epoch: 0.008191, grad_norm: 1.926526, log interval: 52.34s
[train] step 1000: loss/diff: 0.844374, loss/stop: 0.003583, lr: 0.000010, epoch: 0.009101, grad_norm: 2.417278, log interval: 48.37s
[train] step 1100: loss/diff: 0.836640, loss/stop: 0.041291, lr: 0.000010, epoch: 0.010011, grad_norm: 2.771627, log interval: 43.79s
[train] step 1200: loss/diff: 0.807213, loss/stop: 0.013147, lr: 0.000010, epoch: 0.010922, grad_norm: 1.584111, log interval: 46.69s
[train] step 1300: loss/diff: 0.853815, loss/stop: 0.026261, lr: 0.000010, epoch: 0.011832, grad_norm: 1.942111, log interval: 51.22s
[train] step 1400: loss/diff: 0.873503, loss/stop: 0.099008, lr: 0.000010, epoch: 0.012742, grad_norm: 6.014976, log interval: 47.90s
[train] step 1500: loss/diff: 0.804194, loss/stop: 0.008888, lr: 0.000010, epoch: 0.013652, grad_norm: 2.107894, log interval: 42.60s
[train] step 1600: loss/diff: 0.818104, loss/stop: 0.038037, lr: 0.000010, epoch: 0.014562, grad_norm: 4.912689, log interval: 48.66s
[train] step 1700: loss/diff: 0.854751, loss/stop: 0.005219, lr: 0.000010, epoch: 0.015472, grad_norm: 2.141159, log interval: 51.09s
[train] step 1800: loss/diff: 0.815027, loss/stop: 0.006817, lr: 0.000010, epoch: 0.016382, grad_norm: 1.916133, log interval: 47.00s
[train] step 1900: loss/diff: 0.840091, loss/stop: 0.042460, lr: 0.000010, epoch: 0.017292, grad_norm: 2.246552, log interval: 41.72s
[train] step 2000: loss/diff: 0.782861, loss/stop: 0.006746, lr: 0.000010, epoch: 0.018203, grad_norm: 1.948273, log interval: 50.66s
[train] step 2100: loss/diff: 0.798950, loss/stop: 0.008455, lr: 0.000010, epoch: 0.019113, grad_norm: 2.294590, log interval: 49.28s
[train] step 2200: loss/diff: 0.833141, loss/stop: 0.007355, lr: 0.000010, epoch: 0.020023, grad_norm: 1.474977, log interval: 45.99s
[train] step 2300: loss/diff: 0.823064, loss/stop: 0.035255, lr: 0.000010, epoch: 0.020933, grad_norm: 1.903347, log interval: 42.16s
[train] step 2400: loss/diff: 0.894309, loss/stop: 0.017013, lr: 0.000010, epoch: 0.021843, grad_norm: 4.129773, log interval: 51.41s
[train] step 2500: loss/diff: 0.824736, loss/stop: 0.017176, lr: 0.000010, epoch: 0.022753, grad_norm: 3.205794, log interval: 47.90s
[train] step 2600: loss/diff: 0.957059, loss/stop: 0.015165, lr: 0.000010, epoch: 0.023663, grad_norm: 2.406800, log interval: 45.37s
[train] step 2700: loss/diff: 0.810969, loss/stop: 0.040426, lr: 0.000010, epoch: 0.024573, grad_norm: 1.978876, log interval: 42.15s
[train] step 2800: loss/diff: 0.853654, loss/stop: 0.025237, lr: 0.000010, epoch: 0.025484, grad_norm: 1.849117, log interval: 52.50s
[train] step 2900: loss/diff: 0.831709, loss/stop: 0.019056, lr: 0.000010, epoch: 0.026394, grad_norm: 1.656933, log interval: 48.11s
[train] step 3000: loss/diff: 0.872593, loss/stop: 0.015791, lr: 0.000010, epoch: 0.027304, grad_norm: 2.958717, log interval: 45.12s
[train] step 3100: loss/diff: 0.763078, loss/stop: 0.010716, lr: 0.000010, epoch: 0.028214, grad_norm: 1.365893, log interval: 45.93s
[train] step 3200: loss/diff: 0.823103, loss/stop: 0.009678, lr: 0.000010, epoch: 0.029124, grad_norm: 1.727501, log interval: 51.14s
[train] step 3300: loss/diff: 0.806655, loss/stop: 0.010154, lr: 0.000010, epoch: 0.030034, grad_norm: 1.881379, log interval: 47.55s
[train] step 3400: loss/diff: 0.753730, loss/stop: 0.012654, lr: 0.000010, epoch: 0.030944, grad_norm: 1.547230, log interval: 41.15s
[train] step 3500: loss/diff: 0.799889, loss/stop: 0.011098, lr: 0.000010, epoch: 0.031854, grad_norm: 2.206372, log interval: 46.85s
[train] step 3600: loss/diff: 0.859928, loss/stop: 0.006059, lr: 0.000010, epoch: 0.032765, grad_norm: 1.667548, log interval: 50.27s
[train] step 3700: loss/diff: 0.833226, loss/stop: 0.001378, lr: 0.000010, epoch: 0.033675, grad_norm: 1.577006, log interval: 48.41s
[train] step 3800: loss/diff: 0.886245, loss/stop: 0.079404, lr: 0.000010, epoch: 0.034585, grad_norm: 3.034210, log interval: 41.95s
[train] step 3900: loss/diff: 0.849734, loss/stop: 0.007212, lr: 0.000010, epoch: 0.035495, grad_norm: 1.575701, log interval: 49.33s
[train] step 4000: loss/diff: 0.872100, loss/stop: 0.011148, lr: 0.000010, epoch: 0.036405, grad_norm: 2.286832, log interval: 50.49s
[train] step 4100: loss/diff: 0.833812, loss/stop: 0.177555, lr: 0.000010, epoch: 0.037315, grad_norm: 3.074027, log interval: 45.39s
[train] step 4200: loss/diff: 0.830972, loss/stop: 0.005394, lr: 0.000010, epoch: 0.038225, grad_norm: 1.577475, log interval: 41.18s
[train] step 4300: loss/diff: 0.810868, loss/stop: 0.003697, lr: 0.000010, epoch: 0.039135, grad_norm: 1.448498, log interval: 51.28s
[train] step 4400: loss/diff: 0.812351, loss/stop: 0.129780, lr: 0.000010, epoch: 0.040046, grad_norm: 2.403125, log interval: 48.65s
[train] step 4500: loss/diff: 0.811396, loss/stop: 0.005137, lr: 0.000010, epoch: 0.040956, grad_norm: 2.249212, log interval: 46.20s
[train] step 4600: loss/diff: 0.861564, loss/stop: 0.012547, lr: 0.000010, epoch: 0.041866, grad_norm: 2.035139, log interval: 43.26s
[train] step 4700: loss/diff: 0.795398, loss/stop: 0.003448, lr: 0.000010, epoch: 0.042776, grad_norm: 1.881726, log interval: 51.20s
[train] step 4800: loss/diff: 0.848745, loss/stop: 0.002656, lr: 0.000010, epoch: 0.043686, grad_norm: 1.859997, log interval: 49.16s
[train] step 4900: loss/diff: 0.792223, loss/stop: 0.019362, lr: 0.000010, epoch: 0.044596, grad_norm: 1.713321, log interval: 44.47s
[train] step 5000: loss/diff: 0.832220, loss/stop: 0.050277, lr: 0.000010, epoch: 0.045506, grad_norm: 2.129957, log interval: 41.71s
[train] step 5100: loss/diff: 0.763620, loss/stop: 0.010521, lr: 0.000010, epoch: 0.046416, grad_norm: 1.969034, log interval: 91.14s
[train] step 5200: loss/diff: 0.826657, loss/stop: 0.033468, lr: 0.000010, epoch: 0.047327, grad_norm: 1.944578, log interval: 45.45s
[train] step 5300: loss/diff: 0.772739, loss/stop: 0.019445, lr: 0.000010, epoch: 0.048237, grad_norm: 1.669982, log interval: 46.10s
[train] step 5400: loss/diff: 0.841979, loss/stop: 0.007262, lr: 0.000010, epoch: 0.049147, grad_norm: 1.341246, log interval: 52.11s
[train] step 5500: loss/diff: 0.821724, loss/stop: 0.030250, lr: 0.000010, epoch: 0.050057, grad_norm: 2.100250, log interval: 50.11s
[train] step 5600: loss/diff: 0.789333, loss/stop: 0.003968, lr: 0.000010, epoch: 0.050967, grad_norm: 1.425332, log interval: 46.83s
[train] step 5700: loss/diff: 0.807049, loss/stop: 0.001132, lr: 0.000010, epoch: 0.051877, grad_norm: 1.683583, log interval: 51.67s
[train] step 5800: loss/diff: 0.811931, loss/stop: 0.001876, lr: 0.000010, epoch: 0.052787, grad_norm: 1.808083, log interval: 52.91s
[train] step 5900: loss/diff: 0.898612, loss/stop: 0.007006, lr: 0.000010, epoch: 0.053697, grad_norm: 1.498482, log interval: 49.97s
[train] step 6000: loss/diff: 0.779795, loss/stop: 0.025774, lr: 0.000010, epoch: 0.054608, grad_norm: 1.767915, log interval: 47.27s
[train] step 6100: loss/diff: 0.760699, loss/stop: 0.004372, lr: 0.000010, epoch: 0.055518, grad_norm: 1.543232, log interval: 54.52s
[train] step 6200: loss/diff: 0.844803, loss/stop: 0.011547, lr: 0.000010, epoch: 0.056428, grad_norm: 1.575755, log interval: 51.76s
[train] step 6300: loss/diff: 0.801650, loss/stop: 0.028375, lr: 0.000010, epoch: 0.057338, grad_norm: 1.938218, log interval: 48.53s
[train] step 6400: loss/diff: 0.840679, loss/stop: 0.017662, lr: 0.000010, epoch: 0.058248, grad_norm: 4.045776, log interval: 50.29s
[train] step 6500: loss/diff: 0.854996, loss/stop: 0.000228, lr: 0.000010, epoch: 0.059158, grad_norm: 1.632609, log interval: 53.75s
[train] step 6600: loss/diff: 0.779296, loss/stop: 0.004072, lr: 0.000010, epoch: 0.060068, grad_norm: 1.726526, log interval: 48.26s
[train] step 6700: loss/diff: 0.807779, loss/stop: 0.002111, lr: 0.000010, epoch: 0.060978, grad_norm: 1.977667, log interval: 45.00s
[train] step 6800: loss/diff: 0.838545, loss/stop: 0.012996, lr: 0.000010, epoch: 0.061889, grad_norm: 2.045593, log interval: 54.45s
[train] step 6900: loss/diff: 0.780556, loss/stop: 0.030553, lr: 0.000010, epoch: 0.062799, grad_norm: 1.833973, log interval: 53.83s
[train] step 7000: loss/diff: 0.703378, loss/stop: 0.002313, lr: 0.000010, epoch: 0.063709, grad_norm: 1.646361, log interval: 47.68s
[train] step 7100: loss/diff: 0.838116, loss/stop: 0.042493, lr: 0.000010, epoch: 0.064619, grad_norm: 2.161139, log interval: 49.05s
[train] step 7200: loss/diff: 0.859626, loss/stop: 0.016224, lr: 0.000010, epoch: 0.065529, grad_norm: 1.427512, log interval: 54.37s
[train] step 7300: loss/diff: 0.846892, loss/stop: 0.000713, lr: 0.000010, epoch: 0.066439, grad_norm: 1.437575, log interval: 52.01s
[train] step 7400: loss/diff: 0.847380, loss/stop: 0.002853, lr: 0.000010, epoch: 0.067349, grad_norm: 1.588065, log interval: 46.99s
[train] step 7500: loss/diff: 0.786688, loss/stop: 0.004876, lr: 0.000010, epoch: 0.068259, grad_norm: 1.503016, log interval: 54.08s
[train] step 7600: loss/diff: 0.828903, loss/stop: 0.022464, lr: 0.000010, epoch: 0.069170, grad_norm: 1.985066, log interval: 52.70s
[train] step 7700: loss/diff: 0.860738, loss/stop: 0.000399, lr: 0.000010, epoch: 0.070080, grad_norm: 1.595222, log interval: 47.59s
[train] step 7800: loss/diff: 0.807542, loss/stop: 0.006540, lr: 0.000010, epoch: 0.070990, grad_norm: 1.493540, log interval: 48.24s
[train] step 7900: loss/diff: 0.829764, loss/stop: 0.011383, lr: 0.000010, epoch: 0.071900, grad_norm: 1.505713, log interval: 54.73s
[train] step 8000: loss/diff: 0.846719, loss/stop: 0.014264, lr: 0.000010, epoch: 0.072810, grad_norm: 1.841145, log interval: 51.81s
[train] step 8100: loss/diff: 0.857860, loss/stop: 0.014728, lr: 0.000010, epoch: 0.073720, grad_norm: 1.792690, log interval: 45.81s
[train] step 8200: loss/diff: 0.775140, loss/stop: 0.011828, lr: 0.000010, epoch: 0.074630, grad_norm: 2.316351, log interval: 53.17s
[train] step 8300: loss/diff: 0.891094, loss/stop: 0.013202, lr: 0.000010, epoch: 0.075540, grad_norm: 2.196612, log interval: 52.53s
[train] step 8400: loss/diff: 0.732676, loss/stop: 0.013054, lr: 0.000010, epoch: 0.076451, grad_norm: 1.519932, log interval: 49.99s
[train] step 8500: loss/diff: 0.819341, loss/stop: 0.005148, lr: 0.000010, epoch: 0.077361, grad_norm: 2.785350, log interval: 49.02s
[train] step 8600: loss/diff: 0.847047, loss/stop: 0.012163, lr: 0.000010, epoch: 0.078271, grad_norm: 2.626301, log interval: 54.27s
[train] step 8700: loss/diff: 0.801657, loss/stop: 0.005511, lr: 0.000010, epoch: 0.079181, grad_norm: 1.928145, log interval: 53.71s
[train] step 8800: loss/diff: 0.774179, loss/stop: 0.001425, lr: 0.000010, epoch: 0.080091, grad_norm: 1.491345, log interval: 45.21s
[train] step 8900: loss/diff: 0.765209, loss/stop: 0.004429, lr: 0.000010, epoch: 0.081001, grad_norm: 2.195398, log interval: 53.55s
[train] step 9000: loss/diff: 0.802624, loss/stop: 0.013809, lr: 0.000010, epoch: 0.081911, grad_norm: 1.957867, log interval: 53.77s
[train] step 9100: loss/diff: 0.847124, loss/stop: 0.004946, lr: 0.000010, epoch: 0.082821, grad_norm: 1.855167, log interval: 48.06s
[train] step 9200: loss/diff: 0.803578, loss/stop: 0.012448, lr: 0.000010, epoch: 0.083732, grad_norm: 1.967852, log interval: 49.16s
[train] step 9300: loss/diff: 0.804008, loss/stop: 0.007074, lr: 0.000010, epoch: 0.084642, grad_norm: 1.998690, log interval: 53.79s
[train] step 9400: loss/diff: 0.761458, loss/stop: 0.023263, lr: 0.000010, epoch: 0.085552, grad_norm: 1.693171, log interval: 52.94s
[train] step 9500: loss/diff: 0.801561, loss/stop: 0.001023, lr: 0.000010, epoch: 0.086462, grad_norm: 1.423303, log interval: 47.50s
[train] step 9600: loss/diff: 0.846951, loss/stop: 0.020230, lr: 0.000010, epoch: 0.087372, grad_norm: 1.492908, log interval: 51.72s
[train] step 9700: loss/diff: 0.791544, loss/stop: 0.034779, lr: 0.000010, epoch: 0.088282, grad_norm: 1.538309, log interval: 54.59s
[train] step 9800: loss/diff: 0.808286, loss/stop: 0.007666, lr: 0.000010, epoch: 0.089192, grad_norm: 1.642385, log interval: 50.80s
[train] step 9900: loss/diff: 0.833180, loss/stop: 0.013600, lr: 0.000010, epoch: 0.090102, grad_norm: 1.757222, log interval: 47.31s
[train] step 10000: loss/diff: 0.802698, loss/stop: 0.023207, lr: 0.000010, epoch: 0.091013, grad_norm: 1.528162, log interval: 54.11s
[train] step 10100: loss/diff: 0.829478, loss/stop: 0.003086, lr: 0.000010, epoch: 0.091923, grad_norm: 1.492857, log interval: 103.73s
[train] step 10200: loss/diff: 0.794656, loss/stop: 0.012798, lr: 0.000010, epoch: 0.092833, grad_norm: 1.496839, log interval: 51.43s
[train] step 10300: loss/diff: 0.864436, loss/stop: 0.006948, lr: 0.000010, epoch: 0.093743, grad_norm: 1.284122, log interval: 53.16s
[train] step 10400: loss/diff: 0.792066, loss/stop: 0.001344, lr: 0.000010, epoch: 0.094653, grad_norm: 1.685514, log interval: 46.83s
[train] step 10500: loss/diff: 0.887598, loss/stop: 0.000647, lr: 0.000010, epoch: 0.095563, grad_norm: 1.360155, log interval: 45.92s
[train] step 10600: loss/diff: 0.833666, loss/stop: 0.003822, lr: 0.000010, epoch: 0.096473, grad_norm: 1.654978, log interval: 53.08s
[train] step 10700: loss/diff: 0.846116, loss/stop: 0.016826, lr: 0.000010, epoch: 0.097383, grad_norm: 1.751824, log interval: 50.67s
[train] step 10800: loss/diff: 0.781197, loss/stop: 0.013600, lr: 0.000010, epoch: 0.098294, grad_norm: 2.398434, log interval: 45.01s
[train] step 10900: loss/diff: 0.796379, loss/stop: 0.026893, lr: 0.000010, epoch: 0.099204, grad_norm: 1.762353, log interval: 47.62s
[train] step 11000: loss/diff: 0.818848, loss/stop: 0.006247, lr: 0.000010, epoch: 0.100114, grad_norm: 1.461405, log interval: 51.65s
[train] step 11100: loss/diff: 0.803247, loss/stop: 0.043215, lr: 0.000010, epoch: 0.101024, grad_norm: 2.103035, log interval: 52.75s
[train] step 11200: loss/diff: 0.793100, loss/stop: 0.031699, lr: 0.000010, epoch: 0.101934, grad_norm: 1.558235, log interval: 43.52s
[train] step 11300: loss/diff: 0.811572, loss/stop: 0.041383, lr: 0.000010, epoch: 0.102844, grad_norm: 2.036428, log interval: 50.57s
[train] step 11400: loss/diff: 0.865375, loss/stop: 0.014060, lr: 0.000010, epoch: 0.103754, grad_norm: 1.343364, log interval: 51.45s
[train] step 11500: loss/diff: 0.784004, loss/stop: 0.025009, lr: 0.000010, epoch: 0.104664, grad_norm: 2.014946, log interval: 47.17s
[train] step 11600: loss/diff: 0.870990, loss/stop: 0.073184, lr: 0.000010, epoch: 0.105575, grad_norm: 2.429199, log interval: 46.00s
[train] step 11700: loss/diff: 0.820330, loss/stop: 0.003649, lr: 0.000010, epoch: 0.106485, grad_norm: 1.583343, log interval: 52.44s
[train] step 11800: loss/diff: 0.794782, loss/stop: 0.015393, lr: 0.000010, epoch: 0.107395, grad_norm: 1.446271, log interval: 49.17s
[train] step 11900: loss/diff: 0.797873, loss/stop: 0.020447, lr: 0.000010, epoch: 0.108305, grad_norm: 1.674587, log interval: 45.19s
[train] step 12000: loss/diff: 0.809426, loss/stop: 0.004692, lr: 0.000010, epoch: 0.109215, grad_norm: 1.371387, log interval: 46.73s
[train] step 12100: loss/diff: 0.776964, loss/stop: 0.003448, lr: 0.000010, epoch: 0.110125, grad_norm: 1.747926, log interval: 51.22s
[train] step 12200: loss/diff: 0.937664, loss/stop: 0.082320, lr: 0.000010, epoch: 0.111035, grad_norm: 2.932782, log interval: 49.08s
[train] step 12300: loss/diff: 0.811576, loss/stop: 0.005077, lr: 0.000010, epoch: 0.111945, grad_norm: 1.503590, log interval: 44.39s
[train] step 12400: loss/diff: 0.768199, loss/stop: 0.008348, lr: 0.000010, epoch: 0.112856, grad_norm: 7.773167, log interval: 51.15s
[train] step 12500: loss/diff: 0.817257, loss/stop: 0.000764, lr: 0.000010, epoch: 0.113766, grad_norm: 1.550447, log interval: 52.77s
[train] step 12600: loss/diff: 0.842261, loss/stop: 0.007199, lr: 0.000010, epoch: 0.114676, grad_norm: 1.335530, log interval: 49.79s
[train] step 12700: loss/diff: 0.874294, loss/stop: 0.004803, lr: 0.000010, epoch: 0.115586, grad_norm: 1.303319, log interval: 46.22s
[train] step 12800: loss/diff: 0.810183, loss/stop: 0.099351, lr: 0.000010, epoch: 0.116496, grad_norm: 2.514364, log interval: 54.95s
[train] step 12900: loss/diff: 0.806242, loss/stop: 0.040363, lr: 0.000010, epoch: 0.117406, grad_norm: 1.925003, log interval: 51.64s
[train] step 13000: loss/diff: 0.866004, loss/stop: 0.001187, lr: 0.000010, epoch: 0.118316, grad_norm: 1.585909, log interval: 47.97s
[train] step 13100: loss/diff: 0.794450, loss/stop: 0.028300, lr: 0.000010, epoch: 0.119226, grad_norm: 1.673910, log interval: 52.49s
[train] step 13200: loss/diff: 0.803838, loss/stop: 0.020583, lr: 0.000010, epoch: 0.120137, grad_norm: 1.655252, log interval: 54.40s
[train] step 13300: loss/diff: 0.812957, loss/stop: 0.010145, lr: 0.000010, epoch: 0.121047, grad_norm: 2.019775, log interval: 50.65s
[train] step 13400: loss/diff: 0.853329, loss/stop: 0.005897, lr: 0.000010, epoch: 0.121957, grad_norm: 2.032490, log interval: 47.24s
[train] step 13500: loss/diff: 0.798466, loss/stop: 0.002156, lr: 0.000010, epoch: 0.122867, grad_norm: 1.388633, log interval: 56.21s
[train] step 13600: loss/diff: 0.818930, loss/stop: 0.079285, lr: 0.000010, epoch: 0.123777, grad_norm: 1.657511, log interval: 51.58s
[train] step 13700: loss/diff: 0.830263, loss/stop: 0.000360, lr: 0.000010, epoch: 0.124687, grad_norm: 2.144994, log interval: 47.81s
[train] step 13800: loss/diff: 0.838816, loss/stop: 0.001059, lr: 0.000010, epoch: 0.125597, grad_norm: 1.317464, log interval: 52.02s
[train] step 13900: loss/diff: 0.788228, loss/stop: 0.003919, lr: 0.000010, epoch: 0.126507, grad_norm: 1.344717, log interval: 54.58s
[train] step 14000: loss/diff: 0.848909, loss/stop: 0.021113, lr: 0.000010, epoch: 0.127418, grad_norm: 1.293105, log interval: 50.88s
[train] step 14100: loss/diff: 0.842003, loss/stop: 0.121328, lr: 0.000010, epoch: 0.128328, grad_norm: 2.224199, log interval: 46.77s
[train] step 14200: loss/diff: 0.853775, loss/stop: 0.032398, lr: 0.000010, epoch: 0.129238, grad_norm: 1.700935, log interval: 55.53s
[train] step 14300: loss/diff: 0.836912, loss/stop: 0.011707, lr: 0.000010, epoch: 0.130148, grad_norm: 1.426713, log interval: 51.88s
[train] step 14400: loss/diff: 0.817369, loss/stop: 0.010228, lr: 0.000010, epoch: 0.131058, grad_norm: 1.542147, log interval: 47.18s
[train] step 14500: loss/diff: 0.874320, loss/stop: 0.003187, lr: 0.000010, epoch: 0.131968, grad_norm: 2.804105, log interval: 52.10s
[train] step 14600: loss/diff: 0.738242, loss/stop: 0.007057, lr: 0.000010, epoch: 0.132878, grad_norm: 1.255053, log interval: 53.26s
[train] step 14700: loss/diff: 0.790109, loss/stop: 0.001996, lr: 0.000010, epoch: 0.133788, grad_norm: 1.624057, log interval: 49.60s
[train] step 14800: loss/diff: 0.827333, loss/stop: 0.005762, lr: 0.000010, epoch: 0.134699, grad_norm: 1.704540, log interval: 46.91s
[train] step 14900: loss/diff: 0.741701, loss/stop: 0.011627, lr: 0.000010, epoch: 0.135609, grad_norm: 2.155784, log interval: 53.88s
[train] step 15000: loss/diff: 0.836665, loss/stop: 0.001206, lr: 0.000010, epoch: 0.136519, grad_norm: 1.580760, log interval: 50.67s
[train] step 15100: loss/diff: 0.783980, loss/stop: 0.002740, lr: 0.000010, epoch: 0.137429, grad_norm: 1.303604, log interval: 80.74s
[train] step 15200: loss/diff: 0.870004, loss/stop: 0.021817, lr: 0.000010, epoch: 0.138339, grad_norm: 2.221548, log interval: 53.02s
[train] step 15300: loss/diff: 0.836459, loss/stop: 0.007099, lr: 0.000009, epoch: 0.139249, grad_norm: 3.458708, log interval: 50.99s
[train] step 15400: loss/diff: 0.734664, loss/stop: 0.009336, lr: 0.000009, epoch: 0.140159, grad_norm: 1.397753, log interval: 45.90s
[train] step 15500: loss/diff: 0.849437, loss/stop: 0.002235, lr: 0.000009, epoch: 0.141069, grad_norm: 1.441753, log interval: 49.31s
[train] step 15600: loss/diff: 0.878892, loss/stop: 0.009324, lr: 0.000009, epoch: 0.141980, grad_norm: 1.739004, log interval: 51.89s
[train] step 15700: loss/diff: 0.804104, loss/stop: 0.039686, lr: 0.000009, epoch: 0.142890, grad_norm: 2.181510, log interval: 48.63s
[train] step 15800: loss/diff: 0.809990, loss/stop: 0.001555, lr: 0.000009, epoch: 0.143800, grad_norm: 1.544194, log interval: 43.31s
[train] step 15900: loss/diff: 0.839138, loss/stop: 0.000686, lr: 0.000009, epoch: 0.144710, grad_norm: 1.256171, log interval: 51.05s
[train] step 16000: loss/diff: 0.762872, loss/stop: 0.012533, lr: 0.000009, epoch: 0.145620, grad_norm: 1.874486, log interval: 51.78s
[train] step 16100: loss/diff: 0.843610, loss/stop: 0.001902, lr: 0.000009, epoch: 0.146530, grad_norm: 1.460208, log interval: 48.37s
[train] step 16200: loss/diff: 0.800355, loss/stop: 0.000880, lr: 0.000009, epoch: 0.147440, grad_norm: 1.786588, log interval: 45.36s
[train] step 16300: loss/diff: 0.784147, loss/stop: 0.005379, lr: 0.000009, epoch: 0.148350, grad_norm: 1.402681, log interval: 53.94s
[train] step 16400: loss/diff: 0.827465, loss/stop: 0.025580, lr: 0.000009, epoch: 0.149261, grad_norm: 1.971121, log interval: 50.78s
[train] step 16500: loss/diff: 0.820165, loss/stop: 0.007385, lr: 0.000009, epoch: 0.150171, grad_norm: 2.094061, log interval: 46.61s
[train] step 16600: loss/diff: 0.824559, loss/stop: 0.024146, lr: 0.000009, epoch: 0.151081, grad_norm: 2.249939, log interval: 50.04s
[train] step 16700: loss/diff: 0.906766, loss/stop: 0.003523, lr: 0.000009, epoch: 0.151991, grad_norm: 1.821806, log interval: 53.40s
[train] step 16800: loss/diff: 0.831926, loss/stop: 0.017201, lr: 0.000009, epoch: 0.152901, grad_norm: 1.533021, log interval: 49.67s
[train] step 16900: loss/diff: 0.845782, loss/stop: 0.005648, lr: 0.000009, epoch: 0.153811, grad_norm: 1.786789, log interval: 44.50s
[train] step 17000: loss/diff: 0.757158, loss/stop: 0.001173, lr: 0.000009, epoch: 0.154721, grad_norm: 2.338756, log interval: 52.24s
[train] step 17100: loss/diff: 0.757033, loss/stop: 0.012539, lr: 0.000009, epoch: 0.155631, grad_norm: 1.627936, log interval: 53.01s
[train] step 17200: loss/diff: 0.794399, loss/stop: 0.003092, lr: 0.000009, epoch: 0.156542, grad_norm: 2.440032, log interval: 46.89s
[train] step 17300: loss/diff: 0.803610, loss/stop: 0.031161, lr: 0.000009, epoch: 0.157452, grad_norm: 1.842654, log interval: 47.58s
[train] step 17400: loss/diff: 0.738886, loss/stop: 0.011228, lr: 0.000009, epoch: 0.158362, grad_norm: 1.464019, log interval: 53.90s
[train] step 17500: loss/diff: 0.844428, loss/stop: 0.003290, lr: 0.000009, epoch: 0.159272, grad_norm: 1.969287, log interval: 49.94s
[train] step 17600: loss/diff: 0.804298, loss/stop: 0.011650, lr: 0.000009, epoch: 0.160182, grad_norm: 1.826537, log interval: 46.02s
[train] step 17700: loss/diff: 0.788605, loss/stop: 0.023818, lr: 0.000009, epoch: 0.161092, grad_norm: 1.797457, log interval: 49.64s
[train] step 17800: loss/diff: 0.809748, loss/stop: 0.005461, lr: 0.000009, epoch: 0.162002, grad_norm: 1.559993, log interval: 51.71s
[train] step 17900: loss/diff: 0.783520, loss/stop: 0.031922, lr: 0.000009, epoch: 0.162912, grad_norm: 1.921369, log interval: 47.57s
[train] step 18000: loss/diff: 0.717593, loss/stop: 0.027147, lr: 0.000009, epoch: 0.163823, grad_norm: 1.813235, log interval: 43.62s
[train] step 18100: loss/diff: 0.793969, loss/stop: 0.006649, lr: 0.000009, epoch: 0.164733, grad_norm: 1.451128, log interval: 53.85s
[train] step 18200: loss/diff: 0.854547, loss/stop: 0.002790, lr: 0.000009, epoch: 0.165643, grad_norm: 1.545710, log interval: 51.68s
[train] step 18300: loss/diff: 0.808471, loss/stop: 0.011254, lr: 0.000009, epoch: 0.166553, grad_norm: 1.710504, log interval: 46.64s
[train] step 18400: loss/diff: 0.838434, loss/stop: 0.004570, lr: 0.000009, epoch: 0.167463, grad_norm: 1.330238, log interval: 46.66s
[train] step 18500: loss/diff: 0.871216, loss/stop: 0.029315, lr: 0.000009, epoch: 0.168373, grad_norm: 1.762417, log interval: 51.45s
[train] step 18600: loss/diff: 0.845756, loss/stop: 0.001081, lr: 0.000009, epoch: 0.169283, grad_norm: 1.575882, log interval: 49.82s
[train] step 18700: loss/diff: 0.837591, loss/stop: 0.007891, lr: 0.000009, epoch: 0.170193, grad_norm: 1.370191, log interval: 44.83s
[train] step 18800: loss/diff: 0.841502, loss/stop: 0.006705, lr: 0.000009, epoch: 0.171104, grad_norm: 2.320843, log interval: 47.93s
[train] step 18900: loss/diff: 0.822250, loss/stop: 0.006092, lr: 0.000009, epoch: 0.172014, grad_norm: 1.815132, log interval: 52.18s
[train] step 19000: loss/diff: 0.779839, loss/stop: 0.012690, lr: 0.000009, epoch: 0.172924, grad_norm: 1.656896, log interval: 48.40s
[train] step 19100: loss/diff: 0.856190, loss/stop: 0.000966, lr: 0.000009, epoch: 0.173834, grad_norm: 1.234722, log interval: 44.96s
[train] step 19200: loss/diff: 0.745074, loss/stop: 0.002452, lr: 0.000009, epoch: 0.174744, grad_norm: 1.550802, log interval: 50.36s
[train] step 19300: loss/diff: 0.863425, loss/stop: 0.008323, lr: 0.000009, epoch: 0.175654, grad_norm: 2.097249, log interval: 51.64s
[train] step 19400: loss/diff: 0.805668, loss/stop: 0.008334, lr: 0.000009, epoch: 0.176564, grad_norm: 1.341624, log interval: 46.76s
[train] step 19500: loss/diff: 0.796108, loss/stop: 0.029367, lr: 0.000009, epoch: 0.177474, grad_norm: 1.859908, log interval: 44.33s
[train] step 19600: loss/diff: 0.844565, loss/stop: 0.003446, lr: 0.000009, epoch: 0.178385, grad_norm: 1.207698, log interval: 52.14s
[train] step 19700: loss/diff: 0.800466, loss/stop: 0.005141, lr: 0.000009, epoch: 0.179295, grad_norm: 1.400539, log interval: 50.03s
[train] step 19800: loss/diff: 0.825599, loss/stop: 0.007577, lr: 0.000009, epoch: 0.180205, grad_norm: 1.297974, log interval: 45.18s
[train] step 19900: loss/diff: 0.762607, loss/stop: 0.009691, lr: 0.000009, epoch: 0.181115, grad_norm: 1.248597, log interval: 48.51s
[train] step 20000: loss/diff: 0.819445, loss/stop: 0.007395, lr: 0.000009, epoch: 0.182025, grad_norm: 1.261696, log interval: 52.13s
[train] step 20100: loss/diff: 0.813949, loss/stop: 0.018908, lr: 0.000009, epoch: 0.182935, grad_norm: 2.013187, log interval: 71.28s
[train] step 20200: loss/diff: 0.812665, loss/stop: 0.013008, lr: 0.000009, epoch: 0.183845, grad_norm: 2.102784, log interval: 47.76s
[train] step 20300: loss/diff: 0.808395, loss/stop: 0.006035, lr: 0.000009, epoch: 0.184755, grad_norm: 1.603860, log interval: 52.96s
[train] step 20400: loss/diff: 0.832074, loss/stop: 0.012726, lr: 0.000009, epoch: 0.185666, grad_norm: 1.999543, log interval: 50.71s
[train] step 20500: loss/diff: 0.822151, loss/stop: 0.000287, lr: 0.000009, epoch: 0.186576, grad_norm: 1.212536, log interval: 44.59s
[train] step 20600: loss/diff: 0.763479, loss/stop: 0.018885, lr: 0.000009, epoch: 0.187486, grad_norm: 1.624664, log interval: 50.57s
[train] step 20700: loss/diff: 0.721542, loss/stop: 0.002347, lr: 0.000009, epoch: 0.188396, grad_norm: 1.249420, log interval: 50.93s
[train] step 20800: loss/diff: 0.810017, loss/stop: 0.009429, lr: 0.000009, epoch: 0.189306, grad_norm: 1.640139, log interval: 48.24s
[train] step 20900: loss/diff: 0.747085, loss/stop: 0.008491, lr: 0.000009, epoch: 0.190216, grad_norm: 1.536011, log interval: 42.65s
[train] step 21000: loss/diff: 0.790764, loss/stop: 0.015834, lr: 0.000009, epoch: 0.191126, grad_norm: 1.333896, log interval: 52.64s
[train] step 21100: loss/diff: 0.778813, loss/stop: 0.003465, lr: 0.000009, epoch: 0.192036, grad_norm: 3.037752, log interval: 52.13s
[train] step 21200: loss/diff: 0.837184, loss/stop: 0.016047, lr: 0.000009, epoch: 0.192947, grad_norm: 1.864988, log interval: 46.27s
[train] step 21300: loss/diff: 0.799139, loss/stop: 0.018628, lr: 0.000009, epoch: 0.193857, grad_norm: 1.603072, log interval: 46.96s
[train] step 21400: loss/diff: 0.822766, loss/stop: 0.000895, lr: 0.000009, epoch: 0.194767, grad_norm: 1.618560, log interval: 51.01s
[train] step 21500: loss/diff: 0.812920, loss/stop: 0.000595, lr: 0.000009, epoch: 0.195677, grad_norm: 2.015896, log interval: 50.40s
[train] step 21600: loss/diff: 0.828647, loss/stop: 0.027572, lr: 0.000009, epoch: 0.196587, grad_norm: 1.919032, log interval: 44.87s
[train] step 21700: loss/diff: 0.848594, loss/stop: 0.015538, lr: 0.000009, epoch: 0.197497, grad_norm: 1.559445, log interval: 49.83s
[train] step 21800: loss/diff: 0.747291, loss/stop: 0.001509, lr: 0.000009, epoch: 0.198407, grad_norm: 1.650108, log interval: 51.97s
[train] step 21900: loss/diff: 0.944189, loss/stop: 0.072297, lr: 0.000009, epoch: 0.199317, grad_norm: 5.777773, log interval: 47.85s
[train] step 22000: loss/diff: 0.830702, loss/stop: 0.007209, lr: 0.000009, epoch: 0.200228, grad_norm: 1.348784, log interval: 44.72s
[train] step 22100: loss/diff: 0.836501, loss/stop: 0.002826, lr: 0.000009, epoch: 0.201138, grad_norm: 1.699875, log interval: 52.24s
[train] step 22200: loss/diff: 0.793395, loss/stop: 0.014833, lr: 0.000009, epoch: 0.202048, grad_norm: 2.448135, log interval: 51.20s
[train] step 22300: loss/diff: 0.800124, loss/stop: 0.005602, lr: 0.000009, epoch: 0.202958, grad_norm: 1.861482, log interval: 46.26s
[train] step 22400: loss/diff: 0.832401, loss/stop: 0.010667, lr: 0.000009, epoch: 0.203868, grad_norm: 2.536304, log interval: 46.87s
[train] step 22500: loss/diff: 0.871640, loss/stop: 0.017681, lr: 0.000009, epoch: 0.204778, grad_norm: 1.980709, log interval: 51.10s
[train] step 22600: loss/diff: 0.813289, loss/stop: 0.001937, lr: 0.000009, epoch: 0.205688, grad_norm: 1.569371, log interval: 51.54s
[train] step 22700: loss/diff: 0.820407, loss/stop: 0.001700, lr: 0.000009, epoch: 0.206598, grad_norm: 1.545990, log interval: 44.61s
[train] step 22800: loss/diff: 0.764163, loss/stop: 0.007303, lr: 0.000009, epoch: 0.207509, grad_norm: 1.401876, log interval: 49.56s
[train] step 22900: loss/diff: 0.770686, loss/stop: 0.012085, lr: 0.000009, epoch: 0.208419, grad_norm: 1.935871, log interval: 51.02s
[train] step 23000: loss/diff: 0.740561, loss/stop: 0.011536, lr: 0.000009, epoch: 0.209329, grad_norm: 1.591286, log interval: 48.30s
[train] step 23100: loss/diff: 0.815261, loss/stop: 0.004502, lr: 0.000009, epoch: 0.210239, grad_norm: 1.576465, log interval: 43.69s
[train] step 23200: loss/diff: 0.895633, loss/stop: 0.026393, lr: 0.000009, epoch: 0.211149, grad_norm: 1.883797, log interval: 51.24s
[train] step 23300: loss/diff: 0.795434, loss/stop: 0.001508, lr: 0.000009, epoch: 0.212059, grad_norm: 1.096845, log interval: 52.05s
[train] step 23400: loss/diff: 0.770770, loss/stop: 0.015025, lr: 0.000009, epoch: 0.212969, grad_norm: 1.279231, log interval: 47.66s
[train] step 23500: loss/diff: 0.801581, loss/stop: 0.007993, lr: 0.000009, epoch: 0.213879, grad_norm: 1.297890, log interval: 45.39s
[train] step 23600: loss/diff: 0.874858, loss/stop: 0.006474, lr: 0.000009, epoch: 0.214790, grad_norm: 1.610908, log interval: 53.87s
[train] step 23700: loss/diff: 0.782781, loss/stop: 0.032831, lr: 0.000009, epoch: 0.215700, grad_norm: 1.900825, log interval: 49.73s
[train] step 23800: loss/diff: 0.795277, loss/stop: 0.003006, lr: 0.000009, epoch: 0.216610, grad_norm: 1.631489, log interval: 45.48s
[train] step 23900: loss/diff: 0.826800, loss/stop: 0.013997, lr: 0.000009, epoch: 0.217520, grad_norm: 1.728986, log interval: 47.45s
[train] step 24000: loss/diff: 0.802012, loss/stop: 0.011331, lr: 0.000009, epoch: 0.218430, grad_norm: 2.013059, log interval: 52.08s
[train] step 24100: loss/diff: 0.749374, loss/stop: 0.053570, lr: 0.000009, epoch: 0.219340, grad_norm: 2.098025, log interval: 48.99s
[train] step 24200: loss/diff: 0.808454, loss/stop: 0.004203, lr: 0.000009, epoch: 0.220250, grad_norm: 1.572468, log interval: 43.44s
[train] step 24300: loss/diff: 0.858899, loss/stop: 0.013482, lr: 0.000009, epoch: 0.221160, grad_norm: 1.497574, log interval: 48.94s
[train] step 24400: loss/diff: 0.860196, loss/stop: 0.014811, lr: 0.000009, epoch: 0.222071, grad_norm: 1.946038, log interval: 52.04s
[train] step 24500: loss/diff: 0.775111, loss/stop: 0.011479, lr: 0.000009, epoch: 0.222981, grad_norm: 1.755616, log interval: 47.74s
[train] step 24600: loss/diff: 0.825897, loss/stop: 0.000523, lr: 0.000009, epoch: 0.223891, grad_norm: 1.291276, log interval: 43.35s
[train] step 24700: loss/diff: 0.869252, loss/stop: 0.008686, lr: 0.000009, epoch: 0.224801, grad_norm: 1.761313, log interval: 51.84s
[train] step 24800: loss/diff: 0.790323, loss/stop: 0.003883, lr: 0.000009, epoch: 0.225711, grad_norm: 1.406087, log interval: 50.85s
[train] step 24900: loss/diff: 0.742633, loss/stop: 0.001765, lr: 0.000009, epoch: 0.226621, grad_norm: 1.522518, log interval: 48.11s
[train] step 25000: loss/diff: 0.787361, loss/stop: 0.022975, lr: 0.000009, epoch: 0.227531, grad_norm: 1.663960, log interval: 47.10s
[train] step 25100: loss/diff: 0.800023, loss/stop: 0.006824, lr: 0.000009, epoch: 0.228441, grad_norm: 1.402070, log interval: 87.80s
[train] step 25200: loss/diff: 0.856599, loss/stop: 0.015126, lr: 0.000009, epoch: 0.229352, grad_norm: 1.872695, log interval: 45.44s
[train] step 25300: loss/diff: 0.808197, loss/stop: 0.009251, lr: 0.000009, epoch: 0.230262, grad_norm: 1.448966, log interval: 47.86s
[train] step 25400: loss/diff: 0.854716, loss/stop: 0.015869, lr: 0.000009, epoch: 0.231172, grad_norm: 1.756069, log interval: 54.55s
[train] step 25500: loss/diff: 0.806136, loss/stop: 0.002722, lr: 0.000009, epoch: 0.232082, grad_norm: 2.219621, log interval: 50.65s
[train] step 25600: loss/diff: 0.764570, loss/stop: 0.002303, lr: 0.000009, epoch: 0.232992, grad_norm: 2.373373, log interval: 44.60s
[train] step 25700: loss/diff: 0.826704, loss/stop: 0.039265, lr: 0.000009, epoch: 0.233902, grad_norm: 1.855698, log interval: 55.00s
[train] step 25800: loss/diff: 0.744378, loss/stop: 0.006910, lr: 0.000009, epoch: 0.234812, grad_norm: 1.442748, log interval: 56.04s
[train] step 25900: loss/diff: 0.755215, loss/stop: 0.019422, lr: 0.000009, epoch: 0.235722, grad_norm: 2.404773, log interval: 46.47s
[train] step 26000: loss/diff: 0.790129, loss/stop: 0.009895, lr: 0.000009, epoch: 0.236633, grad_norm: 1.747031, log interval: 47.00s
[train] step 26100: loss/diff: 0.828501, loss/stop: 0.016969, lr: 0.000008, epoch: 0.237543, grad_norm: 2.032062, log interval: 51.87s
[train] step 26200: loss/diff: 0.785783, loss/stop: 0.011648, lr: 0.000008, epoch: 0.238453, grad_norm: 1.727655, log interval: 50.31s
[train] step 26300: loss/diff: 0.771897, loss/stop: 0.007695, lr: 0.000008, epoch: 0.239363, grad_norm: 1.716674, log interval: 46.43s
[train] step 26400: loss/diff: 0.807716, loss/stop: 0.052113, lr: 0.000008, epoch: 0.240273, grad_norm: 1.438084, log interval: 49.90s
[train] step 26500: loss/diff: 0.785011, loss/stop: 0.076204, lr: 0.000008, epoch: 0.241183, grad_norm: 1.838576, log interval: 49.85s
[train] step 26600: loss/diff: 0.785883, loss/stop: 0.004552, lr: 0.000008, epoch: 0.242093, grad_norm: 1.461907, log interval: 47.66s
[train] step 26700: loss/diff: 0.829912, loss/stop: 0.007786, lr: 0.000008, epoch: 0.243003, grad_norm: 1.330764, log interval: 44.91s
[train] step 26800: loss/diff: 0.790429, loss/stop: 0.001414, lr: 0.000008, epoch: 0.243914, grad_norm: 1.350963, log interval: 51.79s
[train] step 26900: loss/diff: 0.823543, loss/stop: 0.007559, lr: 0.000008, epoch: 0.244824, grad_norm: 1.474052, log interval: 51.75s
[train] step 27000: loss/diff: 0.787250, loss/stop: 0.004678, lr: 0.000008, epoch: 0.245734, grad_norm: 1.807300, log interval: 47.21s
[train] step 27100: loss/diff: 0.966304, loss/stop: 0.003415, lr: 0.000008, epoch: 0.246644, grad_norm: 1.674811, log interval: 45.69s
[train] step 27200: loss/diff: 0.802172, loss/stop: 0.013565, lr: 0.000008, epoch: 0.247554, grad_norm: 2.544015, log interval: 52.42s
[train] step 27300: loss/diff: 0.913540, loss/stop: 0.002378, lr: 0.000008, epoch: 0.248464, grad_norm: 1.699684, log interval: 50.62s
[train] step 27400: loss/diff: 0.867492, loss/stop: 0.012681, lr: 0.000008, epoch: 0.249374, grad_norm: 1.410390, log interval: 45.57s
[train] step 27500: loss/diff: 0.747883, loss/stop: 0.000459, lr: 0.000008, epoch: 0.250284, grad_norm: 1.682073, log interval: 49.21s
[train] step 27600: loss/diff: 0.790301, loss/stop: 0.004373, lr: 0.000008, epoch: 0.251195, grad_norm: 1.325605, log interval: 52.94s
[train] step 27700: loss/diff: 0.778180, loss/stop: 0.032164, lr: 0.000008, epoch: 0.252105, grad_norm: 1.556669, log interval: 50.75s
[train] step 27800: loss/diff: 0.812474, loss/stop: 0.004090, lr: 0.000008, epoch: 0.253015, grad_norm: 1.546405, log interval: 44.60s
[train] step 27900: loss/diff: 0.800836, loss/stop: 0.013819, lr: 0.000008, epoch: 0.253925, grad_norm: 1.822489, log interval: 52.69s
[train] step 28000: loss/diff: 0.843214, loss/stop: 0.001575, lr: 0.000008, epoch: 0.254835, grad_norm: 1.261679, log interval: 53.24s
[train] step 28100: loss/diff: 0.829061, loss/stop: 0.001084, lr: 0.000008, epoch: 0.255745, grad_norm: 1.602485, log interval: 46.54s
[train] step 28200: loss/diff: 0.767843, loss/stop: 0.019923, lr: 0.000008, epoch: 0.256655, grad_norm: 1.638672, log interval: 47.84s
[train] step 28300: loss/diff: 0.825526, loss/stop: 0.087351, lr: 0.000008, epoch: 0.257565, grad_norm: 2.149738, log interval: 54.59s
[train] step 28400: loss/diff: 0.812585, loss/stop: 0.004954, lr: 0.000008, epoch: 0.258476, grad_norm: 1.495982, log interval: 51.49s
[train] step 28500: loss/diff: 0.798589, loss/stop: 0.001928, lr: 0.000008, epoch: 0.259386, grad_norm: 1.472751, log interval: 43.47s
[train] step 28600: loss/diff: 0.865036, loss/stop: 0.001620, lr: 0.000008, epoch: 0.260296, grad_norm: 1.156895, log interval: 51.36s
[train] step 28700: loss/diff: 0.822761, loss/stop: 0.000989, lr: 0.000008, epoch: 0.261206, grad_norm: 1.578008, log interval: 52.44s
[train] step 28800: loss/diff: 0.838375, loss/stop: 0.010417, lr: 0.000008, epoch: 0.262116, grad_norm: 1.788481, log interval: 47.14s
[train] step 28900: loss/diff: 0.910614, loss/stop: 0.003997, lr: 0.000008, epoch: 0.263026, grad_norm: 1.346727, log interval: 46.27s
[train] step 29000: loss/diff: 0.818871, loss/stop: 0.010976, lr: 0.000008, epoch: 0.263936, grad_norm: 1.311936, log interval: 53.56s
[train] step 29100: loss/diff: 0.825194, loss/stop: 0.005445, lr: 0.000008, epoch: 0.264846, grad_norm: 1.624864, log interval: 51.36s
[train] step 29200: loss/diff: 0.840288, loss/stop: 0.009335, lr: 0.000008, epoch: 0.265757, grad_norm: 1.344540, log interval: 44.85s
[train] step 29300: loss/diff: 0.796562, loss/stop: 0.018658, lr: 0.000008, epoch: 0.266667, grad_norm: 1.683156, log interval: 49.28s
[train] step 29400: loss/diff: 0.813399, loss/stop: 0.000995, lr: 0.000008, epoch: 0.267577, grad_norm: 1.410121, log interval: 52.11s
[train] step 29500: loss/diff: 0.906179, loss/stop: 0.013450, lr: 0.000008, epoch: 0.268487, grad_norm: 2.011067, log interval: 50.20s
[train] step 29600: loss/diff: 0.819645, loss/stop: 0.001391, lr: 0.000008, epoch: 0.269397, grad_norm: 1.326247, log interval: 44.61s
[train] step 29700: loss/diff: 0.769294, loss/stop: 0.045600, lr: 0.000008, epoch: 0.270307, grad_norm: 1.651438, log interval: 51.54s
[train] step 29800: loss/diff: 0.876069, loss/stop: 0.006964, lr: 0.000008, epoch: 0.271217, grad_norm: 1.638102, log interval: 53.03s
[train] step 29900: loss/diff: 0.807061, loss/stop: 0.005173, lr: 0.000008, epoch: 0.272127, grad_norm: 1.325880, log interval: 49.36s
[train] step 30000: loss/diff: 0.818172, loss/stop: 0.003002, lr: 0.000008, epoch: 0.273038, grad_norm: 2.447586, log interval: 45.23s
[train] step 30100: loss/diff: 0.841447, loss/stop: 0.009816, lr: 0.000008, epoch: 0.273948, grad_norm: 1.393544, log interval: 79.91s
[train] step 30200: loss/diff: 0.802056, loss/stop: 0.004909, lr: 0.000008, epoch: 0.274858, grad_norm: 1.744640, log interval: 49.94s
[train] step 30300: loss/diff: 0.801391, loss/stop: 0.017328, lr: 0.000008, epoch: 0.275768, grad_norm: 1.785680, log interval: 47.88s
[train] step 30400: loss/diff: 0.750110, loss/stop: 0.000635, lr: 0.000008, epoch: 0.276678, grad_norm: 1.761736, log interval: 53.56s
[train] step 30500: loss/diff: 0.768160, loss/stop: 0.026439, lr: 0.000008, epoch: 0.277588, grad_norm: 1.687018, log interval: 52.85s
[train] step 30600: loss/diff: 0.819798, loss/stop: 0.008281, lr: 0.000008, epoch: 0.278498, grad_norm: 1.923113, log interval: 47.50s
[train] step 30700: loss/diff: 0.736981, loss/stop: 0.011072, lr: 0.000008, epoch: 0.279408, grad_norm: 1.601262, log interval: 51.03s
[train] step 30800: loss/diff: 0.815014, loss/stop: 0.024014, lr: 0.000008, epoch: 0.280319, grad_norm: 1.981229, log interval: 54.21s
[train] step 30900: loss/diff: 0.826554, loss/stop: 0.095811, lr: 0.000008, epoch: 0.281229, grad_norm: 1.915741, log interval: 47.92s
[train] step 31000: loss/diff: 0.794273, loss/stop: 0.000688, lr: 0.000008, epoch: 0.282139, grad_norm: 1.396643, log interval: 47.76s
[train] step 31100: loss/diff: 0.833914, loss/stop: 0.001725, lr: 0.000008, epoch: 0.283049, grad_norm: 1.589137, log interval: 55.78s
[train] step 31200: loss/diff: 0.856404, loss/stop: 0.008634, lr: 0.000008, epoch: 0.283959, grad_norm: 1.930359, log interval: 52.79s
[train] step 31300: loss/diff: 0.769370, loss/stop: 0.018543, lr: 0.000008, epoch: 0.284869, grad_norm: 1.552995, log interval: 47.28s
[train] step 31400: loss/diff: 0.761036, loss/stop: 0.016585, lr: 0.000008, epoch: 0.285779, grad_norm: 1.485792, log interval: 50.51s
[train] step 31500: loss/diff: 0.836985, loss/stop: 0.005602, lr: 0.000008, epoch: 0.286689, grad_norm: 1.587331, log interval: 51.30s
[train] step 31600: loss/diff: 0.750995, loss/stop: 0.054212, lr: 0.000008, epoch: 0.287600, grad_norm: 1.469139, log interval: 48.97s
[train] step 31700: loss/diff: 0.848485, loss/stop: 0.028769, lr: 0.000008, epoch: 0.288510, grad_norm: 1.577982, log interval: 44.40s
[train] step 31800: loss/diff: 0.833795, loss/stop: 0.003311, lr: 0.000008, epoch: 0.289420, grad_norm: 1.535483, log interval: 52.79s
[train] step 31900: loss/diff: 0.868674, loss/stop: 0.018258, lr: 0.000008, epoch: 0.290330, grad_norm: 1.660894, log interval: 53.75s
[train] step 32000: loss/diff: 0.759312, loss/stop: 0.020727, lr: 0.000008, epoch: 0.291240, grad_norm: 1.481426, log interval: 47.67s
[train] step 32100: loss/diff: 0.764029, loss/stop: 0.000365, lr: 0.000008, epoch: 0.292150, grad_norm: 1.222715, log interval: 48.32s
[train] step 32200: loss/diff: 0.794060, loss/stop: 0.006063, lr: 0.000008, epoch: 0.293060, grad_norm: 1.209262, log interval: 54.88s
[train] step 32300: loss/diff: 0.849176, loss/stop: 0.008798, lr: 0.000008, epoch: 0.293970, grad_norm: 2.142528, log interval: 52.69s
[train] step 32400: loss/diff: 0.806806, loss/stop: 0.019893, lr: 0.000008, epoch: 0.294881, grad_norm: 1.182562, log interval: 46.24s
[train] step 32500: loss/diff: 0.832693, loss/stop: 0.031047, lr: 0.000008, epoch: 0.295791, grad_norm: 1.370634, log interval: 54.74s
[train] step 32600: loss/diff: 0.811293, loss/stop: 0.008192, lr: 0.000008, epoch: 0.296701, grad_norm: 2.263946, log interval: 54.52s
[train] step 32700: loss/diff: 0.893267, loss/stop: 0.009361, lr: 0.000008, epoch: 0.297611, grad_norm: 1.872609, log interval: 49.61s
[train] step 32800: loss/diff: 0.746284, loss/stop: 0.003995, lr: 0.000008, epoch: 0.298521, grad_norm: 1.561753, log interval: 50.56s
[train] step 32900: loss/diff: 0.863746, loss/stop: 0.005708, lr: 0.000008, epoch: 0.299431, grad_norm: 1.375423, log interval: 54.76s
[train] step 33000: loss/diff: 0.888633, loss/stop: 0.007029, lr: 0.000008, epoch: 0.300341, grad_norm: 1.483519, log interval: 51.98s
[train] step 33100: loss/diff: 0.749078, loss/stop: 0.004488, lr: 0.000008, epoch: 0.301251, grad_norm: 1.449301, log interval: 47.49s
[train] step 33200: loss/diff: 0.810662, loss/stop: 0.022896, lr: 0.000008, epoch: 0.302162, grad_norm: 1.690764, log interval: 53.12s
[train] step 33300: loss/diff: 0.740513, loss/stop: 0.005262, lr: 0.000008, epoch: 0.303072, grad_norm: 1.871849, log interval: 53.63s
[train] step 33400: loss/diff: 0.790583, loss/stop: 0.005293, lr: 0.000008, epoch: 0.303982, grad_norm: 1.299048, log interval: 48.74s
[train] step 33500: loss/diff: 0.797527, loss/stop: 0.002920, lr: 0.000008, epoch: 0.304892, grad_norm: 1.784333, log interval: 48.03s
[train] step 33600: loss/diff: 0.845373, loss/stop: 0.004927, lr: 0.000008, epoch: 0.305802, grad_norm: 1.529505, log interval: 56.76s
[train] step 33700: loss/diff: 0.772458, loss/stop: 0.005470, lr: 0.000008, epoch: 0.306712, grad_norm: 1.465850, log interval: 50.12s
[train] step 33800: loss/diff: 0.796853, loss/stop: 0.002399, lr: 0.000008, epoch: 0.307622, grad_norm: 1.774626, log interval: 47.57s
[train] step 33900: loss/diff: 0.829417, loss/stop: 0.038140, lr: 0.000008, epoch: 0.308532, grad_norm: 2.075748, log interval: 52.72s
[train] step 34000: loss/diff: 0.738031, loss/stop: 0.000359, lr: 0.000007, epoch: 0.309443, grad_norm: 1.485418, log interval: 52.97s
[train] step 34100: loss/diff: 0.765758, loss/stop: 0.008330, lr: 0.000007, epoch: 0.310353, grad_norm: 1.506280, log interval: 47.43s
[train] step 34200: loss/diff: 0.851889, loss/stop: 0.043579, lr: 0.000007, epoch: 0.311263, grad_norm: 2.071014, log interval: 47.88s
[train] step 34300: loss/diff: 0.791161, loss/stop: 0.020693, lr: 0.000007, epoch: 0.312173, grad_norm: 1.589427, log interval: 55.07s
[train] step 34400: loss/diff: 0.799751, loss/stop: 0.022997, lr: 0.000007, epoch: 0.313083, grad_norm: 1.378962, log interval: 54.16s
[train] step 34500: loss/diff: 0.779789, loss/stop: 0.006741, lr: 0.000007, epoch: 0.313993, grad_norm: 1.790307, log interval: 46.55s
[train] step 34600: loss/diff: 0.801120, loss/stop: 0.006500, lr: 0.000007, epoch: 0.314903, grad_norm: 1.752666, log interval: 51.91s
[train] step 34700: loss/diff: 0.888687, loss/stop: 0.023325, lr: 0.000007, epoch: 0.315813, grad_norm: 1.548607, log interval: 53.09s
[train] step 34800: loss/diff: 0.822838, loss/stop: 0.020068, lr: 0.000007, epoch: 0.316724, grad_norm: 16.986300, log interval: 48.31s
[train] step 34900: loss/diff: 0.825812, loss/stop: 0.026183, lr: 0.000007, epoch: 0.317634, grad_norm: 1.568932, log interval: 49.22s
[train] step 35000: loss/diff: 0.814329, loss/stop: 0.000692, lr: 0.000007, epoch: 0.318544, grad_norm: 1.298056, log interval: 55.18s
[train] step 35100: loss/diff: 0.780481, loss/stop: 0.002709, lr: 0.000007, epoch: 0.319454, grad_norm: 1.445243, log interval: 86.85s
[train] step 35200: loss/diff: 0.851677, loss/stop: 0.005678, lr: 0.000007, epoch: 0.320364, grad_norm: 1.673272, log interval: 52.95s
[train] step 35300: loss/diff: 0.803305, loss/stop: 0.022142, lr: 0.000007, epoch: 0.321274, grad_norm: 1.515712, log interval: 57.20s
[train] step 35400: loss/diff: 0.869998, loss/stop: 0.044385, lr: 0.000007, epoch: 0.322184, grad_norm: 1.593017, log interval: 50.19s
[train] step 35500: loss/diff: 0.824074, loss/stop: 0.019629, lr: 0.000007, epoch: 0.323094, grad_norm: 2.082115, log interval: 48.43s
[train] step 35600: loss/diff: 0.802814, loss/stop: 0.003152, lr: 0.000007, epoch: 0.324005, grad_norm: 1.492054, log interval: 57.74s
[train] step 35700: loss/diff: 0.846445, loss/stop: 0.002940, lr: 0.000007, epoch: 0.324915, grad_norm: 1.247154, log interval: 53.64s
[train] step 35800: loss/diff: 0.758806, loss/stop: 0.002954, lr: 0.000007, epoch: 0.325825, grad_norm: 1.471759, log interval: 49.67s
[train] step 35900: loss/diff: 0.772843, loss/stop: 0.013691, lr: 0.000007, epoch: 0.326735, grad_norm: 1.855663, log interval: 51.87s
[train] step 36000: loss/diff: 0.775237, loss/stop: 0.001394, lr: 0.000007, epoch: 0.327645, grad_norm: 1.364764, log interval: 54.89s
[train] step 36100: loss/diff: 0.795472, loss/stop: 0.028562, lr: 0.000007, epoch: 0.328555, grad_norm: 3.438220, log interval: 50.27s
[train] step 36200: loss/diff: 0.807125, loss/stop: 0.009116, lr: 0.000007, epoch: 0.329465, grad_norm: 1.715844, log interval: 48.42s
[train] step 36300: loss/diff: 0.736325, loss/stop: 0.016976, lr: 0.000007, epoch: 0.330375, grad_norm: 1.462724, log interval: 54.86s
[train] step 36400: loss/diff: 0.780172, loss/stop: 0.039858, lr: 0.000007, epoch: 0.331286, grad_norm: 1.985242, log interval: 53.04s
[train] step 36500: loss/diff: 0.786537, loss/stop: 0.008971, lr: 0.000007, epoch: 0.332196, grad_norm: 1.598432, log interval: 48.51s
[train] step 36600: loss/diff: 0.769748, loss/stop: 0.013401, lr: 0.000007, epoch: 0.333106, grad_norm: 1.586493, log interval: 51.57s
[train] step 36700: loss/diff: 0.858914, loss/stop: 0.001400, lr: 0.000007, epoch: 0.334016, grad_norm: 1.774660, log interval: 56.07s
[train] step 36800: loss/diff: 0.798694, loss/stop: 0.007931, lr: 0.000007, epoch: 0.334926, grad_norm: 1.367432, log interval: 50.59s
[train] step 36900: loss/diff: 0.976305, loss/stop: 0.018185, lr: 0.000007, epoch: 0.335836, grad_norm: 1.614716, log interval: 49.56s
[train] step 37000: loss/diff: 0.720691, loss/stop: 0.003637, lr: 0.000007, epoch: 0.336746, grad_norm: 1.758374, log interval: 56.28s
[train] step 37100: loss/diff: 0.831766, loss/stop: 0.002264, lr: 0.000007, epoch: 0.337656, grad_norm: 1.573856, log interval: 52.71s
[train] step 37200: loss/diff: 0.870350, loss/stop: 0.010349, lr: 0.000007, epoch: 0.338567, grad_norm: 1.916781, log interval: 46.65s
[train] step 37300: loss/diff: 0.852417, loss/stop: 0.004698, lr: 0.000007, epoch: 0.339477, grad_norm: 2.518234, log interval: 52.83s
[train] step 37400: loss/diff: 0.815755, loss/stop: 0.024371, lr: 0.000007, epoch: 0.340387, grad_norm: 1.629068, log interval: 55.05s
[train] step 37500: loss/diff: 0.799903, loss/stop: 0.015106, lr: 0.000007, epoch: 0.341297, grad_norm: 1.435191, log interval: 49.28s
[train] step 37600: loss/diff: 0.810421, loss/stop: 0.021117, lr: 0.000007, epoch: 0.342207, grad_norm: 1.365272, log interval: 49.23s
[train] step 37700: loss/diff: 0.848663, loss/stop: 0.002528, lr: 0.000007, epoch: 0.343117, grad_norm: 1.861336, log interval: 54.44s
[train] step 37800: loss/diff: 0.826433, loss/stop: 0.002838, lr: 0.000007, epoch: 0.344027, grad_norm: 1.305837, log interval: 53.67s
[train] step 37900: loss/diff: 0.793349, loss/stop: 0.042736, lr: 0.000007, epoch: 0.344937, grad_norm: 1.507543, log interval: 48.15s
[train] step 38000: loss/diff: 0.815969, loss/stop: 0.022073, lr: 0.000007, epoch: 0.345848, grad_norm: 1.717472, log interval: 54.25s
[train] step 38100: loss/diff: 0.831927, loss/stop: 0.016939, lr: 0.000007, epoch: 0.346758, grad_norm: 1.312309, log interval: 55.90s
[train] step 38200: loss/diff: 0.783247, loss/stop: 0.012399, lr: 0.000007, epoch: 0.347668, grad_norm: 2.175276, log interval: 51.17s
[train] step 38300: loss/diff: 0.753364, loss/stop: 0.010103, lr: 0.000007, epoch: 0.348578, grad_norm: 1.745665, log interval: 51.63s
[train] step 38400: loss/diff: 0.811544, loss/stop: 0.011259, lr: 0.000007, epoch: 0.349488, grad_norm: 2.837802, log interval: 55.85s
[train] step 38500: loss/diff: 0.743738, loss/stop: 0.005221, lr: 0.000007, epoch: 0.350398, grad_norm: 1.552848, log interval: 52.29s
[train] step 38600: loss/diff: 0.791625, loss/stop: 0.021741, lr: 0.000007, epoch: 0.351308, grad_norm: 1.776613, log interval: 46.47s
[train] step 38700: loss/diff: 0.859684, loss/stop: 0.000806, lr: 0.000007, epoch: 0.352218, grad_norm: 1.582530, log interval: 55.50s
[train] step 38800: loss/diff: 0.728688, loss/stop: 0.026195, lr: 0.000007, epoch: 0.353129, grad_norm: 1.578564, log interval: 54.09s
[train] step 38900: loss/diff: 0.859005, loss/stop: 0.011541, lr: 0.000007, epoch: 0.354039, grad_norm: 1.682068, log interval: 49.76s
[train] step 39000: loss/diff: 0.821284, loss/stop: 0.037195, lr: 0.000007, epoch: 0.354949, grad_norm: 2.006819, log interval: 51.86s
[train] step 39100: loss/diff: 0.765198, loss/stop: 0.024288, lr: 0.000007, epoch: 0.355859, grad_norm: 2.294261, log interval: 55.47s
[train] step 39200: loss/diff: 0.795541, loss/stop: 0.034363, lr: 0.000007, epoch: 0.356769, grad_norm: 1.324929, log interval: 50.15s
[train] step 39300: loss/diff: 0.832247, loss/stop: 0.034980, lr: 0.000007, epoch: 0.357679, grad_norm: 1.545732, log interval: 49.20s
[train] step 39400: loss/diff: 0.748979, loss/stop: 0.014269, lr: 0.000007, epoch: 0.358589, grad_norm: 1.503876, log interval: 55.64s
[train] step 39500: loss/diff: 0.766430, loss/stop: 0.005571, lr: 0.000007, epoch: 0.359499, grad_norm: 1.937863, log interval: 55.04s
[train] step 39600: loss/diff: 0.786379, loss/stop: 0.007516, lr: 0.000007, epoch: 0.360410, grad_norm: 1.614651, log interval: 50.23s
[train] step 39700: loss/diff: 0.815934, loss/stop: 0.008421, lr: 0.000007, epoch: 0.361320, grad_norm: 1.491095, log interval: 54.16s
[train] step 39800: loss/diff: 0.693997, loss/stop: 0.048949, lr: 0.000007, epoch: 0.362230, grad_norm: 1.909770, log interval: 55.45s
[train] step 39900: loss/diff: 0.790557, loss/stop: 0.000730, lr: 0.000007, epoch: 0.363140, grad_norm: 1.486557, log interval: 51.41s
[train] step 40000: loss/diff: 0.825607, loss/stop: 0.012644, lr: 0.000007, epoch: 0.364050, grad_norm: 1.600949, log interval: 48.76s
[train] step 40100: loss/diff: 0.813456, loss/stop: 0.016287, lr: 0.000007, epoch: 0.364960, grad_norm: 1.261350, log interval: 94.18s
[train] step 40200: loss/diff: 0.782769, loss/stop: 0.020468, lr: 0.000007, epoch: 0.365870, grad_norm: 1.488841, log interval: 53.22s
[train] step 40300: loss/diff: 0.814704, loss/stop: 0.007037, lr: 0.000007, epoch: 0.366780, grad_norm: 1.496429, log interval: 55.15s
[train] step 40400: loss/diff: 0.808110, loss/stop: 0.020528, lr: 0.000007, epoch: 0.367691, grad_norm: 2.134836, log interval: 54.78s
[train] step 40500: loss/diff: 0.765008, loss/stop: 0.002530, lr: 0.000007, epoch: 0.368601, grad_norm: 1.490283, log interval: 50.42s
[train] step 40600: loss/diff: 0.838928, loss/stop: 0.017734, lr: 0.000007, epoch: 0.369511, grad_norm: 1.932050, log interval: 52.25s
[train] step 40700: loss/diff: 0.840642, loss/stop: 0.010668, lr: 0.000007, epoch: 0.370421, grad_norm: 1.636420, log interval: 58.52s
[train] step 40800: loss/diff: 0.886107, loss/stop: 0.001375, lr: 0.000007, epoch: 0.371331, grad_norm: 1.448081, log interval: 52.55s
[train] step 40900: loss/diff: 0.803663, loss/stop: 0.002710, lr: 0.000006, epoch: 0.372241, grad_norm: 1.323188, log interval: 49.01s
[train] step 41000: loss/diff: 0.865975, loss/stop: 0.008934, lr: 0.000006, epoch: 0.373151, grad_norm: 2.223127, log interval: 57.14s
[train] step 41100: loss/diff: 0.801922, loss/stop: 0.001243, lr: 0.000006, epoch: 0.374061, grad_norm: 1.430812, log interval: 56.50s
[train] step 41200: loss/diff: 0.740993, loss/stop: 0.012722, lr: 0.000006, epoch: 0.374972, grad_norm: 1.413158, log interval: 50.48s
[train] step 41300: loss/diff: 0.779845, loss/stop: 0.005684, lr: 0.000006, epoch: 0.375882, grad_norm: 1.440390, log interval: 54.74s
[train] step 41400: loss/diff: 0.851420, loss/stop: 0.025132, lr: 0.000006, epoch: 0.376792, grad_norm: 1.496814, log interval: 55.55s
[train] step 41500: loss/diff: 0.786581, loss/stop: 0.004434, lr: 0.000006, epoch: 0.377702, grad_norm: 1.511228, log interval: 54.09s
[train] step 41600: loss/diff: 0.852067, loss/stop: 0.003582, lr: 0.000006, epoch: 0.378612, grad_norm: 1.551659, log interval: 53.06s
[train] step 41700: loss/diff: 0.700958, loss/stop: 0.004654, lr: 0.000006, epoch: 0.379522, grad_norm: 1.508927, log interval: 57.84s
[train] step 41800: loss/diff: 0.800575, loss/stop: 0.012289, lr: 0.000006, epoch: 0.380432, grad_norm: 1.599602, log interval: 53.23s
[train] step 41900: loss/diff: 0.774765, loss/stop: 0.009052, lr: 0.000006, epoch: 0.381342, grad_norm: 1.640080, log interval: 50.05s
[train] step 42000: loss/diff: 0.882348, loss/stop: 0.003145, lr: 0.000006, epoch: 0.382253, grad_norm: 1.303393, log interval: 57.96s
[train] step 42100: loss/diff: 0.838569, loss/stop: 0.011145, lr: 0.000006, epoch: 0.383163, grad_norm: 1.193406, log interval: 54.59s
[train] step 42200: loss/diff: 0.787191, loss/stop: 0.006492, lr: 0.000006, epoch: 0.384073, grad_norm: 1.047530, log interval: 54.72s
[train] step 42300: loss/diff: 0.751140, loss/stop: 0.007565, lr: 0.000006, epoch: 0.384983, grad_norm: 2.069157, log interval: 55.01s
[train] step 42400: loss/diff: 0.843323, loss/stop: 0.009062, lr: 0.000006, epoch: 0.385893, grad_norm: 1.321328, log interval: 57.04s
[train] step 42500: loss/diff: 0.822578, loss/stop: 0.006459, lr: 0.000006, epoch: 0.386803, grad_norm: 1.530565, log interval: 50.57s
[train] step 42600: loss/diff: 0.764872, loss/stop: 0.017120, lr: 0.000006, epoch: 0.387713, grad_norm: 1.762644, log interval: 52.67s
[train] step 42700: loss/diff: 0.834468, loss/stop: 0.022143, lr: 0.000006, epoch: 0.388623, grad_norm: 1.707109, log interval: 57.44s
[train] step 42800: loss/diff: 0.821072, loss/stop: 0.000289, lr: 0.000006, epoch: 0.389534, grad_norm: 1.208920, log interval: 54.33s
[train] step 42900: loss/diff: 0.774955, loss/stop: 0.016514, lr: 0.000006, epoch: 0.390444, grad_norm: 2.355230, log interval: 48.79s
[train] step 43000: loss/diff: 0.748437, loss/stop: 0.001184, lr: 0.000006, epoch: 0.391354, grad_norm: 1.175111, log interval: 57.08s
[train] step 43100: loss/diff: 0.726444, loss/stop: 0.001092, lr: 0.000006, epoch: 0.392264, grad_norm: 1.629452, log interval: 54.36s
[train] step 43200: loss/diff: 0.859685, loss/stop: 0.000161, lr: 0.000006, epoch: 0.393174, grad_norm: 1.282662, log interval: 50.00s
[train] step 43300: loss/diff: 0.792823, loss/stop: 0.013054, lr: 0.000006, epoch: 0.394084, grad_norm: 1.527417, log interval: 56.38s
[train] step 43400: loss/diff: 0.799234, loss/stop: 0.029175, lr: 0.000006, epoch: 0.394994, grad_norm: 1.765577, log interval: 55.76s
[train] step 43500: loss/diff: 0.870499, loss/stop: 0.009656, lr: 0.000006, epoch: 0.395904, grad_norm: 1.548698, log interval: 52.00s
[train] step 43600: loss/diff: 0.704732, loss/stop: 0.028432, lr: 0.000006, epoch: 0.396815, grad_norm: 1.721086, log interval: 59.09s
[train] step 43700: loss/diff: 0.885818, loss/stop: 0.013480, lr: 0.000006, epoch: 0.397725, grad_norm: 1.885605, log interval: 58.02s
[train] step 43800: loss/diff: 0.851443, loss/stop: 0.003587, lr: 0.000006, epoch: 0.398635, grad_norm: 1.847341, log interval: 51.75s
[train] step 43900: loss/diff: 0.829356, loss/stop: 0.004679, lr: 0.000006, epoch: 0.399545, grad_norm: 2.722345, log interval: 48.24s
[train] step 44000: loss/diff: 0.742305, loss/stop: 0.001904, lr: 0.000006, epoch: 0.400455, grad_norm: 1.473371, log interval: 55.52s
[train] step 44100: loss/diff: 0.753459, loss/stop: 0.002067, lr: 0.000006, epoch: 0.401365, grad_norm: 1.311829, log interval: 54.06s
[train] step 44200: loss/diff: 0.746034, loss/stop: 0.009348, lr: 0.000006, epoch: 0.402275, grad_norm: 1.429986, log interval: 48.71s
[train] step 44300: loss/diff: 0.758110, loss/stop: 0.002060, lr: 0.000006, epoch: 0.403185, grad_norm: 1.380818, log interval: 52.73s
[train] step 44400: loss/diff: 0.817383, loss/stop: 0.005648, lr: 0.000006, epoch: 0.404096, grad_norm: 1.932862, log interval: 55.90s
[train] step 44500: loss/diff: 0.824677, loss/stop: 0.000137, lr: 0.000006, epoch: 0.405006, grad_norm: 1.187699, log interval: 51.84s
[train] step 44600: loss/diff: 0.734037, loss/stop: 0.002698, lr: 0.000006, epoch: 0.405916, grad_norm: 1.503124, log interval: 49.94s
[train] step 44700: loss/diff: 0.749692, loss/stop: 0.026580, lr: 0.000006, epoch: 0.406826, grad_norm: 1.475371, log interval: 56.00s
[train] step 44800: loss/diff: 0.802129, loss/stop: 0.015084, lr: 0.000006, epoch: 0.407736, grad_norm: 1.237504, log interval: 51.39s
[train] step 44900: loss/diff: 0.801219, loss/stop: 0.013166, lr: 0.000006, epoch: 0.408646, grad_norm: 1.751688, log interval: 47.99s
[train] step 45000: loss/diff: 0.800046, loss/stop: 0.055874, lr: 0.000006, epoch: 0.409556, grad_norm: 2.210823, log interval: 54.29s
[train] step 45100: loss/diff: 0.816874, loss/stop: 0.003637, lr: 0.000006, epoch: 0.410466, grad_norm: 1.693892, log interval: 96.46s
[train] step 45200: loss/diff: 0.779873, loss/stop: 0.040987, lr: 0.000006, epoch: 0.411377, grad_norm: 1.787590, log interval: 53.10s
[train] step 45300: loss/diff: 0.885440, loss/stop: 0.002710, lr: 0.000006, epoch: 0.412287, grad_norm: 1.266260, log interval: 56.15s
[train] step 45400: loss/diff: 0.807687, loss/stop: 0.006916, lr: 0.000006, epoch: 0.413197, grad_norm: 1.984657, log interval: 52.25s
[train] step 45500: loss/diff: 0.821016, loss/stop: 0.019835, lr: 0.000006, epoch: 0.414107, grad_norm: 1.664832, log interval: 47.57s
[train] step 45600: loss/diff: 0.847452, loss/stop: 0.003713, lr: 0.000006, epoch: 0.415017, grad_norm: 1.575676, log interval: 54.25s
[train] step 45700: loss/diff: 0.836531, loss/stop: 0.014394, lr: 0.000006, epoch: 0.415927, grad_norm: 1.382914, log interval: 55.56s
[train] step 45800: loss/diff: 0.773565, loss/stop: 0.048582, lr: 0.000006, epoch: 0.416837, grad_norm: 2.350920, log interval: 50.04s
[train] step 45900: loss/diff: 0.762488, loss/stop: 0.001341, lr: 0.000006, epoch: 0.417747, grad_norm: 1.373559, log interval: 51.72s
[train] step 46000: loss/diff: 0.760819, loss/stop: 0.016965, lr: 0.000006, epoch: 0.418658, grad_norm: 1.345610, log interval: 55.41s
[train] step 46100: loss/diff: 0.858630, loss/stop: 0.004134, lr: 0.000006, epoch: 0.419568, grad_norm: 1.456163, log interval: 53.01s
[train] step 46200: loss/diff: 0.791848, loss/stop: 0.015885, lr: 0.000006, epoch: 0.420478, grad_norm: 1.434540, log interval: 48.63s
[train] step 46300: loss/diff: 0.752764, loss/stop: 0.047992, lr: 0.000006, epoch: 0.421388, grad_norm: 1.364475, log interval: 56.91s
[train] step 46400: loss/diff: 0.827165, loss/stop: 0.017605, lr: 0.000006, epoch: 0.422298, grad_norm: 1.786543, log interval: 53.36s
[train] step 46500: loss/diff: 0.832057, loss/stop: 0.012775, lr: 0.000006, epoch: 0.423208, grad_norm: 1.480808, log interval: 51.11s
[train] step 46600: loss/diff: 0.788077, loss/stop: 0.021406, lr: 0.000006, epoch: 0.424118, grad_norm: 1.260615, log interval: 54.02s
[train] step 46700: loss/diff: 0.710321, loss/stop: 0.035565, lr: 0.000006, epoch: 0.425028, grad_norm: 1.743132, log interval: 56.31s
[train] step 46800: loss/diff: 0.854561, loss/stop: 0.005008, lr: 0.000006, epoch: 0.425939, grad_norm: 1.431180, log interval: 53.44s
[train] step 46900: loss/diff: 0.751116, loss/stop: 0.004423, lr: 0.000006, epoch: 0.426849, grad_norm: 1.575677, log interval: 50.77s
[train] step 47000: loss/diff: 0.752927, loss/stop: 0.006581, lr: 0.000006, epoch: 0.427759, grad_norm: 1.508548, log interval: 56.44s
[train] step 47100: loss/diff: 0.816286, loss/stop: 0.011051, lr: 0.000006, epoch: 0.428669, grad_norm: 1.614764, log interval: 53.55s
[train] step 47200: loss/diff: 0.753338, loss/stop: 0.076135, lr: 0.000006, epoch: 0.429579, grad_norm: 2.528491, log interval: 49.33s
[train] step 47300: loss/diff: 0.851506, loss/stop: 0.027285, lr: 0.000006, epoch: 0.430489, grad_norm: 1.326067, log interval: 55.10s
[train] step 47400: loss/diff: 0.814249, loss/stop: 0.003014, lr: 0.000005, epoch: 0.431399, grad_norm: 1.397346, log interval: 55.03s
[train] step 47500: loss/diff: 0.723397, loss/stop: 0.016405, lr: 0.000005, epoch: 0.432309, grad_norm: 1.696488, log interval: 50.84s
[train] step 47600: loss/diff: 0.824218, loss/stop: 0.002243, lr: 0.000005, epoch: 0.433220, grad_norm: 1.748761, log interval: 53.52s
[train] step 47700: loss/diff: 0.843617, loss/stop: 0.005075, lr: 0.000005, epoch: 0.434130, grad_norm: 1.267245, log interval: 56.66s
[train] step 47800: loss/diff: 0.793652, loss/stop: 0.001616, lr: 0.000005, epoch: 0.435040, grad_norm: 1.539290, log interval: 51.18s
[train] step 47900: loss/diff: 0.776895, loss/stop: 0.027165, lr: 0.000005, epoch: 0.435950, grad_norm: 1.474020, log interval: 49.52s
[train] step 48000: loss/diff: 0.760502, loss/stop: 0.027758, lr: 0.000005, epoch: 0.436860, grad_norm: 2.374445, log interval: 56.07s
[train] step 48100: loss/diff: 0.787031, loss/stop: 0.009860, lr: 0.000005, epoch: 0.437770, grad_norm: 2.404302, log interval: 56.77s
[train] step 48200: loss/diff: 0.758385, loss/stop: 0.008285, lr: 0.000005, epoch: 0.438680, grad_norm: 1.484765, log interval: 49.14s
[train] step 48300: loss/diff: 0.799263, loss/stop: 0.006355, lr: 0.000005, epoch: 0.439590, grad_norm: 1.955263, log interval: 55.71s
[train] step 48400: loss/diff: 0.868120, loss/stop: 0.006115, lr: 0.000005, epoch: 0.440501, grad_norm: 1.478748, log interval: 56.81s
[train] step 48500: loss/diff: 0.883078, loss/stop: 0.001105, lr: 0.000005, epoch: 0.441411, grad_norm: 1.423233, log interval: 52.91s
[train] step 48600: loss/diff: 0.781117, loss/stop: 0.023827, lr: 0.000005, epoch: 0.442321, grad_norm: 1.546651, log interval: 52.14s
[train] step 48700: loss/diff: 0.787004, loss/stop: 0.007390, lr: 0.000005, epoch: 0.443231, grad_norm: 1.216748, log interval: 55.39s
[train] step 48800: loss/diff: 0.808444, loss/stop: 0.000738, lr: 0.000005, epoch: 0.444141, grad_norm: 1.578756, log interval: 54.95s
[train] step 48900: loss/diff: 0.737196, loss/stop: 0.004677, lr: 0.000005, epoch: 0.445051, grad_norm: 1.653050, log interval: 52.42s
[train] step 49000: loss/diff: 0.810182, loss/stop: 0.011004, lr: 0.000005, epoch: 0.445961, grad_norm: 1.579165, log interval: 58.27s
[train] step 49100: loss/diff: 0.801653, loss/stop: 0.011444, lr: 0.000005, epoch: 0.446871, grad_norm: 1.487061, log interval: 54.52s
[train] step 49200: loss/diff: 0.857885, loss/stop: 0.016818, lr: 0.000005, epoch: 0.447782, grad_norm: 1.664612, log interval: 47.27s
[train] step 49300: loss/diff: 0.814247, loss/stop: 0.007549, lr: 0.000005, epoch: 0.448692, grad_norm: 1.516117, log interval: 55.26s
[train] step 49400: loss/diff: 0.714865, loss/stop: 0.017745, lr: 0.000005, epoch: 0.449602, grad_norm: 1.370320, log interval: 55.71s
[train] step 49500: loss/diff: 0.782970, loss/stop: 0.000862, lr: 0.000005, epoch: 0.450512, grad_norm: 2.020347, log interval: 52.65s
[train] step 49600: loss/diff: 0.766394, loss/stop: 0.003329, lr: 0.000005, epoch: 0.451422, grad_norm: 1.315876, log interval: 52.60s
[train] step 49700: loss/diff: 0.846289, loss/stop: 0.009017, lr: 0.000005, epoch: 0.452332, grad_norm: 1.421551, log interval: 58.42s
[train] step 49800: loss/diff: 0.748028, loss/stop: 0.006978, lr: 0.000005, epoch: 0.453242, grad_norm: 1.390560, log interval: 53.89s
[train] step 49900: loss/diff: 0.776297, loss/stop: 0.000452, lr: 0.000005, epoch: 0.454152, grad_norm: 1.748788, log interval: 49.97s
[train] step 50000: loss/diff: 0.756155, loss/stop: 0.012503, lr: 0.000005, epoch: 0.455063, grad_norm: 1.464749, log interval: 58.25s
[train] step 50100: loss/diff: 0.752702, loss/stop: 0.003988, lr: 0.000005, epoch: 0.455973, grad_norm: 1.459107, log interval: 100.23s
[train] step 50200: loss/diff: 0.825334, loss/stop: 0.001965, lr: 0.000005, epoch: 0.456883, grad_norm: 2.542475, log interval: 55.39s
[train] step 50300: loss/diff: 0.788598, loss/stop: 0.009330, lr: 0.000005, epoch: 0.457793, grad_norm: 1.348593, log interval: 56.04s
[train] step 50400: loss/diff: 0.719534, loss/stop: 0.001679, lr: 0.000005, epoch: 0.458703, grad_norm: 2.125329, log interval: 53.17s
[train] step 50500: loss/diff: 0.828107, loss/stop: 0.003050, lr: 0.000005, epoch: 0.459613, grad_norm: 1.325822, log interval: 52.82s
[train] step 50600: loss/diff: 0.811575, loss/stop: 0.005021, lr: 0.000005, epoch: 0.460523, grad_norm: 1.740663, log interval: 57.36s
[train] step 50700: loss/diff: 0.757323, loss/stop: 0.010435, lr: 0.000005, epoch: 0.461433, grad_norm: 1.914453, log interval: 53.29s
[train] step 50800: loss/diff: 0.725084, loss/stop: 0.006719, lr: 0.000005, epoch: 0.462344, grad_norm: 1.366703, log interval: 51.47s
[train] step 50900: loss/diff: 0.824405, loss/stop: 0.002649, lr: 0.000005, epoch: 0.463254, grad_norm: 1.251050, log interval: 62.65s
[train] step 51000: loss/diff: 0.817563, loss/stop: 0.006184, lr: 0.000005, epoch: 0.464164, grad_norm: 1.089238, log interval: 56.83s
[train] step 51100: loss/diff: 0.829208, loss/stop: 0.003526, lr: 0.000005, epoch: 0.465074, grad_norm: 1.152025, log interval: 49.30s
[train] step 51200: loss/diff: 0.798595, loss/stop: 0.024813, lr: 0.000005, epoch: 0.465984, grad_norm: 2.073848, log interval: 58.50s
[train] step 51300: loss/diff: 0.782022, loss/stop: 0.005439, lr: 0.000005, epoch: 0.466894, grad_norm: 1.316132, log interval: 55.80s
[train] step 51400: loss/diff: 0.794335, loss/stop: 0.004773, lr: 0.000005, epoch: 0.467804, grad_norm: 1.745847, log interval: 50.37s
[train] step 51500: loss/diff: 0.807099, loss/stop: 0.002512, lr: 0.000005, epoch: 0.468714, grad_norm: 1.739162, log interval: 53.15s
[train] step 51600: loss/diff: 0.708005, loss/stop: 0.000713, lr: 0.000005, epoch: 0.469625, grad_norm: 1.528644, log interval: 58.04s
[train] step 51700: loss/diff: 0.728071, loss/stop: 0.004219, lr: 0.000005, epoch: 0.470535, grad_norm: 2.013840, log interval: 50.82s
[train] step 51800: loss/diff: 0.797617, loss/stop: 0.010107, lr: 0.000005, epoch: 0.471445, grad_norm: 1.323403, log interval: 51.82s
[train] step 51900: loss/diff: 0.777747, loss/stop: 0.003907, lr: 0.000005, epoch: 0.472355, grad_norm: 1.239896, log interval: 60.59s
[train] step 52000: loss/diff: 0.817397, loss/stop: 0.018219, lr: 0.000005, epoch: 0.473265, grad_norm: 1.299449, log interval: 56.40s
[train] step 52100: loss/diff: 0.915429, loss/stop: 0.026838, lr: 0.000005, epoch: 0.474175, grad_norm: 1.798355, log interval: 49.34s
[train] step 52200: loss/diff: 0.791535, loss/stop: 0.007848, lr: 0.000005, epoch: 0.475085, grad_norm: 1.718972, log interval: 57.01s
[train] step 52300: loss/diff: 0.797269, loss/stop: 0.005108, lr: 0.000005, epoch: 0.475995, grad_norm: 1.689393, log interval: 55.80s
[train] step 52400: loss/diff: 0.745323, loss/stop: 0.001925, lr: 0.000005, epoch: 0.476906, grad_norm: 1.608207, log interval: 50.03s
[train] step 52500: loss/diff: 0.749783, loss/stop: 0.028053, lr: 0.000005, epoch: 0.477816, grad_norm: 1.414560, log interval: 53.53s
[train] step 52600: loss/diff: 0.772719, loss/stop: 0.009874, lr: 0.000005, epoch: 0.478726, grad_norm: 1.447937, log interval: 57.49s
[train] step 52700: loss/diff: 0.775311, loss/stop: 0.009241, lr: 0.000005, epoch: 0.479636, grad_norm: 1.737587, log interval: 51.20s
[train] step 52800: loss/diff: 0.859230, loss/stop: 0.008830, lr: 0.000005, epoch: 0.480546, grad_norm: 1.891525, log interval: 50.77s
[train] step 52900: loss/diff: 0.834694, loss/stop: 0.001120, lr: 0.000005, epoch: 0.481456, grad_norm: 1.391016, log interval: 56.16s
[train] step 53000: loss/diff: 0.769626, loss/stop: 0.001086, lr: 0.000005, epoch: 0.482366, grad_norm: 1.531240, log interval: 54.47s
[train] step 53100: loss/diff: 0.772352, loss/stop: 0.018246, lr: 0.000005, epoch: 0.483276, grad_norm: 1.673946, log interval: 48.76s
[train] step 53200: loss/diff: 0.686164, loss/stop: 0.012122, lr: 0.000005, epoch: 0.484187, grad_norm: 1.776451, log interval: 56.13s
[train] step 53300: loss/diff: 0.765880, loss/stop: 0.001859, lr: 0.000005, epoch: 0.485097, grad_norm: 1.834499, log interval: 56.56s
[train] step 53400: loss/diff: 0.788751, loss/stop: 0.000948, lr: 0.000005, epoch: 0.486007, grad_norm: 1.907779, log interval: 50.94s
[train] step 53500: loss/diff: 0.879273, loss/stop: 0.000916, lr: 0.000005, epoch: 0.486917, grad_norm: 1.276428, log interval: 56.57s
[train] step 53600: loss/diff: 0.818102, loss/stop: 0.087268, lr: 0.000005, epoch: 0.487827, grad_norm: 2.387456, log interval: 58.22s
[train] step 53700: loss/diff: 0.776501, loss/stop: 0.024672, lr: 0.000004, epoch: 0.488737, grad_norm: 1.505213, log interval: 54.90s
[train] step 53800: loss/diff: 0.737947, loss/stop: 0.007291, lr: 0.000004, epoch: 0.489647, grad_norm: 1.726120, log interval: 52.60s
[train] step 53900: loss/diff: 0.802303, loss/stop: 0.012688, lr: 0.000004, epoch: 0.490557, grad_norm: 1.901323, log interval: 58.00s
[train] step 54000: loss/diff: 0.789757, loss/stop: 0.003727, lr: 0.000004, epoch: 0.491468, grad_norm: 1.802274, log interval: 54.27s
[train] step 54100: loss/diff: 0.689714, loss/stop: 0.039820, lr: 0.000004, epoch: 0.492378, grad_norm: 2.215601, log interval: 49.71s
[train] step 54200: loss/diff: 0.822125, loss/stop: 0.033178, lr: 0.000004, epoch: 0.493288, grad_norm: 1.642049, log interval: 58.17s
[train] step 54300: loss/diff: 0.866940, loss/stop: 0.002156, lr: 0.000004, epoch: 0.494198, grad_norm: 1.705670, log interval: 57.32s
[train] step 54400: loss/diff: 0.794199, loss/stop: 0.000426, lr: 0.000004, epoch: 0.495108, grad_norm: 1.533280, log interval: 49.16s
[train] step 54500: loss/diff: 0.796516, loss/stop: 0.001365, lr: 0.000004, epoch: 0.496018, grad_norm: 1.821237, log interval: 53.94s
[train] step 54600: loss/diff: 0.761360, loss/stop: 0.010949, lr: 0.000004, epoch: 0.496928, grad_norm: 1.287148, log interval: 57.49s
[train] step 54700: loss/diff: 0.778240, loss/stop: 0.000492, lr: 0.000004, epoch: 0.497838, grad_norm: 1.157622, log interval: 53.34s
[train] step 54800: loss/diff: 0.779066, loss/stop: 0.001689, lr: 0.000004, epoch: 0.498749, grad_norm: 1.314070, log interval: 52.54s
[train] step 54900: loss/diff: 0.766074, loss/stop: 0.004488, lr: 0.000004, epoch: 0.499659, grad_norm: 1.627912, log interval: 57.10s
[train] step 55000: loss/diff: 0.775409, loss/stop: 0.010479, lr: 0.000004, epoch: 0.500569, grad_norm: 1.445381, log interval: 53.54s
[train] step 55100: loss/diff: 0.771743, loss/stop: 0.001379, lr: 0.000004, epoch: 0.501479, grad_norm: 1.220067, log interval: 113.13s
[train] step 55200: loss/diff: 0.791127, loss/stop: 0.004377, lr: 0.000004, epoch: 0.502389, grad_norm: 2.415459, log interval: 56.48s
[train] step 55300: loss/diff: 0.788073, loss/stop: 0.009723, lr: 0.000004, epoch: 0.503299, grad_norm: 1.465361, log interval: 51.64s
[train] step 55400: loss/diff: 0.706296, loss/stop: 0.003115, lr: 0.000004, epoch: 0.504209, grad_norm: 1.224587, log interval: 57.56s
[train] step 55500: loss/diff: 0.810039, loss/stop: 0.000636, lr: 0.000004, epoch: 0.505119, grad_norm: 1.380000, log interval: 57.14s
[train] step 55600: loss/diff: 0.824939, loss/stop: 0.016023, lr: 0.000004, epoch: 0.506030, grad_norm: 1.419575, log interval: 52.95s
[train] step 55700: loss/diff: 0.864199, loss/stop: 0.037136, lr: 0.000004, epoch: 0.506940, grad_norm: 1.833334, log interval: 57.42s
[train] step 55800: loss/diff: 0.824669, loss/stop: 0.003885, lr: 0.000004, epoch: 0.507850, grad_norm: 1.650992, log interval: 59.88s
[train] step 55900: loss/diff: 0.775325, loss/stop: 0.014096, lr: 0.000004, epoch: 0.508760, grad_norm: 1.841922, log interval: 53.02s
[train] step 56000: loss/diff: 0.831283, loss/stop: 0.001833, lr: 0.000004, epoch: 0.509670, grad_norm: 1.167603, log interval: 55.52s
[train] step 56100: loss/diff: 0.717253, loss/stop: 0.012500, lr: 0.000004, epoch: 0.510580, grad_norm: 1.305112, log interval: 60.08s
[train] step 56200: loss/diff: 0.798330, loss/stop: 0.039612, lr: 0.000004, epoch: 0.511490, grad_norm: 1.475524, log interval: 53.77s
[train] step 56300: loss/diff: 0.740531, loss/stop: 0.011259, lr: 0.000004, epoch: 0.512400, grad_norm: 2.027884, log interval: 54.72s
[train] step 56400: loss/diff: 0.844305, loss/stop: 0.025528, lr: 0.000004, epoch: 0.513311, grad_norm: 1.416012, log interval: 61.47s
[train] step 56500: loss/diff: 0.896488, loss/stop: 0.003526, lr: 0.000004, epoch: 0.514221, grad_norm: 1.444358, log interval: 56.58s
[train] step 56600: loss/diff: 0.775190, loss/stop: 0.007342, lr: 0.000004, epoch: 0.515131, grad_norm: 1.841365, log interval: 55.39s
[train] step 56700: loss/diff: 0.814848, loss/stop: 0.003207, lr: 0.000004, epoch: 0.516041, grad_norm: 1.453813, log interval: 58.66s
[train] step 56800: loss/diff: 0.767797, loss/stop: 0.002423, lr: 0.000004, epoch: 0.516951, grad_norm: 1.479246, log interval: 56.75s
[train] step 56900: loss/diff: 0.732839, loss/stop: 0.001073, lr: 0.000004, epoch: 0.517861, grad_norm: 1.216738, log interval: 54.30s
[train] step 57000: loss/diff: 0.825911, loss/stop: 0.037524, lr: 0.000004, epoch: 0.518771, grad_norm: 1.398765, log interval: 63.65s
[train] step 57100: loss/diff: 0.774804, loss/stop: 0.025422, lr: 0.000004, epoch: 0.519681, grad_norm: 1.733048, log interval: 56.54s
[train] step 57200: loss/diff: 0.843426, loss/stop: 0.017778, lr: 0.000004, epoch: 0.520592, grad_norm: 2.121825, log interval: 54.96s
[train] step 57300: loss/diff: 0.831619, loss/stop: 0.028713, lr: 0.000004, epoch: 0.521502, grad_norm: 1.660844, log interval: 59.12s
[train] step 57400: loss/diff: 0.830092, loss/stop: 0.000601, lr: 0.000004, epoch: 0.522412, grad_norm: 1.277927, log interval: 59.13s
[train] step 57500: loss/diff: 0.792712, loss/stop: 0.001852, lr: 0.000004, epoch: 0.523322, grad_norm: 1.454641, log interval: 53.55s
[train] step 57600: loss/diff: 0.922997, loss/stop: 0.015287, lr: 0.000004, epoch: 0.524232, grad_norm: 1.717691, log interval: 56.81s
[train] step 57700: loss/diff: 0.800242, loss/stop: 0.014486, lr: 0.000004, epoch: 0.525142, grad_norm: 1.609624, log interval: 58.44s
[train] step 57800: loss/diff: 0.811685, loss/stop: 0.000624, lr: 0.000004, epoch: 0.526052, grad_norm: 1.879561, log interval: 55.74s
[train] step 57900: loss/diff: 0.858839, loss/stop: 0.000796, lr: 0.000004, epoch: 0.526962, grad_norm: 1.293828, log interval: 58.37s
[train] step 58000: loss/diff: 0.750514, loss/stop: 0.001208, lr: 0.000004, epoch: 0.527873, grad_norm: 1.529073, log interval: 58.40s
[train] step 58100: loss/diff: 0.709908, loss/stop: 0.040331, lr: 0.000004, epoch: 0.528783, grad_norm: 2.037308, log interval: 54.20s
[train] step 58200: loss/diff: 0.792082, loss/stop: 0.001523, lr: 0.000004, epoch: 0.529693, grad_norm: 1.765552, log interval: 52.67s
[train] step 58300: loss/diff: 0.801546, loss/stop: 0.018702, lr: 0.000004, epoch: 0.530603, grad_norm: 1.451385, log interval: 58.88s
[train] step 58400: loss/diff: 0.840024, loss/stop: 0.008227, lr: 0.000004, epoch: 0.531513, grad_norm: 1.693246, log interval: 66.19s
[train] step 58500: loss/diff: 0.764404, loss/stop: 0.025258, lr: 0.000004, epoch: 0.532423, grad_norm: 1.577403, log interval: 74.59s
[train] step 58600: loss/diff: 0.793808, loss/stop: 0.000344, lr: 0.000004, epoch: 0.533333, grad_norm: 1.455400, log interval: 68.37s
[train] step 58700: loss/diff: 0.779714, loss/stop: 0.000456, lr: 0.000004, epoch: 0.534243, grad_norm: 1.663649, log interval: 83.05s
[train] step 58800: loss/diff: 0.798261, loss/stop: 0.000536, lr: 0.000004, epoch: 0.535154, grad_norm: 1.271329, log interval: 89.84s
[train] step 58900: loss/diff: 0.780133, loss/stop: 0.000658, lr: 0.000004, epoch: 0.536064, grad_norm: 1.462973, log interval: 90.01s
[train] step 59000: loss/diff: 0.861933, loss/stop: 0.046154, lr: 0.000004, epoch: 0.536974, grad_norm: 2.591891, log interval: 86.27s
[train] step 59100: loss/diff: 0.818184, loss/stop: 0.004164, lr: 0.000004, epoch: 0.537884, grad_norm: 1.411061, log interval: 83.74s
[train] step 59200: loss/diff: 0.835785, loss/stop: 0.009889, lr: 0.000004, epoch: 0.538794, grad_norm: 1.552674, log interval: 86.35s
[train] step 59300: loss/diff: 0.794137, loss/stop: 0.002660, lr: 0.000004, epoch: 0.539704, grad_norm: 1.247610, log interval: 72.75s
[train] step 59400: loss/diff: 0.858312, loss/stop: 0.032508, lr: 0.000004, epoch: 0.540614, grad_norm: 1.705842, log interval: 81.81s
[train] step 59500: loss/diff: 0.853274, loss/stop: 0.009762, lr: 0.000004, epoch: 0.541524, grad_norm: 1.666665, log interval: 83.52s
[train] step 59600: loss/diff: 0.823687, loss/stop: 0.003515, lr: 0.000004, epoch: 0.542435, grad_norm: 1.676817, log interval: 82.38s
[train] step 59700: loss/diff: 0.779609, loss/stop: 0.000253, lr: 0.000004, epoch: 0.543345, grad_norm: 1.459544, log interval: 82.74s
[train] step 59800: loss/diff: 0.765840, loss/stop: 0.007206, lr: 0.000004, epoch: 0.544255, grad_norm: 1.425235, log interval: 81.15s
[train] step 59900: loss/diff: 0.761356, loss/stop: 0.000549, lr: 0.000004, epoch: 0.545165, grad_norm: 1.481231, log interval: 89.43s
[train] step 60000: loss/diff: 0.793093, loss/stop: 0.028488, lr: 0.000004, epoch: 0.546075, grad_norm: 1.597272, log interval: 79.83s
[train] step 60100: loss/diff: 0.769385, loss/stop: 0.002038, lr: 0.000004, epoch: 0.546985, grad_norm: 1.540278, log interval: 118.86s
[train] step 60200: loss/diff: 0.812688, loss/stop: 0.008841, lr: 0.000003, epoch: 0.547895, grad_norm: 1.506425, log interval: 86.84s
[train] step 60300: loss/diff: 0.767969, loss/stop: 0.000724, lr: 0.000003, epoch: 0.548805, grad_norm: 1.466715, log interval: 84.97s
[train] step 60400: loss/diff: 0.824817, loss/stop: 0.007891, lr: 0.000003, epoch: 0.549716, grad_norm: 1.454012, log interval: 81.73s
[train] step 60500: loss/diff: 0.736879, loss/stop: 0.003752, lr: 0.000003, epoch: 0.550626, grad_norm: 1.375536, log interval: 81.06s
[train] step 60600: loss/diff: 0.811305, loss/stop: 0.007258, lr: 0.000003, epoch: 0.551536, grad_norm: 1.434107, log interval: 83.48s
[train] step 60700: loss/diff: 0.806226, loss/stop: 0.072203, lr: 0.000003, epoch: 0.552446, grad_norm: 2.667045, log interval: 85.53s
[train] step 60800: loss/diff: 0.777624, loss/stop: 0.063886, lr: 0.000003, epoch: 0.553356, grad_norm: 1.712871, log interval: 81.83s
[train] step 60900: loss/diff: 0.782243, loss/stop: 0.009839, lr: 0.000003, epoch: 0.554266, grad_norm: 1.319353, log interval: 79.48s
[train] step 61000: loss/diff: 0.755400, loss/stop: 0.010646, lr: 0.000003, epoch: 0.555176, grad_norm: 2.051033, log interval: 72.17s
[train] step 61100: loss/diff: 0.810117, loss/stop: 0.002517, lr: 0.000003, epoch: 0.556086, grad_norm: 1.270506, log interval: 72.13s
[train] step 61200: loss/diff: 0.811762, loss/stop: 0.012466, lr: 0.000003, epoch: 0.556997, grad_norm: 1.858076, log interval: 70.62s
[train] step 61300: loss/diff: 0.784405, loss/stop: 0.074161, lr: 0.000003, epoch: 0.557907, grad_norm: 1.519791, log interval: 70.82s
[train] step 61400: loss/diff: 0.857293, loss/stop: 0.014295, lr: 0.000003, epoch: 0.558817, grad_norm: 1.239558, log interval: 74.68s
[train] step 61500: loss/diff: 0.857803, loss/stop: 0.004979, lr: 0.000003, epoch: 0.559727, grad_norm: 1.321873, log interval: 74.38s
[train] step 61600: loss/diff: 0.736614, loss/stop: 0.003786, lr: 0.000003, epoch: 0.560637, grad_norm: 1.481341, log interval: 74.37s
[train] step 61700: loss/diff: 0.793538, loss/stop: 0.014301, lr: 0.000003, epoch: 0.561547, grad_norm: 1.646950, log interval: 75.11s
[train] step 61800: loss/diff: 0.747670, loss/stop: 0.003272, lr: 0.000003, epoch: 0.562457, grad_norm: 1.248177, log interval: 75.52s
[train] step 61900: loss/diff: 0.858530, loss/stop: 0.004939, lr: 0.000003, epoch: 0.563367, grad_norm: 1.628311, log interval: 74.02s
[train] step 62000: loss/diff: 0.779568, loss/stop: 0.004504, lr: 0.000003, epoch: 0.564278, grad_norm: 1.741570, log interval: 70.00s
[train] step 62100: loss/diff: 0.764001, loss/stop: 0.076005, lr: 0.000003, epoch: 0.565188, grad_norm: 1.690257, log interval: 79.07s
[train] step 62200: loss/diff: 0.831272, loss/stop: 0.001251, lr: 0.000003, epoch: 0.566098, grad_norm: 1.359177, log interval: 74.63s
[train] step 62300: loss/diff: 0.757113, loss/stop: 0.002158, lr: 0.000003, epoch: 0.567008, grad_norm: 2.636433, log interval: 71.13s
[train] step 62400: loss/diff: 0.791803, loss/stop: 0.009279, lr: 0.000003, epoch: 0.567918, grad_norm: 1.682120, log interval: 74.00s
[train] step 62500: loss/diff: 0.766888, loss/stop: 0.038797, lr: 0.000003, epoch: 0.568828, grad_norm: 1.745498, log interval: 72.61s
[train] step 62600: loss/diff: 0.741963, loss/stop: 0.013392, lr: 0.000003, epoch: 0.569738, grad_norm: 1.588431, log interval: 75.40s
[train] step 62700: loss/diff: 0.831677, loss/stop: 0.008954, lr: 0.000003, epoch: 0.570648, grad_norm: 1.710292, log interval: 78.34s
[train] step 62800: loss/diff: 0.765327, loss/stop: 0.004989, lr: 0.000003, epoch: 0.571559, grad_norm: 1.304810, log interval: 86.93s
[train] step 62900: loss/diff: 0.699501, loss/stop: 0.008137, lr: 0.000003, epoch: 0.572469, grad_norm: 1.804233, log interval: 90.00s
[train] step 63000: loss/diff: 0.899387, loss/stop: 0.084648, lr: 0.000003, epoch: 0.573379, grad_norm: 1.735563, log interval: 86.14s
[train] step 63100: loss/diff: 0.767874, loss/stop: 0.012266, lr: 0.000003, epoch: 0.574289, grad_norm: 1.408475, log interval: 83.24s
[train] step 63200: loss/diff: 0.830969, loss/stop: 0.000892, lr: 0.000003, epoch: 0.575199, grad_norm: 1.532952, log interval: 88.02s
[train] step 63300: loss/diff: 0.788282, loss/stop: 0.001118, lr: 0.000003, epoch: 0.576109, grad_norm: 1.511318, log interval: 82.97s
[train] step 63400: loss/diff: 0.799837, loss/stop: 0.005321, lr: 0.000003, epoch: 0.577019, grad_norm: 2.036876, log interval: 73.44s
[train] step 63500: loss/diff: 0.748446, loss/stop: 0.018563, lr: 0.000003, epoch: 0.577929, grad_norm: 1.781157, log interval: 74.31s
[train] step 63600: loss/diff: 0.780297, loss/stop: 0.007270, lr: 0.000003, epoch: 0.578840, grad_norm: 1.945737, log interval: 71.33s
[train] step 63700: loss/diff: 0.792013, loss/stop: 0.008813, lr: 0.000003, epoch: 0.579750, grad_norm: 1.458331, log interval: 77.53s
[train] step 63800: loss/diff: 0.788991, loss/stop: 0.008315, lr: 0.000003, epoch: 0.580660, grad_norm: 1.608916, log interval: 75.04s
[train] step 63900: loss/diff: 0.825868, loss/stop: 0.019728, lr: 0.000003, epoch: 0.581570, grad_norm: 1.419562, log interval: 73.23s
[train] step 64000: loss/diff: 0.788063, loss/stop: 0.051597, lr: 0.000003, epoch: 0.582480, grad_norm: 1.872432, log interval: 73.04s
[train] step 64100: loss/diff: 0.774496, loss/stop: 0.003454, lr: 0.000003, epoch: 0.583390, grad_norm: 1.386935, log interval: 72.98s
[train] step 64200: loss/diff: 0.742878, loss/stop: 0.016089, lr: 0.000003, epoch: 0.584300, grad_norm: 1.854074, log interval: 74.97s
[train] step 64300: loss/diff: 0.777304, loss/stop: 0.008961, lr: 0.000003, epoch: 0.585210, grad_norm: 1.542973, log interval: 72.88s
[train] step 64400: loss/diff: 0.756184, loss/stop: 0.000861, lr: 0.000003, epoch: 0.586121, grad_norm: 1.384289, log interval: 76.05s
[train] step 64500: loss/diff: 0.737231, loss/stop: 0.009332, lr: 0.000003, epoch: 0.587031, grad_norm: 1.386065, log interval: 70.39s
[train] step 64600: loss/diff: 0.798654, loss/stop: 0.003046, lr: 0.000003, epoch: 0.587941, grad_norm: 1.953030, log interval: 69.66s
[train] step 64700: loss/diff: 0.796738, loss/stop: 0.003993, lr: 0.000003, epoch: 0.588851, grad_norm: 1.381471, log interval: 77.08s
[train] step 64800: loss/diff: 0.783223, loss/stop: 0.018598, lr: 0.000003, epoch: 0.589761, grad_norm: 1.850415, log interval: 71.96s
[train] step 64900: loss/diff: 0.766789, loss/stop: 0.013712, lr: 0.000003, epoch: 0.590671, grad_norm: 1.483885, log interval: 70.71s
[train] step 65000: loss/diff: 0.897009, loss/stop: 0.058364, lr: 0.000003, epoch: 0.591581, grad_norm: 1.698357, log interval: 74.75s
[train] step 65100: loss/diff: 0.850897, loss/stop: 0.000957, lr: 0.000003, epoch: 0.592491, grad_norm: 1.325273, log interval: 127.44s
[train] step 65200: loss/diff: 0.739951, loss/stop: 0.005687, lr: 0.000003, epoch: 0.593402, grad_norm: 1.305859, log interval: 72.85s
[train] step 65300: loss/diff: 0.832568, loss/stop: 0.026143, lr: 0.000003, epoch: 0.594312, grad_norm: 1.404788, log interval: 73.08s
[train] step 65400: loss/diff: 0.727101, loss/stop: 0.093470, lr: 0.000003, epoch: 0.595222, grad_norm: 1.902509, log interval: 73.20s
[train] step 65500: loss/diff: 0.761799, loss/stop: 0.009275, lr: 0.000003, epoch: 0.596132, grad_norm: 1.215611, log interval: 67.66s
[train] step 65600: loss/diff: 0.876997, loss/stop: 0.006342, lr: 0.000003, epoch: 0.597042, grad_norm: 1.355735, log interval: 74.61s
[train] step 65700: loss/diff: 0.849649, loss/stop: 0.007275, lr: 0.000003, epoch: 0.597952, grad_norm: 1.284089, log interval: 71.58s
[train] step 65800: loss/diff: 0.797170, loss/stop: 0.011760, lr: 0.000003, epoch: 0.598862, grad_norm: 1.504542, log interval: 71.33s
[train] step 65900: loss/diff: 0.806008, loss/stop: 0.011050, lr: 0.000003, epoch: 0.599772, grad_norm: 1.973404, log interval: 70.55s
[train] step 66000: loss/diff: 0.774918, loss/stop: 0.007102, lr: 0.000003, epoch: 0.600683, grad_norm: 1.592302, log interval: 67.11s
[train] step 66100: loss/diff: 0.763485, loss/stop: 0.001774, lr: 0.000003, epoch: 0.601593, grad_norm: 1.432229, log interval: 72.66s
[train] step 66200: loss/diff: 0.814278, loss/stop: 0.008042, lr: 0.000003, epoch: 0.602503, grad_norm: 1.587993, log interval: 69.97s
[train] step 66300: loss/diff: 0.793549, loss/stop: 0.005771, lr: 0.000003, epoch: 0.603413, grad_norm: 1.436722, log interval: 71.29s
[train] step 66400: loss/diff: 0.787660, loss/stop: 0.011042, lr: 0.000003, epoch: 0.604323, grad_norm: 1.524552, log interval: 67.63s
[train] step 66500: loss/diff: 0.724631, loss/stop: 0.020514, lr: 0.000003, epoch: 0.605233, grad_norm: 1.896312, log interval: 66.07s
[train] step 66600: loss/diff: 0.733984, loss/stop: 0.005533, lr: 0.000003, epoch: 0.606143, grad_norm: 1.654163, log interval: 77.20s
[train] step 66700: loss/diff: 0.755459, loss/stop: 0.002693, lr: 0.000003, epoch: 0.607053, grad_norm: 1.478183, log interval: 69.94s
[train] step 66800: loss/diff: 0.782615, loss/stop: 0.001090, lr: 0.000003, epoch: 0.607964, grad_norm: 1.248526, log interval: 67.65s
[train] step 66900: loss/diff: 0.763689, loss/stop: 0.006598, lr: 0.000003, epoch: 0.608874, grad_norm: 1.624986, log interval: 70.40s
[train] step 67000: loss/diff: 0.717651, loss/stop: 0.000580, lr: 0.000002, epoch: 0.609784, grad_norm: 1.255602, log interval: 69.35s
[train] step 67100: loss/diff: 0.796822, loss/stop: 0.014090, lr: 0.000002, epoch: 0.610694, grad_norm: 1.611224, log interval: 74.20s
[train] step 67200: loss/diff: 0.795503, loss/stop: 0.007163, lr: 0.000002, epoch: 0.611604, grad_norm: 1.366923, log interval: 72.72s
[train] step 67300: loss/diff: 0.872887, loss/stop: 0.009161, lr: 0.000002, epoch: 0.612514, grad_norm: 1.532369, log interval: 66.93s
[train] step 67400: loss/diff: 0.752052, loss/stop: 0.022912, lr: 0.000002, epoch: 0.613424, grad_norm: 1.539974, log interval: 68.44s
[train] step 67500: loss/diff: 0.806062, loss/stop: 0.006626, lr: 0.000002, epoch: 0.614334, grad_norm: 1.323882, log interval: 73.78s
[train] step 67600: loss/diff: 0.792537, loss/stop: 0.121741, lr: 0.000002, epoch: 0.615245, grad_norm: 2.926843, log interval: 73.95s
[train] step 67700: loss/diff: 0.840388, loss/stop: 0.002215, lr: 0.000002, epoch: 0.616155, grad_norm: 1.624707, log interval: 74.04s
[train] step 67800: loss/diff: 0.782231, loss/stop: 0.006464, lr: 0.000002, epoch: 0.617065, grad_norm: 1.621463, log interval: 69.36s
[train] step 67900: loss/diff: 0.777675, loss/stop: 0.012366, lr: 0.000002, epoch: 0.617975, grad_norm: 1.465210, log interval: 71.03s
[train] step 68000: loss/diff: 0.744740, loss/stop: 0.000103, lr: 0.000002, epoch: 0.618885, grad_norm: 1.529217, log interval: 69.25s
[train] step 68100: loss/diff: 0.806926, loss/stop: 0.002841, lr: 0.000002, epoch: 0.619795, grad_norm: 1.564627, log interval: 71.03s
[train] step 68200: loss/diff: 0.784113, loss/stop: 0.001285, lr: 0.000002, epoch: 0.620705, grad_norm: 1.613415, log interval: 74.72s
[train] step 68300: loss/diff: 0.794528, loss/stop: 0.033845, lr: 0.000002, epoch: 0.621615, grad_norm: 1.385931, log interval: 73.13s
[train] step 68400: loss/diff: 0.830371, loss/stop: 0.032995, lr: 0.000002, epoch: 0.622526, grad_norm: 2.012101, log interval: 80.35s
[train] step 68500: loss/diff: 0.752081, loss/stop: 0.001094, lr: 0.000002, epoch: 0.623436, grad_norm: 1.778018, log interval: 60.87s
[train] step 68600: loss/diff: 0.816751, loss/stop: 0.071329, lr: 0.000002, epoch: 0.624346, grad_norm: 2.166744, log interval: 61.45s
[train] step 68700: loss/diff: 0.821993, loss/stop: 0.003264, lr: 0.000002, epoch: 0.625256, grad_norm: 1.675965, log interval: 62.57s
[train] step 68800: loss/diff: 0.818179, loss/stop: 0.020397, lr: 0.000002, epoch: 0.626166, grad_norm: 1.577215, log interval: 57.61s
[train] step 68900: loss/diff: 0.807485, loss/stop: 0.005610, lr: 0.000002, epoch: 0.627076, grad_norm: 1.986128, log interval: 53.10s
[train] step 69000: loss/diff: 0.744444, loss/stop: 0.011018, lr: 0.000002, epoch: 0.627986, grad_norm: 1.724521, log interval: 59.25s
[train] step 69100: loss/diff: 0.725180, loss/stop: 0.014198, lr: 0.000002, epoch: 0.628896, grad_norm: 1.495092, log interval: 54.76s
[train] step 69200: loss/diff: 0.844029, loss/stop: 0.000555, lr: 0.000002, epoch: 0.629807, grad_norm: 1.389216, log interval: 53.27s
[train] step 69300: loss/diff: 0.790730, loss/stop: 0.000853, lr: 0.000002, epoch: 0.630717, grad_norm: 1.817504, log interval: 60.44s
[train] step 69400: loss/diff: 0.864872, loss/stop: 0.005017, lr: 0.000002, epoch: 0.631627, grad_norm: 1.761001, log interval: 53.34s
[train] step 69500: loss/diff: 0.788292, loss/stop: 0.007758, lr: 0.000002, epoch: 0.632537, grad_norm: 1.565356, log interval: 52.07s
[train] step 69600: loss/diff: 0.827561, loss/stop: 0.017750, lr: 0.000002, epoch: 0.633447, grad_norm: 1.435026, log interval: 57.71s
[train] step 69700: loss/diff: 0.829400, loss/stop: 0.001340, lr: 0.000002, epoch: 0.634357, grad_norm: 1.328957, log interval: 58.24s
[train] step 69800: loss/diff: 0.750761, loss/stop: 0.001106, lr: 0.000002, epoch: 0.635267, grad_norm: 1.186539, log interval: 53.43s
[train] step 69900: loss/diff: 0.814462, loss/stop: 0.004539, lr: 0.000002, epoch: 0.636177, grad_norm: 1.647520, log interval: 56.56s
[train] step 70000: loss/diff: 0.763496, loss/stop: 0.016002, lr: 0.000002, epoch: 0.637088, grad_norm: 1.667208, log interval: 57.61s
[train] step 70100: loss/diff: 0.749849, loss/stop: 0.000099, lr: 0.000002, epoch: 0.637998, grad_norm: 1.368539, log interval: 116.59s
[train] step 70200: loss/diff: 0.793639, loss/stop: 0.005045, lr: 0.000002, epoch: 0.638908, grad_norm: 1.398898, log interval: 56.95s
[train] step 70300: loss/diff: 0.831697, loss/stop: 0.008323, lr: 0.000002, epoch: 0.639818, grad_norm: 1.385276, log interval: 54.09s
[train] step 70400: loss/diff: 0.803824, loss/stop: 0.021526, lr: 0.000002, epoch: 0.640728, grad_norm: 1.464182, log interval: 52.98s
[train] step 70500: loss/diff: 0.766686, loss/stop: 0.151426, lr: 0.000002, epoch: 0.641638, grad_norm: 2.121906, log interval: 58.60s
[train] step 70600: loss/diff: 0.820400, loss/stop: 0.003266, lr: 0.000002, epoch: 0.642548, grad_norm: 1.764716, log interval: 54.78s
[train] step 70700: loss/diff: 0.804855, loss/stop: 0.005301, lr: 0.000002, epoch: 0.643458, grad_norm: 1.464748, log interval: 50.69s
[train] step 70800: loss/diff: 0.793117, loss/stop: 0.002339, lr: 0.000002, epoch: 0.644369, grad_norm: 2.524825, log interval: 62.53s
[train] step 70900: loss/diff: 0.713699, loss/stop: 0.012052, lr: 0.000002, epoch: 0.645279, grad_norm: 2.003972, log interval: 54.15s
[train] step 71000: loss/diff: 0.725996, loss/stop: 0.005546, lr: 0.000002, epoch: 0.646189, grad_norm: 1.231195, log interval: 49.54s
[train] step 71100: loss/diff: 0.782226, loss/stop: 0.001098, lr: 0.000002, epoch: 0.647099, grad_norm: 1.607054, log interval: 56.60s
[train] step 71200: loss/diff: 0.766670, loss/stop: 0.001528, lr: 0.000002, epoch: 0.648009, grad_norm: 1.354451, log interval: 56.47s
[train] step 71300: loss/diff: 0.735856, loss/stop: 0.007932, lr: 0.000002, epoch: 0.648919, grad_norm: 2.155181, log interval: 53.72s
[train] step 71400: loss/diff: 0.766663, loss/stop: 0.012332, lr: 0.000002, epoch: 0.649829, grad_norm: 1.467269, log interval: 53.85s
[train] step 71500: loss/diff: 0.774242, loss/stop: 0.002667, lr: 0.000002, epoch: 0.650739, grad_norm: 1.931097, log interval: 56.22s
[train] step 71600: loss/diff: 0.784268, loss/stop: 0.001617, lr: 0.000002, epoch: 0.651650, grad_norm: 1.617667, log interval: 54.51s
[train] step 71700: loss/diff: 0.770915, loss/stop: 0.019451, lr: 0.000002, epoch: 0.652560, grad_norm: 1.510470, log interval: 51.42s
[train] step 71800: loss/diff: 0.775934, loss/stop: 0.000356, lr: 0.000002, epoch: 0.653470, grad_norm: 1.667332, log interval: 57.20s
[train] step 71900: loss/diff: 0.764615, loss/stop: 0.005762, lr: 0.000002, epoch: 0.654380, grad_norm: 1.445554, log interval: 55.26s
[train] step 72000: loss/diff: 0.779163, loss/stop: 0.013617, lr: 0.000002, epoch: 0.655290, grad_norm: 1.487550, log interval: 50.65s
[train] step 72100: loss/diff: 0.793001, loss/stop: 0.004396, lr: 0.000002, epoch: 0.656200, grad_norm: 1.970491, log interval: 57.16s
[train] step 72200: loss/diff: 0.737638, loss/stop: 0.012011, lr: 0.000002, epoch: 0.657110, grad_norm: 1.394086, log interval: 56.07s
[train] step 72300: loss/diff: 0.799432, loss/stop: 0.001591, lr: 0.000002, epoch: 0.658020, grad_norm: 1.669073, log interval: 54.59s
[train] step 72400: loss/diff: 0.815752, loss/stop: 0.015420, lr: 0.000002, epoch: 0.658931, grad_norm: 1.853939, log interval: 54.64s
[train] step 72500: loss/diff: 0.740782, loss/stop: 0.011708, lr: 0.000002, epoch: 0.659841, grad_norm: 1.675204, log interval: 55.25s
[train] step 72600: loss/diff: 0.869199, loss/stop: 0.001084, lr: 0.000002, epoch: 0.660751, grad_norm: 1.367767, log interval: 49.78s
[train] step 72700: loss/diff: 0.686166, loss/stop: 0.018974, lr: 0.000002, epoch: 0.661661, grad_norm: 1.797966, log interval: 51.21s
[train] step 72800: loss/diff: 0.767260, loss/stop: 0.003521, lr: 0.000002, epoch: 0.662571, grad_norm: 1.474686, log interval: 57.19s
[train] step 72900: loss/diff: 0.785304, loss/stop: 0.001264, lr: 0.000002, epoch: 0.663481, grad_norm: 1.704883, log interval: 51.55s
[train] step 73000: loss/diff: 0.800935, loss/stop: 0.000576, lr: 0.000002, epoch: 0.664391, grad_norm: 1.135806, log interval: 50.60s
[train] step 73100: loss/diff: 0.904554, loss/stop: 0.003551, lr: 0.000002, epoch: 0.665301, grad_norm: 2.109294, log interval: 55.64s
[train] step 73200: loss/diff: 0.788909, loss/stop: 0.005637, lr: 0.000002, epoch: 0.666212, grad_norm: 1.566444, log interval: 55.02s
[train] step 73300: loss/diff: 0.836295, loss/stop: 0.000911, lr: 0.000002, epoch: 0.667122, grad_norm: 1.890877, log interval: 51.55s
[train] step 73400: loss/diff: 0.755795, loss/stop: 0.014535, lr: 0.000002, epoch: 0.668032, grad_norm: 1.832619, log interval: 52.03s
[train] step 73500: loss/diff: 0.827990, loss/stop: 0.001203, lr: 0.000002, epoch: 0.668942, grad_norm: 1.557003, log interval: 57.46s
[train] step 73600: loss/diff: 0.797129, loss/stop: 0.023312, lr: 0.000002, epoch: 0.669852, grad_norm: 1.781596, log interval: 51.56s
[train] step 73700: loss/diff: 0.727340, loss/stop: 0.015148, lr: 0.000002, epoch: 0.670762, grad_norm: 1.778718, log interval: 49.18s
[train] step 73800: loss/diff: 0.744790, loss/stop: 0.003297, lr: 0.000002, epoch: 0.671672, grad_norm: 1.458912, log interval: 56.38s
[train] step 73900: loss/diff: 0.854319, loss/stop: 0.002849, lr: 0.000002, epoch: 0.672582, grad_norm: 2.210546, log interval: 53.56s
[train] step 74000: loss/diff: 0.760883, loss/stop: 0.001154, lr: 0.000002, epoch: 0.673493, grad_norm: 1.712827, log interval: 48.44s
[train] step 74100: loss/diff: 0.855104, loss/stop: 0.015142, lr: 0.000002, epoch: 0.674403, grad_norm: 1.960246, log interval: 53.40s
[train] step 74200: loss/diff: 0.750455, loss/stop: 0.005282, lr: 0.000002, epoch: 0.675313, grad_norm: 1.666275, log interval: 53.92s
[train] step 74300: loss/diff: 0.821507, loss/stop: 0.021679, lr: 0.000002, epoch: 0.676223, grad_norm: 1.728303, log interval: 51.08s
[train] step 74400: loss/diff: 0.729792, loss/stop: 0.003293, lr: 0.000002, epoch: 0.677133, grad_norm: 1.281629, log interval: 50.84s
[train] step 74500: loss/diff: 0.819351, loss/stop: 0.002501, lr: 0.000002, epoch: 0.678043, grad_norm: 1.581522, log interval: 56.18s
[train] step 74600: loss/diff: 0.830409, loss/stop: 0.018624, lr: 0.000002, epoch: 0.678953, grad_norm: 1.396648, log interval: 55.29s
[train] step 74700: loss/diff: 0.704001, loss/stop: 0.001652, lr: 0.000002, epoch: 0.679863, grad_norm: 1.633718, log interval: 47.79s
[train] step 74800: loss/diff: 0.842340, loss/stop: 0.031608, lr: 0.000002, epoch: 0.680774, grad_norm: 1.619103, log interval: 53.42s
[train] step 74900: loss/diff: 0.758119, loss/stop: 0.002349, lr: 0.000002, epoch: 0.681684, grad_norm: 1.648006, log interval: 54.10s
[train] step 75000: loss/diff: 0.814595, loss/stop: 0.031161, lr: 0.000001, epoch: 0.682594, grad_norm: 1.613587, log interval: 51.40s
[train] step 75100: loss/diff: 0.849540, loss/stop: 0.000447, lr: 0.000001, epoch: 0.683504, grad_norm: 1.578913, log interval: 138.33s
[train] step 75200: loss/diff: 0.777164, loss/stop: 0.003251, lr: 0.000001, epoch: 0.684414, grad_norm: 1.284655, log interval: 72.23s
[train] step 75300: loss/diff: 0.811469, loss/stop: 0.038428, lr: 0.000001, epoch: 0.685324, grad_norm: 1.668439, log interval: 74.99s
[train] step 75400: loss/diff: 0.884597, loss/stop: 0.002102, lr: 0.000001, epoch: 0.686234, grad_norm: 1.557595, log interval: 74.51s
[train] step 75500: loss/diff: 0.778130, loss/stop: 0.015659, lr: 0.000001, epoch: 0.687144, grad_norm: 1.361506, log interval: 74.43s
[train] step 75600: loss/diff: 0.824185, loss/stop: 0.025578, lr: 0.000001, epoch: 0.688055, grad_norm: 1.707139, log interval: 74.48s
[train] step 75700: loss/diff: 0.842153, loss/stop: 0.005963, lr: 0.000001, epoch: 0.688965, grad_norm: 1.501913, log interval: 69.85s
[train] step 75800: loss/diff: 0.770798, loss/stop: 0.024614, lr: 0.000001, epoch: 0.689875, grad_norm: 1.355016, log interval: 74.63s
[train] step 75900: loss/diff: 0.766569, loss/stop: 0.003301, lr: 0.000001, epoch: 0.690785, grad_norm: 1.603090, log interval: 72.08s
[train] step 76000: loss/diff: 0.736421, loss/stop: 0.007468, lr: 0.000001, epoch: 0.691695, grad_norm: 1.966415, log interval: 74.17s
[train] step 76100: loss/diff: 0.810936, loss/stop: 0.023006, lr: 0.000001, epoch: 0.692605, grad_norm: 1.598283, log interval: 76.20s
[train] step 76200: loss/diff: 0.805297, loss/stop: 0.003101, lr: 0.000001, epoch: 0.693515, grad_norm: 1.402297, log interval: 68.19s
[train] step 76300: loss/diff: 0.759965, loss/stop: 0.006538, lr: 0.000001, epoch: 0.694425, grad_norm: 1.761107, log interval: 65.20s
[train] step 76400: loss/diff: 0.780896, loss/stop: 0.014893, lr: 0.000001, epoch: 0.695336, grad_norm: 2.270149, log interval: 61.59s
[train] step 76500: loss/diff: 0.764503, loss/stop: 0.000718, lr: 0.000001, epoch: 0.696246, grad_norm: 1.360116, log interval: 60.73s
[train] step 76600: loss/diff: 0.820028, loss/stop: 0.001216, lr: 0.000001, epoch: 0.697156, grad_norm: 1.591306, log interval: 62.74s
[train] step 76700: loss/diff: 0.742224, loss/stop: 0.001811, lr: 0.000001, epoch: 0.698066, grad_norm: 1.801604, log interval: 59.12s
[train] step 76800: loss/diff: 0.784559, loss/stop: 0.001541, lr: 0.000001, epoch: 0.698976, grad_norm: 1.898996, log interval: 60.23s
[train] step 76900: loss/diff: 0.778685, loss/stop: 0.000256, lr: 0.000001, epoch: 0.699886, grad_norm: 1.457121, log interval: 63.38s
[train] step 77000: loss/diff: 0.717860, loss/stop: 0.020495, lr: 0.000001, epoch: 0.700796, grad_norm: 1.405676, log interval: 59.16s
[train] step 77100: loss/diff: 0.800527, loss/stop: 0.001125, lr: 0.000001, epoch: 0.701706, grad_norm: 1.902862, log interval: 57.35s
[train] step 77200: loss/diff: 0.835069, loss/stop: 0.008606, lr: 0.000001, epoch: 0.702617, grad_norm: 1.567460, log interval: 60.84s
[train] step 77300: loss/diff: 0.775173, loss/stop: 0.001915, lr: 0.000001, epoch: 0.703527, grad_norm: 1.900436, log interval: 56.25s
[train] step 77400: loss/diff: 0.772619, loss/stop: 0.002775, lr: 0.000001, epoch: 0.704437, grad_norm: 1.677150, log interval: 56.35s
[train] step 77500: loss/diff: 0.793793, loss/stop: 0.001229, lr: 0.000001, epoch: 0.705347, grad_norm: 2.036044, log interval: 59.53s
[train] step 77600: loss/diff: 0.818651, loss/stop: 0.004319, lr: 0.000001, epoch: 0.706257, grad_norm: 1.972849, log interval: 56.14s
[train] step 77700: loss/diff: 0.821258, loss/stop: 0.001182, lr: 0.000001, epoch: 0.707167, grad_norm: 1.647248, log interval: 52.16s
[train] step 77800: loss/diff: 0.758851, loss/stop: 0.014626, lr: 0.000001, epoch: 0.708077, grad_norm: 1.317212, log interval: 62.58s
[train] step 77900: loss/diff: 0.796753, loss/stop: 0.006913, lr: 0.000001, epoch: 0.708987, grad_norm: 1.382078, log interval: 59.40s
[train] step 78000: loss/diff: 0.765493, loss/stop: 0.014226, lr: 0.000001, epoch: 0.709898, grad_norm: 1.329198, log interval: 53.98s
[train] step 78100: loss/diff: 0.801863, loss/stop: 0.002836, lr: 0.000001, epoch: 0.710808, grad_norm: 1.695374, log interval: 59.22s
[train] step 78200: loss/diff: 0.726920, loss/stop: 0.015374, lr: 0.000001, epoch: 0.711718, grad_norm: 1.626823, log interval: 58.66s
[train] step 78300: loss/diff: 0.788112, loss/stop: 0.007421, lr: 0.000001, epoch: 0.712628, grad_norm: 1.740306, log interval: 54.05s
[train] step 78400: loss/diff: 0.773284, loss/stop: 0.028918, lr: 0.000001, epoch: 0.713538, grad_norm: 2.281847, log interval: 60.02s
[train] step 78500: loss/diff: 0.801450, loss/stop: 0.014092, lr: 0.000001, epoch: 0.714448, grad_norm: 1.451534, log interval: 60.85s
[train] step 78600: loss/diff: 0.745389, loss/stop: 0.000449, lr: 0.000001, epoch: 0.715358, grad_norm: 2.453300, log interval: 52.88s
[train] step 78700: loss/diff: 0.688799, loss/stop: 0.042048, lr: 0.000001, epoch: 0.716268, grad_norm: 1.823841, log interval: 59.38s
[train] step 78800: loss/diff: 0.720613, loss/stop: 0.000808, lr: 0.000001, epoch: 0.717179, grad_norm: 1.524517, log interval: 59.74s
[train] step 78900: loss/diff: 0.821957, loss/stop: 0.001189, lr: 0.000001, epoch: 0.718089, grad_norm: 1.350510, log interval: 54.81s
[train] step 79000: loss/diff: 0.721866, loss/stop: 0.009194, lr: 0.000001, epoch: 0.718999, grad_norm: 1.623433, log interval: 57.97s
[train] step 79100: loss/diff: 0.772965, loss/stop: 0.015144, lr: 0.000001, epoch: 0.719909, grad_norm: 1.633513, log interval: 61.86s
[train] step 79200: loss/diff: 0.751994, loss/stop: 0.000876, lr: 0.000001, epoch: 0.720819, grad_norm: 1.484395, log interval: 54.08s
[train] step 79300: loss/diff: 0.769343, loss/stop: 0.018667, lr: 0.000001, epoch: 0.721729, grad_norm: 1.732584, log interval: 55.60s
[train] step 79400: loss/diff: 0.751229, loss/stop: 0.006168, lr: 0.000001, epoch: 0.722639, grad_norm: 1.812352, log interval: 60.63s
[train] step 79500: loss/diff: 0.826198, loss/stop: 0.000345, lr: 0.000001, epoch: 0.723549, grad_norm: 2.061679, log interval: 56.67s
[train] step 79600: loss/diff: 0.712174, loss/stop: 0.004650, lr: 0.000001, epoch: 0.724460, grad_norm: 1.744774, log interval: 57.74s
[train] step 79700: loss/diff: 0.809644, loss/stop: 0.005653, lr: 0.000001, epoch: 0.725370, grad_norm: 1.469512, log interval: 58.81s
[train] step 79800: loss/diff: 0.804473, loss/stop: 0.000245, lr: 0.000001, epoch: 0.726280, grad_norm: 1.474373, log interval: 53.82s
[train] step 79900: loss/diff: 0.726582, loss/stop: 0.008898, lr: 0.000001, epoch: 0.727190, grad_norm: 1.767273, log interval: 53.11s
[train] step 80000: loss/diff: 0.790021, loss/stop: 0.021660, lr: 0.000001, epoch: 0.728100, grad_norm: 1.514170, log interval: 60.73s
[train] step 80100: loss/diff: 0.753185, loss/stop: 0.012900, lr: 0.000001, epoch: 0.729010, grad_norm: 1.638286, log interval: 129.23s
[train] step 80200: loss/diff: 0.787908, loss/stop: 0.023210, lr: 0.000001, epoch: 0.729920, grad_norm: 1.685952, log interval: 57.44s
[train] step 80300: loss/diff: 0.765450, loss/stop: 0.002917, lr: 0.000001, epoch: 0.730830, grad_norm: 1.394192, log interval: 54.68s
[train] step 80400: loss/diff: 0.778457, loss/stop: 0.000296, lr: 0.000001, epoch: 0.731741, grad_norm: 1.622986, log interval: 54.78s
[train] step 80500: loss/diff: 0.784750, loss/stop: 0.007065, lr: 0.000001, epoch: 0.732651, grad_norm: 1.458579, log interval: 59.11s
[train] step 80600: loss/diff: 0.839616, loss/stop: 0.009784, lr: 0.000001, epoch: 0.733561, grad_norm: 2.033132, log interval: 58.05s
[train] step 80700: loss/diff: 0.775962, loss/stop: 0.006679, lr: 0.000001, epoch: 0.734471, grad_norm: 1.817513, log interval: 55.03s
[train] step 80800: loss/diff: 0.777622, loss/stop: 0.003727, lr: 0.000001, epoch: 0.735381, grad_norm: 1.625046, log interval: 59.32s
[train] step 80900: loss/diff: 0.777697, loss/stop: 0.002004, lr: 0.000001, epoch: 0.736291, grad_norm: 1.605221, log interval: 56.80s
[train] step 81000: loss/diff: 0.747203, loss/stop: 0.032915, lr: 0.000001, epoch: 0.737201, grad_norm: 1.711926, log interval: 52.57s
[train] step 81100: loss/diff: 0.839086, loss/stop: 0.003500, lr: 0.000001, epoch: 0.738111, grad_norm: 1.980392, log interval: 61.60s
[train] step 81200: loss/diff: 0.803909, loss/stop: 0.006183, lr: 0.000001, epoch: 0.739022, grad_norm: 1.560976, log interval: 59.36s
[train] step 81300: loss/diff: 0.830453, loss/stop: 0.003541, lr: 0.000001, epoch: 0.739932, grad_norm: 1.553485, log interval: 56.57s
[train] step 81400: loss/diff: 0.716339, loss/stop: 0.000648, lr: 0.000001, epoch: 0.740842, grad_norm: 1.358568, log interval: 55.71s
[train] step 81500: loss/diff: 0.850085, loss/stop: 0.009431, lr: 0.000001, epoch: 0.741752, grad_norm: 1.487598, log interval: 57.02s
[train] step 81600: loss/diff: 0.856786, loss/stop: 0.004696, lr: 0.000001, epoch: 0.742662, grad_norm: 2.413189, log interval: 67.57s
[train] step 81700: loss/diff: 0.749514, loss/stop: 0.007759, lr: 0.000001, epoch: 0.743572, grad_norm: 1.403021, log interval: 72.44s
[train] step 81800: loss/diff: 0.821389, loss/stop: 0.017684, lr: 0.000001, epoch: 0.744482, grad_norm: 1.818114, log interval: 73.10s
[train] step 81900: loss/diff: 0.761750, loss/stop: 0.003753, lr: 0.000001, epoch: 0.745392, grad_norm: 1.573007, log interval: 72.15s
[train] step 82000: loss/diff: 0.699286, loss/stop: 0.012102, lr: 0.000001, epoch: 0.746303, grad_norm: 1.700326, log interval: 73.36s
[train] step 82100: loss/diff: 0.748999, loss/stop: 0.008959, lr: 0.000001, epoch: 0.747213, grad_norm: 1.430426, log interval: 66.74s
[train] step 82200: loss/diff: 0.627024, loss/stop: 0.009937, lr: 0.000001, epoch: 0.748123, grad_norm: 1.909716, log interval: 72.92s
[train] step 82300: loss/diff: 0.767126, loss/stop: 0.020058, lr: 0.000001, epoch: 0.749033, grad_norm: 2.042466, log interval: 71.13s
[train] step 82400: loss/diff: 0.759526, loss/stop: 0.000504, lr: 0.000001, epoch: 0.749943, grad_norm: 1.674320, log interval: 68.10s
[train] step 82500: loss/diff: 0.773092, loss/stop: 0.000985, lr: 0.000001, epoch: 0.750853, grad_norm: 1.504585, log interval: 69.86s
[train] step 82600: loss/diff: 0.754976, loss/stop: 0.013179, lr: 0.000001, epoch: 0.751763, grad_norm: 1.387431, log interval: 54.87s
[train] step 82700: loss/diff: 0.688978, loss/stop: 0.000911, lr: 0.000001, epoch: 0.752673, grad_norm: 1.740983, log interval: 54.07s
[train] step 82800: loss/diff: 0.729276, loss/stop: 0.043502, lr: 0.000001, epoch: 0.753584, grad_norm: 2.070217, log interval: 60.85s
[train] step 82900: loss/diff: 0.811706, loss/stop: 0.013951, lr: 0.000001, epoch: 0.754494, grad_norm: 2.028779, log interval: 55.03s
[train] step 83000: loss/diff: 0.763105, loss/stop: 0.003966, lr: 0.000001, epoch: 0.755404, grad_norm: 1.406764, log interval: 53.26s
[train] step 83100: loss/diff: 0.758088, loss/stop: 0.009587, lr: 0.000001, epoch: 0.756314, grad_norm: 1.528109, log interval: 60.28s
[train] step 83200: loss/diff: 0.733441, loss/stop: 0.023136, lr: 0.000001, epoch: 0.757224, grad_norm: 1.782819, log interval: 56.79s
[train] step 83300: loss/diff: 0.795239, loss/stop: 0.011352, lr: 0.000001, epoch: 0.758134, grad_norm: 1.586014, log interval: 49.43s
[train] step 83400: loss/diff: 0.756082, loss/stop: 0.000977, lr: 0.000001, epoch: 0.759044, grad_norm: 1.708561, log interval: 59.14s
[train] step 83500: loss/diff: 0.803933, loss/stop: 0.006206, lr: 0.000001, epoch: 0.759954, grad_norm: 1.317200, log interval: 59.17s
[train] step 83600: loss/diff: 0.776357, loss/stop: 0.015915, lr: 0.000001, epoch: 0.760865, grad_norm: 1.673225, log interval: 53.09s
[train] step 83700: loss/diff: 0.811473, loss/stop: 0.007662, lr: 0.000001, epoch: 0.761775, grad_norm: 1.564983, log interval: 54.12s
[train] step 83800: loss/diff: 0.784187, loss/stop: 0.023192, lr: 0.000001, epoch: 0.762685, grad_norm: 1.649545, log interval: 59.02s
[train] step 83900: loss/diff: 0.736074, loss/stop: 0.001241, lr: 0.000001, epoch: 0.763595, grad_norm: 2.032143, log interval: 54.67s
[train] step 84000: loss/diff: 0.670715, loss/stop: 0.006361, lr: 0.000001, epoch: 0.764505, grad_norm: 1.850164, log interval: 54.73s
[train] step 84100: loss/diff: 0.784776, loss/stop: 0.008120, lr: 0.000001, epoch: 0.765415, grad_norm: 1.618880, log interval: 59.95s
[train] step 84200: loss/diff: 0.708403, loss/stop: 0.001675, lr: 0.000001, epoch: 0.766325, grad_norm: 2.042885, log interval: 53.66s
[train] step 84300: loss/diff: 0.766387, loss/stop: 0.028138, lr: 0.000001, epoch: 0.767235, grad_norm: 1.729478, log interval: 53.43s
[train] step 84400: loss/diff: 0.700757, loss/stop: 0.008489, lr: 0.000001, epoch: 0.768146, grad_norm: 2.050424, log interval: 59.57s
[train] step 84500: loss/diff: 0.814213, loss/stop: 0.013184, lr: 0.000001, epoch: 0.769056, grad_norm: 1.166238, log interval: 56.09s
[train] step 84600: loss/diff: 0.808748, loss/stop: 0.090708, lr: 0.000001, epoch: 0.769966, grad_norm: 1.968012, log interval: 51.99s
[train] step 84700: loss/diff: 0.764326, loss/stop: 0.005356, lr: 0.000001, epoch: 0.770876, grad_norm: 1.408427, log interval: 60.68s
[train] step 84800: loss/diff: 0.816804, loss/stop: 0.001905, lr: 0.000001, epoch: 0.771786, grad_norm: 1.469203, log interval: 57.73s
[train] step 84900: loss/diff: 0.849856, loss/stop: 0.017183, lr: 0.000001, epoch: 0.772696, grad_norm: 1.795319, log interval: 51.34s
[train] step 85000: loss/diff: 0.734939, loss/stop: 0.005587, lr: 0.000001, epoch: 0.773606, grad_norm: 1.414133, log interval: 58.12s
[train] step 85100: loss/diff: 0.808191, loss/stop: 0.006018, lr: 0.000001, epoch: 0.774516, grad_norm: 1.254661, log interval: 138.72s
[train] step 85200: loss/diff: 0.803602, loss/stop: 0.007148, lr: 0.000001, epoch: 0.775427, grad_norm: 1.694122, log interval: 62.98s
[train] step 85300: loss/diff: 0.782045, loss/stop: 0.027297, lr: 0.000001, epoch: 0.776337, grad_norm: 2.057047, log interval: 58.50s
[train] step 85400: loss/diff: 0.812096, loss/stop: 0.015139, lr: 0.000001, epoch: 0.777247, grad_norm: 2.866912, log interval: 56.68s
[train] step 85500: loss/diff: 0.752728, loss/stop: 0.006608, lr: 0.000001, epoch: 0.778157, grad_norm: 1.414600, log interval: 61.94s
[train] step 85600: loss/diff: 0.745520, loss/stop: 0.001602, lr: 0.000001, epoch: 0.779067, grad_norm: 2.024094, log interval: 61.77s
[train] step 85700: loss/diff: 0.805951, loss/stop: 0.010524, lr: 0.000001, epoch: 0.779977, grad_norm: 1.745066, log interval: 57.18s
[train] step 85800: loss/diff: 0.889394, loss/stop: 0.002974, lr: 0.000000, epoch: 0.780887, grad_norm: 1.613888, log interval: 61.30s
[train] step 85900: loss/diff: 0.774021, loss/stop: 0.000643, lr: 0.000000, epoch: 0.781797, grad_norm: 1.149778, log interval: 59.13s
[train] step 86000: loss/diff: 0.820133, loss/stop: 0.016134, lr: 0.000000, epoch: 0.782708, grad_norm: 1.560493, log interval: 56.11s
[train] step 86100: loss/diff: 0.764751, loss/stop: 0.014655, lr: 0.000000, epoch: 0.783618, grad_norm: 1.561528, log interval: 60.08s
[train] step 86200: loss/diff: 0.728092, loss/stop: 0.001585, lr: 0.000000, epoch: 0.784528, grad_norm: 1.944338, log interval: 60.99s
[train] step 86300: loss/diff: 0.734709, loss/stop: 0.010314, lr: 0.000000, epoch: 0.785438, grad_norm: 1.483564, log interval: 60.28s
[train] step 86400: loss/diff: 0.732540, loss/stop: 0.005200, lr: 0.000000, epoch: 0.786348, grad_norm: 1.304615, log interval: 60.72s
[train] step 86500: loss/diff: 0.775200, loss/stop: 0.000883, lr: 0.000000, epoch: 0.787258, grad_norm: 1.830459, log interval: 57.84s
[train] step 86600: loss/diff: 0.836205, loss/stop: 0.002282, lr: 0.000000, epoch: 0.788168, grad_norm: 1.703228, log interval: 56.59s
[train] step 86700: loss/diff: 0.770984, loss/stop: 0.001186, lr: 0.000000, epoch: 0.789078, grad_norm: 1.424741, log interval: 61.12s
[train] step 86800: loss/diff: 0.823768, loss/stop: 0.001890, lr: 0.000000, epoch: 0.789989, grad_norm: 1.824227, log interval: 60.87s
[train] step 86900: loss/diff: 0.703009, loss/stop: 0.005696, lr: 0.000000, epoch: 0.790899, grad_norm: 1.389490, log interval: 52.97s
[train] step 87000: loss/diff: 0.776423, loss/stop: 0.000654, lr: 0.000000, epoch: 0.791809, grad_norm: 1.509922, log interval: 57.87s
[train] step 87100: loss/diff: 0.736782, loss/stop: 0.002489, lr: 0.000000, epoch: 0.792719, grad_norm: 1.452691, log interval: 58.53s
[train] step 87200: loss/diff: 0.855616, loss/stop: 0.022082, lr: 0.000000, epoch: 0.793629, grad_norm: 2.142633, log interval: 52.02s
[train] step 87300: loss/diff: 0.838843, loss/stop: 0.017042, lr: 0.000000, epoch: 0.794539, grad_norm: 1.484802, log interval: 57.78s
[train] step 87400: loss/diff: 0.807219, loss/stop: 0.000894, lr: 0.000000, epoch: 0.795449, grad_norm: 1.311509, log interval: 58.20s
[train] step 87500: loss/diff: 0.749283, loss/stop: 0.009881, lr: 0.000000, epoch: 0.796359, grad_norm: 1.802735, log interval: 55.83s
[train] step 87600: loss/diff: 0.721571, loss/stop: 0.001788, lr: 0.000000, epoch: 0.797270, grad_norm: 1.693765, log interval: 55.19s
[train] step 87700: loss/diff: 0.746840, loss/stop: 0.003188, lr: 0.000000, epoch: 0.798180, grad_norm: 1.333683, log interval: 58.89s
[train] step 87800: loss/diff: 0.796142, loss/stop: 0.001322, lr: 0.000000, epoch: 0.799090, grad_norm: 1.875793, log interval: 55.81s
[train] step 87900: loss/diff: 0.818473, loss/stop: 0.011989, lr: 0.000000, epoch: 0.800000, grad_norm: 1.543116, log interval: 53.48s
[train] step 88000: loss/diff: 0.811914, loss/stop: 0.003948, lr: 0.000000, epoch: 0.800910, grad_norm: 1.301883, log interval: 60.79s
[train] step 88100: loss/diff: 0.800225, loss/stop: 0.010047, lr: 0.000000, epoch: 0.801820, grad_norm: 1.852066, log interval: 55.61s
[train] step 88200: loss/diff: 0.803239, loss/stop: 0.005680, lr: 0.000000, epoch: 0.802730, grad_norm: 1.552420, log interval: 51.89s
[train] step 88300: loss/diff: 0.807758, loss/stop: 0.001052, lr: 0.000000, epoch: 0.803641, grad_norm: 2.139134, log interval: 61.09s
[train] step 88400: loss/diff: 0.792441, loss/stop: 0.001537, lr: 0.000000, epoch: 0.804551, grad_norm: 1.485226, log interval: 57.81s
[train] step 88500: loss/diff: 0.720899, loss/stop: 0.004258, lr: 0.000000, epoch: 0.805461, grad_norm: 2.353518, log interval: 52.36s
[train] step 88600: loss/diff: 0.757061, loss/stop: 0.013583, lr: 0.000000, epoch: 0.806371, grad_norm: 1.653974, log interval: 60.01s
[train] step 88700: loss/diff: 0.757762, loss/stop: 0.087846, lr: 0.000000, epoch: 0.807281, grad_norm: 2.018944, log interval: 58.13s
[train] step 88800: loss/diff: 0.702686, loss/stop: 0.029265, lr: 0.000000, epoch: 0.808191, grad_norm: 1.971325, log interval: 51.79s
[train] step 88900: loss/diff: 0.688509, loss/stop: 0.001094, lr: 0.000000, epoch: 0.809101, grad_norm: 1.569344, log interval: 56.53s
[train] step 89000: loss/diff: 0.784658, loss/stop: 0.019688, lr: 0.000000, epoch: 0.810011, grad_norm: 1.510207, log interval: 59.91s
[train] step 89100: loss/diff: 0.737935, loss/stop: 0.034013, lr: 0.000000, epoch: 0.810922, grad_norm: 1.696343, log interval: 55.17s
[train] step 89200: loss/diff: 0.803540, loss/stop: 0.047056, lr: 0.000000, epoch: 0.811832, grad_norm: 2.066576, log interval: 57.47s
[train] step 89300: loss/diff: 0.737832, loss/stop: 0.006265, lr: 0.000000, epoch: 0.812742, grad_norm: 1.720842, log interval: 58.49s
[train] step 89400: loss/diff: 0.791629, loss/stop: 0.006521, lr: 0.000000, epoch: 0.813652, grad_norm: 1.397698, log interval: 56.25s
[train] step 89500: loss/diff: 0.772325, loss/stop: 0.000832, lr: 0.000000, epoch: 0.814562, grad_norm: 1.491802, log interval: 55.85s
[train] step 89600: loss/diff: 0.758080, loss/stop: 0.021441, lr: 0.000000, epoch: 0.815472, grad_norm: 1.554552, log interval: 57.49s
[train] step 89700: loss/diff: 0.751860, loss/stop: 0.008268, lr: 0.000000, epoch: 0.816382, grad_norm: 1.600197, log interval: 56.60s
[train] step 89800: loss/diff: 0.748676, loss/stop: 0.051094, lr: 0.000000, epoch: 0.817292, grad_norm: 1.680462, log interval: 55.24s
[train] step 89900: loss/diff: 0.751814, loss/stop: 0.005009, lr: 0.000000, epoch: 0.818203, grad_norm: 2.054806, log interval: 59.80s
[train] step 90000: loss/diff: 0.736443, loss/stop: 0.078162, lr: 0.000000, epoch: 0.819113, grad_norm: 1.967463, log interval: 59.08s
[train] step 90100: loss/diff: 0.766953, loss/stop: 0.005180, lr: 0.000000, epoch: 0.820023, grad_norm: 1.811000, log interval: 125.50s
[train] step 90200: loss/diff: 0.735316, loss/stop: 0.000279, lr: 0.000000, epoch: 0.820933, grad_norm: 1.514965, log interval: 54.80s
[train] step 90300: loss/diff: 0.750669, loss/stop: 0.001899, lr: 0.000000, epoch: 0.821843, grad_norm: 2.002585, log interval: 54.56s
[train] step 90400: loss/diff: 0.786383, loss/stop: 0.003457, lr: 0.000000, epoch: 0.822753, grad_norm: 2.432038, log interval: 59.46s
[train] step 90500: loss/diff: 0.748416, loss/stop: 0.002467, lr: 0.000000, epoch: 0.823663, grad_norm: 1.846554, log interval: 55.97s
[train] step 90600: loss/diff: 0.744226, loss/stop: 0.010233, lr: 0.000000, epoch: 0.824573, grad_norm: 2.096514, log interval: 51.27s
[train] step 90700: loss/diff: 0.742425, loss/stop: 0.001955, lr: 0.000000, epoch: 0.825484, grad_norm: 1.865388, log interval: 59.22s
[train] step 90800: loss/diff: 0.740944, loss/stop: 0.015933, lr: 0.000000, epoch: 0.826394, grad_norm: 1.997924, log interval: 58.23s
[train] step 90900: loss/diff: 0.777482, loss/stop: 0.009029, lr: 0.000000, epoch: 0.827304, grad_norm: 1.763701, log interval: 53.42s
[train] step 91000: loss/diff: 0.784630, loss/stop: 0.013504, lr: 0.000000, epoch: 0.828214, grad_norm: 1.491265, log interval: 57.15s
[train] step 91100: loss/diff: 0.855897, loss/stop: 0.009446, lr: 0.000000, epoch: 0.829124, grad_norm: 1.574661, log interval: 57.20s
[train] step 91200: loss/diff: 0.743184, loss/stop: 0.028713, lr: 0.000000, epoch: 0.830034, grad_norm: 2.108724, log interval: 52.46s
[train] step 91300: loss/diff: 0.773935, loss/stop: 0.004529, lr: 0.000000, epoch: 0.830944, grad_norm: 1.708909, log interval: 55.63s
[train] step 91400: loss/diff: 0.755898, loss/stop: 0.003932, lr: 0.000000, epoch: 0.831854, grad_norm: 1.347130, log interval: 58.83s
[train] step 91500: loss/diff: 0.759624, loss/stop: 0.000504, lr: 0.000000, epoch: 0.832765, grad_norm: 1.477544, log interval: 55.55s
[train] step 91600: loss/diff: 0.789669, loss/stop: 0.012356, lr: 0.000000, epoch: 0.833675, grad_norm: 1.898383, log interval: 53.50s
[train] step 91700: loss/diff: 0.774655, loss/stop: 0.011378, lr: 0.000000, epoch: 0.834585, grad_norm: 1.541421, log interval: 58.35s
[train] step 91800: loss/diff: 0.762576, loss/stop: 0.000717, lr: 0.000000, epoch: 0.835495, grad_norm: 1.785172, log interval: 54.90s
[train] step 91900: loss/diff: 0.757629, loss/stop: 0.001463, lr: 0.000000, epoch: 0.836405, grad_norm: 1.782083, log interval: 52.81s
[train] step 92000: loss/diff: 0.762977, loss/stop: 0.023420, lr: 0.000000, epoch: 0.837315, grad_norm: 2.198296, log interval: 59.90s
[train] step 92100: loss/diff: 0.755853, loss/stop: 0.000594, lr: 0.000000, epoch: 0.838225, grad_norm: 2.170182, log interval: 57.35s
[train] step 92200: loss/diff: 0.814084, loss/stop: 0.001974, lr: 0.000000, epoch: 0.839135, grad_norm: 1.485287, log interval: 52.69s
[train] step 92300: loss/diff: 0.790107, loss/stop: 0.005333, lr: 0.000000, epoch: 0.840046, grad_norm: 1.889905, log interval: 55.09s
[train] step 92400: loss/diff: 0.730031, loss/stop: 0.025992, lr: 0.000000, epoch: 0.840956, grad_norm: 1.661890, log interval: 57.24s
[train] step 92500: loss/diff: 0.830834, loss/stop: 0.021161, lr: 0.000000, epoch: 0.841866, grad_norm: 1.803848, log interval: 53.87s
[train] step 92600: loss/diff: 0.742908, loss/stop: 0.005994, lr: 0.000000, epoch: 0.842776, grad_norm: 1.602377, log interval: 57.15s
[train] step 92700: loss/diff: 0.766708, loss/stop: 0.008294, lr: 0.000000, epoch: 0.843686, grad_norm: 1.408585, log interval: 59.00s
[train] step 92800: loss/diff: 0.770779, loss/stop: 0.005284, lr: 0.000000, epoch: 0.844596, grad_norm: 2.135042, log interval: 55.16s
[train] step 92900: loss/diff: 0.850645, loss/stop: 0.012101, lr: 0.000000, epoch: 0.845506, grad_norm: 1.471925, log interval: 55.73s
[train] step 93000: loss/diff: 0.763237, loss/stop: 0.002810, lr: 0.000000, epoch: 0.846416, grad_norm: 1.363076, log interval: 59.28s
[train] step 93100: loss/diff: 0.863011, loss/stop: 0.009389, lr: 0.000000, epoch: 0.847327, grad_norm: 1.610185, log interval: 56.47s
[train] step 93200: loss/diff: 0.767887, loss/stop: 0.002750, lr: 0.000000, epoch: 0.848237, grad_norm: 1.579334, log interval: 54.71s
[train] step 93300: loss/diff: 0.804079, loss/stop: 0.003634, lr: 0.000000, epoch: 0.849147, grad_norm: 1.593594, log interval: 60.39s
[train] step 93400: loss/diff: 0.757323, loss/stop: 0.000645, lr: 0.000000, epoch: 0.850057, grad_norm: 1.646888, log interval: 56.22s
[train] step 93500: loss/diff: 0.774538, loss/stop: 0.002679, lr: 0.000000, epoch: 0.850967, grad_norm: 1.140721, log interval: 51.10s
[train] step 93600: loss/diff: 0.791344, loss/stop: 0.001082, lr: 0.000000, epoch: 0.851877, grad_norm: 1.361295, log interval: 60.12s
[train] step 93700: loss/diff: 0.765211, loss/stop: 0.018671, lr: 0.000000, epoch: 0.852787, grad_norm: 1.677736, log interval: 58.06s
[train] step 93800: loss/diff: 0.747456, loss/stop: 0.027999, lr: 0.000000, epoch: 0.853697, grad_norm: 2.210181, log interval: 52.33s
[train] step 93900: loss/diff: 0.866326, loss/stop: 0.017781, lr: 0.000000, epoch: 0.854608, grad_norm: 1.688865, log interval: 58.20s
[train] step 94000: loss/diff: 0.770653, loss/stop: 0.009505, lr: 0.000000, epoch: 0.855518, grad_norm: 1.654867, log interval: 58.12s
[train] step 94100: loss/diff: 0.770308, loss/stop: 0.008650, lr: 0.000000, epoch: 0.856428, grad_norm: 1.636088, log interval: 53.79s
[train] step 94200: loss/diff: 0.767573, loss/stop: 0.002529, lr: 0.000000, epoch: 0.857338, grad_norm: 2.166491, log interval: 57.03s
[train] step 94300: loss/diff: 0.770692, loss/stop: 0.018170, lr: 0.000000, epoch: 0.858248, grad_norm: 1.294390, log interval: 60.93s
[train] step 94400: loss/diff: 0.788153, loss/stop: 0.005856, lr: 0.000000, epoch: 0.859158, grad_norm: 1.540564, log interval: 55.49s
[train] step 94500: loss/diff: 0.757131, loss/stop: 0.004795, lr: 0.000000, epoch: 0.860068, grad_norm: 1.631690, log interval: 55.97s
[train] step 94600: loss/diff: 0.784326, loss/stop: 0.003294, lr: 0.000000, epoch: 0.860978, grad_norm: 1.481678, log interval: 55.93s
[train] step 94700: loss/diff: 0.820488, loss/stop: 0.002792, lr: 0.000000, epoch: 0.861889, grad_norm: 2.065726, log interval: 53.92s
[train] step 94800: loss/diff: 0.770838, loss/stop: 0.001855, lr: 0.000000, epoch: 0.862799, grad_norm: 1.789973, log interval: 55.00s
[train] step 94900: loss/diff: 0.750290, loss/stop: 0.005509, lr: 0.000000, epoch: 0.863709, grad_norm: 1.684138, log interval: 58.62s
[train] step 95000: loss/diff: 0.767192, loss/stop: 0.001670, lr: 0.000000, epoch: 0.864619, grad_norm: 1.724617, log interval: 55.87s
[train] step 95100: loss/diff: 0.824996, loss/stop: 0.007803, lr: 0.000000, epoch: 0.865529, grad_norm: 1.675682, log interval: 119.73s
[train] step 95200: loss/diff: 0.782553, loss/stop: 0.002315, lr: 0.000000, epoch: 0.866439, grad_norm: 1.081864, log interval: 57.85s
[train] step 95300: loss/diff: 0.743949, loss/stop: 0.017610, lr: 0.000000, epoch: 0.867349, grad_norm: 1.831999, log interval: 55.97s
[train] step 95400: loss/diff: 0.742570, loss/stop: 0.030922, lr: 0.000000, epoch: 0.868259, grad_norm: 1.632899, log interval: 61.77s
[train] step 95500: loss/diff: 0.826117, loss/stop: 0.000573, lr: 0.000000, epoch: 0.869170, grad_norm: 1.681541, log interval: 59.17s
[train] step 95600: loss/diff: 0.747389, loss/stop: 0.011319, lr: 0.000000, epoch: 0.870080, grad_norm: 1.728472, log interval: 54.21s
[train] step 95700: loss/diff: 0.786962, loss/stop: 0.003507, lr: 0.000000, epoch: 0.870990, grad_norm: 2.056655, log interval: 60.66s
[train] step 95800: loss/diff: 0.762607, loss/stop: 0.000436, lr: 0.000000, epoch: 0.871900, grad_norm: 1.604287, log interval: 57.39s
[train] step 95900: loss/diff: 0.758573, loss/stop: 0.003728, lr: 0.000000, epoch: 0.872810, grad_norm: 1.524331, log interval: 55.83s
[train] step 96000: loss/diff: 0.772934, loss/stop: 0.001385, lr: 0.000000, epoch: 0.873720, grad_norm: 1.790355, log interval: 59.92s
[train] step 96100: loss/diff: 0.924535, loss/stop: 0.008244, lr: 0.000000, epoch: 0.874630, grad_norm: 1.818025, log interval: 58.42s
[train] step 96200: loss/diff: 0.765087, loss/stop: 0.006297, lr: 0.000000, epoch: 0.875540, grad_norm: 1.589198, log interval: 55.66s
[train] step 96300: loss/diff: 0.760566, loss/stop: 0.030207, lr: 0.000000, epoch: 0.876451, grad_norm: 1.617749, log interval: 60.97s
[train] step 96400: loss/diff: 0.724348, loss/stop: 0.009052, lr: 0.000000, epoch: 0.877361, grad_norm: 1.213908, log interval: 58.75s
[train] step 96500: loss/diff: 0.703892, loss/stop: 0.009131, lr: 0.000000, epoch: 0.878271, grad_norm: 1.521908, log interval: 56.48s
[train] step 96600: loss/diff: 0.653800, loss/stop: 0.006937, lr: 0.000000, epoch: 0.879181, grad_norm: 1.704267, log interval: 61.63s
[train] step 96700: loss/diff: 0.804579, loss/stop: 0.001388, lr: 0.000000, epoch: 0.880091, grad_norm: 1.311433, log interval: 59.52s
[train] step 96800: loss/diff: 0.781422, loss/stop: 0.010142, lr: 0.000000, epoch: 0.881001, grad_norm: 1.887393, log interval: 54.78s
[train] step 96900: loss/diff: 0.865229, loss/stop: 0.001603, lr: 0.000000, epoch: 0.881911, grad_norm: 1.252743, log interval: 58.88s
[train] step 97000: loss/diff: 0.721195, loss/stop: 0.003204, lr: 0.000000, epoch: 0.882821, grad_norm: 1.172535, log interval: 60.78s
[train] step 97100: loss/diff: 0.769275, loss/stop: 0.002484, lr: 0.000000, epoch: 0.883732, grad_norm: 1.397062, log interval: 55.91s
[train] step 97200: loss/diff: 0.800483, loss/stop: 0.009518, lr: 0.000000, epoch: 0.884642, grad_norm: 1.900239, log interval: 59.17s
[train] step 97300: loss/diff: 0.752213, loss/stop: 0.005042, lr: 0.000000, epoch: 0.885552, grad_norm: 1.687993, log interval: 58.27s
[train] step 97400: loss/diff: 0.731310, loss/stop: 0.001720, lr: 0.000000, epoch: 0.886462, grad_norm: 1.424801, log interval: 52.68s
[train] step 97500: loss/diff: 0.787358, loss/stop: 0.000559, lr: 0.000000, epoch: 0.887372, grad_norm: 1.364953, log interval: 55.18s
[train] step 97600: loss/diff: 0.758878, loss/stop: 0.001525, lr: 0.000000, epoch: 0.888282, grad_norm: 1.530079, log interval: 58.52s
[train] step 97700: loss/diff: 0.720224, loss/stop: 0.035661, lr: 0.000000, epoch: 0.889192, grad_norm: 1.445794, log interval: 55.98s
[train] step 97800: loss/diff: 0.864720, loss/stop: 0.011973, lr: 0.000000, epoch: 0.890102, grad_norm: 1.523974, log interval: 53.01s
[train] step 97900: loss/diff: 0.771803, loss/stop: 0.004117, lr: 0.000000, epoch: 0.891013, grad_norm: 2.095278, log interval: 59.17s
[train] step 98000: loss/diff: 0.751462, loss/stop: 0.009115, lr: 0.000000, epoch: 0.891923, grad_norm: 1.729010, log interval: 55.61s
[train] step 98100: loss/diff: 0.761844, loss/stop: 0.022968, lr: 0.000000, epoch: 0.892833, grad_norm: 1.568973, log interval: 51.69s
[train] step 98200: loss/diff: 0.818749, loss/stop: 0.000278, lr: 0.000000, epoch: 0.893743, grad_norm: 1.403314, log interval: 58.57s
[train] step 98300: loss/diff: 0.820681, loss/stop: 0.000578, lr: 0.000000, epoch: 0.894653, grad_norm: 1.524443, log interval: 57.73s
[train] step 98400: loss/diff: 0.841648, loss/stop: 0.044984, lr: 0.000000, epoch: 0.895563, grad_norm: 1.831564, log interval: 52.08s
[train] step 98500: loss/diff: 0.809894, loss/stop: 0.007744, lr: 0.000000, epoch: 0.896473, grad_norm: 1.391898, log interval: 58.16s
[train] step 98600: loss/diff: 0.836979, loss/stop: 0.007132, lr: 0.000000, epoch: 0.897383, grad_norm: 1.706762, log interval: 58.20s
[train] step 98700: loss/diff: 0.773314, loss/stop: 0.030314, lr: 0.000000, epoch: 0.898294, grad_norm: 1.630224, log interval: 51.80s
[train] step 98800: loss/diff: 0.784638, loss/stop: 0.004982, lr: 0.000000, epoch: 0.899204, grad_norm: 1.966416, log interval: 54.86s
[train] step 98900: loss/diff: 0.783875, loss/stop: 0.018571, lr: 0.000000, epoch: 0.900114, grad_norm: 1.603919, log interval: 57.55s
[train] step 99000: loss/diff: 0.737444, loss/stop: 0.008348, lr: 0.000000, epoch: 0.901024, grad_norm: 2.419304, log interval: 54.76s
[train] step 99100: loss/diff: 0.768382, loss/stop: 0.000878, lr: 0.000000, epoch: 0.901934, grad_norm: 1.230196, log interval: 54.83s
[train] step 99200: loss/diff: 0.820219, loss/stop: 0.003772, lr: 0.000000, epoch: 0.902844, grad_norm: 1.557458, log interval: 59.93s
[train] step 99300: loss/diff: 0.767072, loss/stop: 0.001414, lr: 0.000000, epoch: 0.903754, grad_norm: 2.096487, log interval: 57.14s
[train] step 99400: loss/diff: 0.828971, loss/stop: 0.008100, lr: 0.000000, epoch: 0.904664, grad_norm: 1.746435, log interval: 52.85s
[train] step 99500: loss/diff: 0.744542, loss/stop: 0.002694, lr: 0.000000, epoch: 0.905575, grad_norm: 1.467726, log interval: 61.28s
[train] step 99600: loss/diff: 0.758776, loss/stop: 0.083392, lr: 0.000000, epoch: 0.906485, grad_norm: 2.025014, log interval: 57.55s
[train] step 99700: loss/diff: 0.796336, loss/stop: 0.004931, lr: 0.000000, epoch: 0.907395, grad_norm: 1.670394, log interval: 53.67s
[train] step 99800: loss/diff: 0.773605, loss/stop: 0.000323, lr: 0.000000, epoch: 0.908305, grad_norm: 1.594860, log interval: 56.78s
[train] step 99900: loss/diff: 0.807227, loss/stop: 0.003391, lr: 0.000000, epoch: 0.909215, grad_norm: 1.965504, log interval: 58.83s
[train] step 99999: loss/diff: 0.785373, loss/stop: 0.005170, lr: 0.000000, epoch: 0.910116, grad_norm: 2.008105, log interval: 52.00s