austindixson commited on
Commit
2c12888
·
verified ·
1 Parent(s): d255369

Upload trainer_state.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. trainer_state.json +489 -0
trainer_state.json ADDED
@@ -0,0 +1,489 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 0.6845708267509215,
6
+ "eval_steps": 500,
7
+ "global_step": 325,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.010531858873091101,
14
+ "grad_norm": 7.945572853088379,
15
+ "learning_rate": 4.4444444444444447e-05,
16
+ "loss": 13.0722412109375,
17
+ "step": 5
18
+ },
19
+ {
20
+ "epoch": 0.021063717746182202,
21
+ "grad_norm": 2.1900172233581543,
22
+ "learning_rate": 0.0001,
23
+ "loss": 8.607737731933593,
24
+ "step": 10
25
+ },
26
+ {
27
+ "epoch": 0.0315955766192733,
28
+ "grad_norm": 1.9897981882095337,
29
+ "learning_rate": 0.00015555555555555556,
30
+ "loss": 5.214687728881836,
31
+ "step": 15
32
+ },
33
+ {
34
+ "epoch": 0.042127435492364404,
35
+ "grad_norm": 0.5303641557693481,
36
+ "learning_rate": 0.0002111111111111111,
37
+ "loss": 5.304478454589844,
38
+ "step": 20
39
+ },
40
+ {
41
+ "epoch": 0.0526592943654555,
42
+ "grad_norm": 0.6158832907676697,
43
+ "learning_rate": 0.0002666666666666667,
44
+ "loss": 4.097989273071289,
45
+ "step": 25
46
+ },
47
+ {
48
+ "epoch": 0.0631911532385466,
49
+ "grad_norm": 0.6168912053108215,
50
+ "learning_rate": 0.0003222222222222222,
51
+ "loss": 4.195485305786133,
52
+ "step": 30
53
+ },
54
+ {
55
+ "epoch": 0.0737230121116377,
56
+ "grad_norm": 1.1824705600738525,
57
+ "learning_rate": 0.00037777777777777777,
58
+ "loss": 3.989824676513672,
59
+ "step": 35
60
+ },
61
+ {
62
+ "epoch": 0.08425487098472881,
63
+ "grad_norm": 23.726043701171875,
64
+ "learning_rate": 0.00043333333333333337,
65
+ "loss": 3.813393783569336,
66
+ "step": 40
67
+ },
68
+ {
69
+ "epoch": 0.0947867298578199,
70
+ "grad_norm": 0.9648836851119995,
71
+ "learning_rate": 0.0004888888888888889,
72
+ "loss": 3.9115650177001955,
73
+ "step": 45
74
+ },
75
+ {
76
+ "epoch": 0.105318588730911,
77
+ "grad_norm": 1.5551100969314575,
78
+ "learning_rate": 0.0004999906760259783,
79
+ "loss": 3.9463314056396483,
80
+ "step": 50
81
+ },
82
+ {
83
+ "epoch": 0.11585044760400211,
84
+ "grad_norm": 14.366273880004883,
85
+ "learning_rate": 0.0004999527985734932,
86
+ "loss": 3.3652118682861327,
87
+ "step": 55
88
+ },
89
+ {
90
+ "epoch": 0.1263823064770932,
91
+ "grad_norm": 0.7795851230621338,
92
+ "learning_rate": 0.0004998857893053613,
93
+ "loss": 4.018484497070313,
94
+ "step": 60
95
+ },
96
+ {
97
+ "epoch": 0.1369141653501843,
98
+ "grad_norm": 0.8944413065910339,
99
+ "learning_rate": 0.0004997896560314641,
100
+ "loss": 3.566949462890625,
101
+ "step": 65
102
+ },
103
+ {
104
+ "epoch": 0.1474460242232754,
105
+ "grad_norm": 0.4758361876010895,
106
+ "learning_rate": 0.0004996644099560641,
107
+ "loss": 3.5043781280517576,
108
+ "step": 70
109
+ },
110
+ {
111
+ "epoch": 0.1579778830963665,
112
+ "grad_norm": 0.5162303447723389,
113
+ "learning_rate": 0.0004995100656764997,
114
+ "loss": 3.212859344482422,
115
+ "step": 75
116
+ },
117
+ {
118
+ "epoch": 0.16850974196945762,
119
+ "grad_norm": 0.4172177314758301,
120
+ "learning_rate": 0.0004993266411814837,
121
+ "loss": 3.3035125732421875,
122
+ "step": 80
123
+ },
124
+ {
125
+ "epoch": 0.17904160084254872,
126
+ "grad_norm": 4.056116580963135,
127
+ "learning_rate": 0.0004991141578490066,
128
+ "loss": 3.1954784393310547,
129
+ "step": 85
130
+ },
131
+ {
132
+ "epoch": 0.1895734597156398,
133
+ "grad_norm": 2.0480830669403076,
134
+ "learning_rate": 0.0004988726404438453,
135
+ "loss": 3.452958679199219,
136
+ "step": 90
137
+ },
138
+ {
139
+ "epoch": 0.2001053185887309,
140
+ "grad_norm": 0.3407100439071655,
141
+ "learning_rate": 0.0004986021171146765,
142
+ "loss": 3.66046028137207,
143
+ "step": 95
144
+ },
145
+ {
146
+ "epoch": 0.210637177461822,
147
+ "grad_norm": 0.6314069628715515,
148
+ "learning_rate": 0.0004983026193907961,
149
+ "loss": 3.37341194152832,
150
+ "step": 100
151
+ },
152
+ {
153
+ "epoch": 0.2211690363349131,
154
+ "grad_norm": 0.29125332832336426,
155
+ "learning_rate": 0.0004979741821784446,
156
+ "loss": 3.2889537811279297,
157
+ "step": 105
158
+ },
159
+ {
160
+ "epoch": 0.23170089520800422,
161
+ "grad_norm": 0.3563121259212494,
162
+ "learning_rate": 0.0004976168437567384,
163
+ "loss": 3.55091552734375,
164
+ "step": 110
165
+ },
166
+ {
167
+ "epoch": 0.24223275408109532,
168
+ "grad_norm": 0.24429726600646973,
169
+ "learning_rate": 0.0004972306457732091,
170
+ "loss": 3.087770462036133,
171
+ "step": 115
172
+ },
173
+ {
174
+ "epoch": 0.2527646129541864,
175
+ "grad_norm": 0.36369070410728455,
176
+ "learning_rate": 0.0004968156332389489,
177
+ "loss": 3.1231616973876952,
178
+ "step": 120
179
+ },
180
+ {
181
+ "epoch": 0.2632964718272775,
182
+ "grad_norm": 0.39639607071876526,
183
+ "learning_rate": 0.0004963718545233645,
184
+ "loss": 3.043613052368164,
185
+ "step": 125
186
+ },
187
+ {
188
+ "epoch": 0.2738283307003686,
189
+ "grad_norm": 0.2886509299278259,
190
+ "learning_rate": 0.0004958993613485406,
191
+ "loss": 3.7740196228027343,
192
+ "step": 130
193
+ },
194
+ {
195
+ "epoch": 0.2843601895734597,
196
+ "grad_norm": 0.31644657254219055,
197
+ "learning_rate": 0.0004953982087832103,
198
+ "loss": 2.8986371994018554,
199
+ "step": 135
200
+ },
201
+ {
202
+ "epoch": 0.2948920484465508,
203
+ "grad_norm": 0.3337455689907074,
204
+ "learning_rate": 0.0004948684552363386,
205
+ "loss": 2.7170455932617186,
206
+ "step": 140
207
+ },
208
+ {
209
+ "epoch": 0.3054239073196419,
210
+ "grad_norm": 0.2488539218902588,
211
+ "learning_rate": 0.0004943101624503133,
212
+ "loss": 2.9157670974731444,
213
+ "step": 145
214
+ },
215
+ {
216
+ "epoch": 0.315955766192733,
217
+ "grad_norm": 0.42236021161079407,
218
+ "learning_rate": 0.0004937233954937497,
219
+ "loss": 2.7440420150756837,
220
+ "step": 150
221
+ },
222
+ {
223
+ "epoch": 0.3264876250658241,
224
+ "grad_norm": 0.34990763664245605,
225
+ "learning_rate": 0.000493108222753907,
226
+ "loss": 3.266927719116211,
227
+ "step": 155
228
+ },
229
+ {
230
+ "epoch": 0.33701948393891523,
231
+ "grad_norm": 0.33922290802001953,
232
+ "learning_rate": 0.0004924647159287175,
233
+ "loss": 3.5011825561523438,
234
+ "step": 160
235
+ },
236
+ {
237
+ "epoch": 0.34755134281200634,
238
+ "grad_norm": 0.45363396406173706,
239
+ "learning_rate": 0.0004917929500184307,
240
+ "loss": 2.768464469909668,
241
+ "step": 165
242
+ },
243
+ {
244
+ "epoch": 0.35808320168509744,
245
+ "grad_norm": 0.29426634311676025,
246
+ "learning_rate": 0.0004910930033168714,
247
+ "loss": 3.0745222091674806,
248
+ "step": 170
249
+ },
250
+ {
251
+ "epoch": 0.36861506055818855,
252
+ "grad_norm": 0.48457714915275574,
253
+ "learning_rate": 0.0004903649574023151,
254
+ "loss": 3.1395895004272463,
255
+ "step": 175
256
+ },
257
+ {
258
+ "epoch": 0.3791469194312796,
259
+ "grad_norm": 0.28997525572776794,
260
+ "learning_rate": 0.0004896088971279799,
261
+ "loss": 2.9532394409179688,
262
+ "step": 180
263
+ },
264
+ {
265
+ "epoch": 0.3896787783043707,
266
+ "grad_norm": 0.3158065378665924,
267
+ "learning_rate": 0.0004888249106121375,
268
+ "loss": 3.242550277709961,
269
+ "step": 185
270
+ },
271
+ {
272
+ "epoch": 0.4002106371774618,
273
+ "grad_norm": 0.25733378529548645,
274
+ "learning_rate": 0.00048801308922784194,
275
+ "loss": 2.863876533508301,
276
+ "step": 190
277
+ },
278
+ {
279
+ "epoch": 0.4107424960505529,
280
+ "grad_norm": 0.39928656816482544,
281
+ "learning_rate": 0.00048717352759228115,
282
+ "loss": 2.9123611450195312,
283
+ "step": 195
284
+ },
285
+ {
286
+ "epoch": 0.421274354923644,
287
+ "grad_norm": 0.3962703049182892,
288
+ "learning_rate": 0.00048630632355574924,
289
+ "loss": 3.159450149536133,
290
+ "step": 200
291
+ },
292
+ {
293
+ "epoch": 0.4318062137967351,
294
+ "grad_norm": 1.542340874671936,
295
+ "learning_rate": 0.0004854115781902414,
296
+ "loss": 2.832276725769043,
297
+ "step": 205
298
+ },
299
+ {
300
+ "epoch": 0.4423380726698262,
301
+ "grad_norm": 0.36583542823791504,
302
+ "learning_rate": 0.00048448939577767485,
303
+ "loss": 2.690146064758301,
304
+ "step": 210
305
+ },
306
+ {
307
+ "epoch": 0.4528699315429173,
308
+ "grad_norm": 0.3314652740955353,
309
+ "learning_rate": 0.0004835398837977346,
310
+ "loss": 2.8558319091796873,
311
+ "step": 215
312
+ },
313
+ {
314
+ "epoch": 0.46340179041600843,
315
+ "grad_norm": 0.30962228775024414,
316
+ "learning_rate": 0.0004825631529153466,
317
+ "loss": 2.9323553085327148,
318
+ "step": 220
319
+ },
320
+ {
321
+ "epoch": 0.47393364928909953,
322
+ "grad_norm": 1.0505726337432861,
323
+ "learning_rate": 0.0004815593169677799,
324
+ "loss": 2.648083305358887,
325
+ "step": 225
326
+ },
327
+ {
328
+ "epoch": 0.48446550816219064,
329
+ "grad_norm": 0.4935843050479889,
330
+ "learning_rate": 0.00048052849295137924,
331
+ "loss": 2.8767162322998048,
332
+ "step": 230
333
+ },
334
+ {
335
+ "epoch": 0.49499736703528174,
336
+ "grad_norm": 0.3319757580757141,
337
+ "learning_rate": 0.00047947080100792884,
338
+ "loss": 3.111905097961426,
339
+ "step": 235
340
+ },
341
+ {
342
+ "epoch": 0.5055292259083728,
343
+ "grad_norm": 1.3790903091430664,
344
+ "learning_rate": 0.0004783863644106502,
345
+ "loss": 3.082983207702637,
346
+ "step": 240
347
+ },
348
+ {
349
+ "epoch": 0.516061084781464,
350
+ "grad_norm": 0.2825748026371002,
351
+ "learning_rate": 0.00047727530954983475,
352
+ "loss": 2.5215627670288088,
353
+ "step": 245
354
+ },
355
+ {
356
+ "epoch": 0.526592943654555,
357
+ "grad_norm": 0.7788515090942383,
358
+ "learning_rate": 0.00047613776591811296,
359
+ "loss": 3.078541564941406,
360
+ "step": 250
361
+ },
362
+ {
363
+ "epoch": 0.5371248025276462,
364
+ "grad_norm": 0.2866535186767578,
365
+ "learning_rate": 0.0004749738660953621,
366
+ "loss": 2.795052909851074,
367
+ "step": 255
368
+ },
369
+ {
370
+ "epoch": 0.5476566614007372,
371
+ "grad_norm": 0.35526394844055176,
372
+ "learning_rate": 0.00047378374573325415,
373
+ "loss": 2.6752908706665037,
374
+ "step": 260
375
+ },
376
+ {
377
+ "epoch": 0.5581885202738284,
378
+ "grad_norm": 0.38038304448127747,
379
+ "learning_rate": 0.00047256754353944605,
380
+ "loss": 2.8107267379760743,
381
+ "step": 265
382
+ },
383
+ {
384
+ "epoch": 0.5687203791469194,
385
+ "grad_norm": 0.3206808269023895,
386
+ "learning_rate": 0.00047132540126141275,
387
+ "loss": 2.705642509460449,
388
+ "step": 270
389
+ },
390
+ {
391
+ "epoch": 0.5792522380200106,
392
+ "grad_norm": 0.2499801069498062,
393
+ "learning_rate": 0.0004700574636699273,
394
+ "loss": 2.475233459472656,
395
+ "step": 275
396
+ },
397
+ {
398
+ "epoch": 0.5897840968931016,
399
+ "grad_norm": 0.26146742701530457,
400
+ "learning_rate": 0.0004687638785421875,
401
+ "loss": 2.7663032531738283,
402
+ "step": 280
403
+ },
404
+ {
405
+ "epoch": 0.6003159557661928,
406
+ "grad_norm": 0.3592541515827179,
407
+ "learning_rate": 0.00046744479664459276,
408
+ "loss": 2.623735046386719,
409
+ "step": 285
410
+ },
411
+ {
412
+ "epoch": 0.6108478146392838,
413
+ "grad_norm": 0.31415146589279175,
414
+ "learning_rate": 0.00046610037171517237,
415
+ "loss": 2.87611083984375,
416
+ "step": 290
417
+ },
418
+ {
419
+ "epoch": 0.6213796735123749,
420
+ "grad_norm": 0.2771868109703064,
421
+ "learning_rate": 0.00046473076044566743,
422
+ "loss": 2.7714420318603517,
423
+ "step": 295
424
+ },
425
+ {
426
+ "epoch": 0.631911532385466,
427
+ "grad_norm": 0.4841095209121704,
428
+ "learning_rate": 0.0004633361224632685,
429
+ "loss": 2.344076728820801,
430
+ "step": 300
431
+ },
432
+ {
433
+ "epoch": 0.6424433912585571,
434
+ "grad_norm": 0.3907207250595093,
435
+ "learning_rate": 0.00046191662031201116,
436
+ "loss": 2.6539451599121096,
437
+ "step": 305
438
+ },
439
+ {
440
+ "epoch": 0.6529752501316483,
441
+ "grad_norm": 0.25700584053993225,
442
+ "learning_rate": 0.00046047241943383176,
443
+ "loss": 2.7396242141723635,
444
+ "step": 310
445
+ },
446
+ {
447
+ "epoch": 0.6635071090047393,
448
+ "grad_norm": 0.30718255043029785,
449
+ "learning_rate": 0.00045900368814928504,
450
+ "loss": 2.8544797897338867,
451
+ "step": 315
452
+ },
453
+ {
454
+ "epoch": 0.6740389678778305,
455
+ "grad_norm": 0.30769050121307373,
456
+ "learning_rate": 0.00045751059763792694,
457
+ "loss": 2.611779975891113,
458
+ "step": 320
459
+ },
460
+ {
461
+ "epoch": 0.6845708267509215,
462
+ "grad_norm": 0.24997501075267792,
463
+ "learning_rate": 0.00045599332191836314,
464
+ "loss": 2.708077239990234,
465
+ "step": 325
466
+ }
467
+ ],
468
+ "logging_steps": 5,
469
+ "max_steps": 1500,
470
+ "num_input_tokens_seen": 0,
471
+ "num_train_epochs": 4,
472
+ "save_steps": 25,
473
+ "stateful_callbacks": {
474
+ "TrainerControl": {
475
+ "args": {
476
+ "should_epoch_stop": false,
477
+ "should_evaluate": false,
478
+ "should_log": false,
479
+ "should_save": true,
480
+ "should_training_stop": false
481
+ },
482
+ "attributes": {}
483
+ }
484
+ },
485
+ "total_flos": 6.564817736409073e+17,
486
+ "train_batch_size": 2,
487
+ "trial_name": null,
488
+ "trial_params": null
489
+ }