alexgrigoras commited on Mar 12

Commit

e623ba8

verified ·

1 Parent(s): 95cb259

Upload SDG checkpoint

Browse files

Files changed (27) hide show

README.md +31 -0
adapter_config.json +45 -0
adapter_model.safetensors +3 -0
checkpoint-1500/README.md +206 -0
checkpoint-1500/adapter_config.json +45 -0
checkpoint-1500/adapter_model.safetensors +3 -0
checkpoint-1500/optimizer.pt +3 -0
checkpoint-1500/rng_state.pth +3 -0
checkpoint-1500/scheduler.pt +3 -0
checkpoint-1500/tokenizer.json +0 -0
checkpoint-1500/tokenizer_config.json +112 -0
checkpoint-1500/trainer_state.json +934 -0
checkpoint-1500/training_args.bin +3 -0
checkpoint-750/README.md +206 -0
checkpoint-750/adapter_config.json +45 -0
checkpoint-750/adapter_model.safetensors +3 -0
checkpoint-750/optimizer.pt +3 -0
checkpoint-750/rng_state.pth +3 -0
checkpoint-750/scheduler.pt +3 -0
checkpoint-750/tokenizer.json +0 -0
checkpoint-750/tokenizer_config.json +112 -0
checkpoint-750/trainer_state.json +484 -0
checkpoint-750/training_args.bin +3 -0
sdg_config.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +112 -0
training_info.json +11 -0

README.md ADDED Viewed

	@@ -0,0 +1,31 @@

+---
+library_name: transformers
+pipeline_tag: time-series-forecasting
+tags:
+  - time-series
+  - synthetic-data
+  - seq2seq
+  - retail
+  - qlora
+base_model: amazon/chronos-t5-small
+---
+# alexgrigoras/sdg_chronos_t5_small_dunnhumby
+Synthetic time-series generation checkpoint for the DIF-PI framework.
+## Model summary
+This checkpoint is trained as a seq2seq generator on tokenized retail demand windows. It uses a T5-style encoder-decoder backbone, QLoRA when available, extended time-series special tokens, calendar conditioning, multiple-sample generation, and a seasonality-aware calibration step at inference time.
+## Intended use
+The model is intended for research on synthetic retail demand generation and validation inside the DIF-PI framework. It is not intended for safety-critical or fully autonomous business decisions without human review.
+## Training setup
+- Base model: amazon/chronos-t5-small
+- Context length: 140
+- Prediction length: 30
+- Quantization bins: 4094
+- Backend: lora

adapter_config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "amazon/chronos-t5-small",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "wo",
+    "q",
+    "v",
+    "o",
+    "k",
+    "wi"
+  ],
+  "target_parameters": null,
+  "task_type": "SEQ_2_SEQ_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74ad9c4192071e1828c2569d41578cc93e5e765303d67fb476d048e7ca38e371
+size 34675328

checkpoint-1500/README.md ADDED Viewed

	@@ -0,0 +1,206 @@

+---
+base_model: amazon/chronos-t5-small
+library_name: peft
+tags:
+- base_model:adapter:amazon/chronos-t5-small
+- lora
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.1

checkpoint-1500/adapter_config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "amazon/chronos-t5-small",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "wo",
+    "q",
+    "v",
+    "o",
+    "k",
+    "wi"
+  ],
+  "target_parameters": null,
+  "task_type": "SEQ_2_SEQ_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

checkpoint-1500/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b78c42f7f979d351414ccfed5d2637fda4acc4db8ed9f5a0f72c716808a697d9
+size 34675328

checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fb65a8c4fa0ab45b7980247fc3f91382b6dee186ff9b44d5afd40cc18176eb8
+size 34759371

checkpoint-1500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1353004704dfc9675e2e77ea9719cf819d6ab9a0e8ee90a120642c6b15504576
+size 14391

checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b666be922ac85995493c1149e03e49db80a97ac1fe5383402fa9756f48bfd3f8
+size 1465

checkpoint-1500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "backend": "tokenizers",
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "extra_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "is_local": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-1500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,934 @@

+{
+  "best_global_step": 1475,
+  "best_metric": 4.664707660675049,
+  "best_model_checkpoint": "/Users/alexgrigoras/Library/Mobile Documents/com~apple~CloudDocs/[5] Software/github/dif-pi/artifacts/models/sdg_chronos_t5_small_dunnhumby/checkpoint-750",
+  "epoch": 0.6211823170100425,
+  "eval_steps": 25,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01035303861683404,
+      "grad_norm": 0.2731291949748993,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 45.1662451171875,
+      "step": 25
+    },
+    {
+      "epoch": 0.01035303861683404,
+      "eval_loss": 5.382182598114014,
+      "eval_runtime": 60.5419,
+      "eval_samples_per_second": 70.91,
+      "eval_steps_per_second": 35.463,
+      "step": 25
+    },
+    {
+      "epoch": 0.02070607723366808,
+      "grad_norm": 0.2949911952018738,
+      "learning_rate": 1.6333333333333335e-05,
+      "loss": 44.3224951171875,
+      "step": 50
+    },
+    {
+      "epoch": 0.02070607723366808,
+      "eval_loss": 5.343369960784912,
+      "eval_runtime": 47.1772,
+      "eval_samples_per_second": 90.997,
+      "eval_steps_per_second": 45.509,
+      "step": 50
+    },
+    {
+      "epoch": 0.031059115850502122,
+      "grad_norm": 0.2861124277114868,
+      "learning_rate": 2.466666666666667e-05,
+      "loss": 43.54326171875,
+      "step": 75
+    },
+    {
+      "epoch": 0.031059115850502122,
+      "eval_loss": 5.254676818847656,
+      "eval_runtime": 48.6137,
+      "eval_samples_per_second": 88.308,
+      "eval_steps_per_second": 44.164,
+      "step": 75
+    },
+    {
+      "epoch": 0.04141215446733616,
+      "grad_norm": 0.3088361918926239,
+      "learning_rate": 2.498250672211728e-05,
+      "loss": 43.87701171875,
+      "step": 100
+    },
+    {
+      "epoch": 0.04141215446733616,
+      "eval_loss": 5.151735305786133,
+      "eval_runtime": 46.8392,
+      "eval_samples_per_second": 91.654,
+      "eval_steps_per_second": 45.838,
+      "step": 100
+    },
+    {
+      "epoch": 0.05176519308417021,
+      "grad_norm": 0.36366939544677734,
+      "learning_rate": 2.4927134858925575e-05,
+      "loss": 41.4726220703125,
+      "step": 125
+    },
+    {
+      "epoch": 0.05176519308417021,
+      "eval_loss": 5.072572231292725,
+      "eval_runtime": 43.9205,
+      "eval_samples_per_second": 97.745,
+      "eval_steps_per_second": 48.884,
+      "step": 125
+    },
+    {
+      "epoch": 0.062118231701004244,
+      "grad_norm": 0.44364720582962036,
+      "learning_rate": 2.4834022195605383e-05,
+      "loss": 41.1882958984375,
+      "step": 150
+    },
+    {
+      "epoch": 0.062118231701004244,
+      "eval_loss": 4.995686054229736,
+      "eval_runtime": 53.0192,
+      "eval_samples_per_second": 80.971,
+      "eval_steps_per_second": 40.495,
+      "step": 150
+    },
+    {
+      "epoch": 0.07247127031783829,
+      "grad_norm": 0.4700476825237274,
+      "learning_rate": 2.470345151225491e-05,
+      "loss": 41.691572265625,
+      "step": 175
+    },
+    {
+      "epoch": 0.07247127031783829,
+      "eval_loss": 4.918369293212891,
+      "eval_runtime": 47.97,
+      "eval_samples_per_second": 89.493,
+      "eval_steps_per_second": 44.757,
+      "step": 175
+    },
+    {
+      "epoch": 0.08282430893467232,
+      "grad_norm": 0.42324015498161316,
+      "learning_rate": 2.4535819347748074e-05,
+      "loss": 39.7604541015625,
+      "step": 200
+    },
+    {
+      "epoch": 0.08282430893467232,
+      "eval_loss": 4.853856086730957,
+      "eval_runtime": 45.9268,
+      "eval_samples_per_second": 93.475,
+      "eval_steps_per_second": 46.748,
+      "step": 200
+    },
+    {
+      "epoch": 0.09317734755150636,
+      "grad_norm": 0.4664323925971985,
+      "learning_rate": 2.433163479545898e-05,
+      "loss": 40.16502197265625,
+      "step": 225
+    },
+    {
+      "epoch": 0.09317734755150636,
+      "eval_loss": 4.832671642303467,
+      "eval_runtime": 49.0803,
+      "eval_samples_per_second": 87.469,
+      "eval_steps_per_second": 43.745,
+      "step": 225
+    },
+    {
+      "epoch": 0.10353038616834041,
+      "grad_norm": 0.475277304649353,
+      "learning_rate": 2.4091517957162068e-05,
+      "loss": 40.338056640625,
+      "step": 250
+    },
+    {
+      "epoch": 0.10353038616834041,
+      "eval_loss": 4.815681457519531,
+      "eval_runtime": 45.7189,
+      "eval_samples_per_second": 93.9,
+      "eval_steps_per_second": 46.961,
+      "step": 250
+    },
+    {
+      "epoch": 0.11388342478517445,
+      "grad_norm": 0.46192488074302673,
+      "learning_rate": 2.3816198059803415e-05,
+      "loss": 39.81144287109375,
+      "step": 275
+    },
+    {
+      "epoch": 0.11388342478517445,
+      "eval_loss": 4.8025665283203125,
+      "eval_runtime": 44.0374,
+      "eval_samples_per_second": 97.485,
+      "eval_steps_per_second": 48.754,
+      "step": 275
+    },
+    {
+      "epoch": 0.12423646340200849,
+      "grad_norm": 0.44529587030410767,
+      "learning_rate": 2.350651124086246e-05,
+      "loss": 40.06572509765625,
+      "step": 300
+    },
+    {
+      "epoch": 0.12423646340200849,
+      "eval_loss": 4.791704177856445,
+      "eval_runtime": 46.8164,
+      "eval_samples_per_second": 91.699,
+      "eval_steps_per_second": 45.86,
+      "step": 300
+    },
+    {
+      "epoch": 0.13458950201884254,
+      "grad_norm": 0.47136980295181274,
+      "learning_rate": 2.316339800902997e-05,
+      "loss": 39.34464599609375,
+      "step": 325
+    },
+    {
+      "epoch": 0.13458950201884254,
+      "eval_loss": 4.781772136688232,
+      "eval_runtime": 46.7709,
+      "eval_samples_per_second": 91.788,
+      "eval_steps_per_second": 45.905,
+      "step": 325
+    },
+    {
+      "epoch": 0.14494254063567658,
+      "grad_norm": 0.5043098330497742,
+      "learning_rate": 2.2787900387914035e-05,
+      "loss": 40.12859619140625,
+      "step": 350
+    },
+    {
+      "epoch": 0.14494254063567658,
+      "eval_loss": 4.77421236038208,
+      "eval_runtime": 46.6372,
+      "eval_samples_per_second": 92.051,
+      "eval_steps_per_second": 46.036,
+      "step": 350
+    },
+    {
+      "epoch": 0.1552955792525106,
+      "grad_norm": 0.43915286660194397,
+      "learning_rate": 2.238115875144865e-05,
+      "loss": 40.11051513671875,
+      "step": 375
+    },
+    {
+      "epoch": 0.1552955792525106,
+      "eval_loss": 4.768870830535889,
+      "eval_runtime": 46.1314,
+      "eval_samples_per_second": 93.06,
+      "eval_steps_per_second": 46.541,
+      "step": 375
+    },
+    {
+      "epoch": 0.16564861786934465,
+      "grad_norm": 0.4874376058578491,
+      "learning_rate": 2.1944408360615527e-05,
+      "loss": 40.54395751953125,
+      "step": 400
+    },
+    {
+      "epoch": 0.16564861786934465,
+      "eval_loss": 4.759785175323486,
+      "eval_runtime": 45.0656,
+      "eval_samples_per_second": 95.261,
+      "eval_steps_per_second": 47.642,
+      "step": 400
+    },
+    {
+      "epoch": 0.1760016564861787,
+      "grad_norm": 0.47157636284828186,
+      "learning_rate": 2.147897561199711e-05,
+      "loss": 38.57564208984375,
+      "step": 425
+    },
+    {
+      "epoch": 0.1760016564861787,
+      "eval_loss": 4.7538371086120605,
+      "eval_runtime": 45.1789,
+      "eval_samples_per_second": 95.022,
+      "eval_steps_per_second": 47.522,
+      "step": 425
+    },
+    {
+      "epoch": 0.18635469510301272,
+      "grad_norm": 0.5695982575416565,
+      "learning_rate": 2.0986274009553747e-05,
+      "loss": 40.2056494140625,
+      "step": 450
+    },
+    {
+      "epoch": 0.18635469510301272,
+      "eval_loss": 4.746274471282959,
+      "eval_runtime": 48.2349,
+      "eval_samples_per_second": 89.002,
+      "eval_steps_per_second": 44.511,
+      "step": 450
+    },
+    {
+      "epoch": 0.19670773371984676,
+      "grad_norm": 0.4859912097454071,
+      "learning_rate": 2.0467799871858624e-05,
+      "loss": 39.90147705078125,
+      "step": 475
+    },
+    {
+      "epoch": 0.19670773371984676,
+      "eval_loss": 4.741403579711914,
+      "eval_runtime": 47.2353,
+      "eval_samples_per_second": 90.885,
+      "eval_steps_per_second": 45.453,
+      "step": 475
+    },
+    {
+      "epoch": 0.20706077233668083,
+      "grad_norm": 0.5383442640304565,
+      "learning_rate": 1.9925127787827415e-05,
+      "loss": 39.66552001953125,
+      "step": 500
+    },
+    {
+      "epoch": 0.20706077233668083,
+      "eval_loss": 4.736755847930908,
+      "eval_runtime": 43.4301,
+      "eval_samples_per_second": 98.849,
+      "eval_steps_per_second": 49.436,
+      "step": 500
+    },
+    {
+      "epoch": 0.21741381095351486,
+      "grad_norm": 0.47965624928474426,
+      "learning_rate": 1.9359905834743513e-05,
+      "loss": 39.6004296875,
+      "step": 525
+    },
+    {
+      "epoch": 0.21741381095351486,
+      "eval_loss": 4.732944011688232,
+      "eval_runtime": 43.41,
+      "eval_samples_per_second": 98.894,
+      "eval_steps_per_second": 49.459,
+      "step": 525
+    },
+    {
+      "epoch": 0.2277668495703489,
+      "grad_norm": 0.5654281973838806,
+      "learning_rate": 1.8773850573101503e-05,
+      "loss": 39.6916064453125,
+      "step": 550
+    },
+    {
+      "epoch": 0.2277668495703489,
+      "eval_loss": 4.729019641876221,
+      "eval_runtime": 43.337,
+      "eval_samples_per_second": 99.061,
+      "eval_steps_per_second": 49.542,
+      "step": 550
+    },
+    {
+      "epoch": 0.23811988818718294,
+      "grad_norm": 0.562452495098114,
+      "learning_rate": 1.8168741833469327e-05,
+      "loss": 39.9837548828125,
+      "step": 575
+    },
+    {
+      "epoch": 0.23811988818718294,
+      "eval_loss": 4.7265305519104,
+      "eval_runtime": 43.4156,
+      "eval_samples_per_second": 98.882,
+      "eval_steps_per_second": 49.452,
+      "step": 575
+    },
+    {
+      "epoch": 0.24847292680401697,
+      "grad_norm": 0.6212955117225647,
+      "learning_rate": 1.7546417311201357e-05,
+      "loss": 39.41627685546875,
+      "step": 600
+    },
+    {
+      "epoch": 0.24847292680401697,
+      "eval_loss": 4.7227606773376465,
+      "eval_runtime": 43.4821,
+      "eval_samples_per_second": 98.73,
+      "eval_steps_per_second": 49.377,
+      "step": 600
+    },
+    {
+      "epoch": 0.258825965420851,
+      "grad_norm": 0.54314124584198,
+      "learning_rate": 1.690876698541802e-05,
+      "loss": 39.156318359375,
+      "step": 625
+    },
+    {
+      "epoch": 0.258825965420851,
+      "eval_loss": 4.717469215393066,
+      "eval_runtime": 43.0545,
+      "eval_samples_per_second": 99.711,
+      "eval_steps_per_second": 49.867,
+      "step": 625
+    },
+    {
+      "epoch": 0.2691790040376851,
+      "grad_norm": 0.6269752383232117,
+      "learning_rate": 1.625772737920128e-05,
+      "loss": 39.20115966796875,
+      "step": 650
+    },
+    {
+      "epoch": 0.2691790040376851,
+      "eval_loss": 4.716719150543213,
+      "eval_runtime": 120.2804,
+      "eval_samples_per_second": 35.692,
+      "eval_steps_per_second": 17.85,
+      "step": 650
+    },
+    {
+      "epoch": 0.2795320426545191,
+      "grad_norm": 0.5073297023773193,
+      "learning_rate": 1.5595275678437756e-05,
+      "loss": 39.50381591796875,
+      "step": 675
+    },
+    {
+      "epoch": 0.2795320426545191,
+      "eval_loss": 4.712583065032959,
+      "eval_runtime": 43.4686,
+      "eval_samples_per_second": 98.761,
+      "eval_steps_per_second": 49.392,
+      "step": 675
+    },
+    {
+      "epoch": 0.28988508127135315,
+      "grad_norm": 0.5422746539115906,
+      "learning_rate": 1.4923423727170106e-05,
+      "loss": 38.739453125,
+      "step": 700
+    },
+    {
+      "epoch": 0.28988508127135315,
+      "eval_loss": 4.711677074432373,
+      "eval_runtime": 45.4531,
+      "eval_samples_per_second": 94.449,
+      "eval_steps_per_second": 47.235,
+      "step": 700
+    },
+    {
+      "epoch": 0.30023811988818716,
+      "grad_norm": 0.5396411418914795,
+      "learning_rate": 1.4244211917692812e-05,
+      "loss": 38.6535791015625,
+      "step": 725
+    },
+    {
+      "epoch": 0.30023811988818716,
+      "eval_loss": 4.707785606384277,
+      "eval_runtime": 45.9015,
+      "eval_samples_per_second": 93.526,
+      "eval_steps_per_second": 46.774,
+      "step": 725
+    },
+    {
+      "epoch": 0.3105911585050212,
+      "grad_norm": 0.6173298358917236,
+      "learning_rate": 1.355970299394786e-05,
+      "loss": 38.515927734375,
+      "step": 750
+    },
+    {
+      "epoch": 0.3105911585050212,
+      "eval_loss": 4.705667495727539,
+      "eval_runtime": 46.4706,
+      "eval_samples_per_second": 92.381,
+      "eval_steps_per_second": 46.201,
+      "step": 750
+    },
+    {
+      "epoch": 0.3209441971218553,
+      "grad_norm": 0.7035080790519714,
+      "learning_rate": 1.2871975787039157e-05,
+      "loss": 38.55907470703125,
+      "step": 775
+    },
+    {
+      "epoch": 0.3209441971218553,
+      "eval_loss": 4.701103687286377,
+      "eval_runtime": 45.1696,
+      "eval_samples_per_second": 95.042,
+      "eval_steps_per_second": 47.532,
+      "step": 775
+    },
+    {
+      "epoch": 0.3312972357386893,
+      "grad_norm": 0.5796102285385132,
+      "learning_rate": 1.218311890189081e-05,
+      "loss": 39.2241943359375,
+      "step": 800
+    },
+    {
+      "epoch": 0.3312972357386893,
+      "eval_loss": 4.699450492858887,
+      "eval_runtime": 44.0268,
+      "eval_samples_per_second": 97.509,
+      "eval_steps_per_second": 48.766,
+      "step": 800
+    },
+    {
+      "epoch": 0.34165027435552336,
+      "grad_norm": 0.6741734147071838,
+      "learning_rate": 1.1495224374222602e-05,
+      "loss": 39.471005859375,
+      "step": 825
+    },
+    {
+      "epoch": 0.34165027435552336,
+      "eval_loss": 4.693467617034912,
+      "eval_runtime": 53.2324,
+      "eval_samples_per_second": 80.646,
+      "eval_steps_per_second": 40.333,
+      "step": 825
+    },
+    {
+      "epoch": 0.3520033129723574,
+      "grad_norm": 0.6025944352149963,
+      "learning_rate": 1.0810381317106293e-05,
+      "loss": 40.34841064453125,
+      "step": 850
+    },
+    {
+      "epoch": 0.3520033129723574,
+      "eval_loss": 4.69282865524292,
+      "eval_runtime": 46.3536,
+      "eval_samples_per_second": 92.614,
+      "eval_steps_per_second": 46.318,
+      "step": 850
+    },
+    {
+      "epoch": 0.36235635158919144,
+      "grad_norm": 0.6447405219078064,
+      "learning_rate": 1.013066957639785e-05,
+      "loss": 39.40240478515625,
+      "step": 875
+    },
+    {
+      "epoch": 0.36235635158919144,
+      "eval_loss": 4.688658237457275,
+      "eval_runtime": 48.7748,
+      "eval_samples_per_second": 88.017,
+      "eval_steps_per_second": 44.019,
+      "step": 875
+    },
+    {
+      "epoch": 0.37270939020602545,
+      "grad_norm": 0.6256803870201111,
+      "learning_rate": 9.45815341431398e-06,
+      "loss": 40.3128173828125,
+      "step": 900
+    },
+    {
+      "epoch": 0.37270939020602545,
+      "eval_loss": 4.6877264976501465,
+      "eval_runtime": 46.4191,
+      "eval_samples_per_second": 92.484,
+      "eval_steps_per_second": 46.253,
+      "step": 900
+    },
+    {
+      "epoch": 0.3830624288228595,
+      "grad_norm": 0.6555071473121643,
+      "learning_rate": 8.79487524033558e-06,
+      "loss": 38.77753173828125,
+      "step": 925
+    },
+    {
+      "epoch": 0.3830624288228595,
+      "eval_loss": 4.686131477355957,
+      "eval_runtime": 45.5114,
+      "eval_samples_per_second": 94.328,
+      "eval_steps_per_second": 47.175,
+      "step": 925
+    },
+    {
+      "epoch": 0.3934154674396935,
+      "grad_norm": 0.5732009410858154,
+      "learning_rate": 8.142849408477312e-06,
+      "loss": 39.21095458984375,
+      "step": 950
+    },
+    {
+      "epoch": 0.3934154674396935,
+      "eval_loss": 4.684043884277344,
+      "eval_runtime": 43.9317,
+      "eval_samples_per_second": 97.72,
+      "eval_steps_per_second": 48.871,
+      "step": 950
+    },
+    {
+      "epoch": 0.4037685060565276,
+      "grad_norm": 0.7316587567329407,
+      "learning_rate": 7.504056099760629e-06,
+      "loss": 40.310380859375,
+      "step": 975
+    },
+    {
+      "epoch": 0.4037685060565276,
+      "eval_loss": 4.681900978088379,
+      "eval_runtime": 45.7448,
+      "eval_samples_per_second": 93.847,
+      "eval_steps_per_second": 46.934,
+      "step": 975
+    },
+    {
+      "epoch": 0.41412154467336165,
+      "grad_norm": 0.7832669019699097,
+      "learning_rate": 6.880435308469124e-06,
+      "loss": 39.5330810546875,
+      "step": 1000
+    },
+    {
+      "epoch": 0.41412154467336165,
+      "eval_loss": 4.680942058563232,
+      "eval_runtime": 47.3741,
+      "eval_samples_per_second": 90.619,
+      "eval_steps_per_second": 45.32,
+      "step": 1000
+    },
+    {
+      "epoch": 0.42447458329019566,
+      "grad_norm": 0.7218672633171082,
+      "learning_rate": 6.273880950449624e-06,
+      "loss": 40.64116455078125,
+      "step": 1025
+    },
+    {
+      "epoch": 0.42447458329019566,
+      "eval_loss": 4.677113056182861,
+      "eval_runtime": 44.5273,
+      "eval_samples_per_second": 96.413,
+      "eval_steps_per_second": 48.218,
+      "step": 1025
+    },
+    {
+      "epoch": 0.4348276219070297,
+      "grad_norm": 0.6343373656272888,
+      "learning_rate": 5.6862351113520505e-06,
+      "loss": 39.680654296875,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4348276219070297,
+      "eval_loss": 4.6747050285339355,
+      "eval_runtime": 46.9899,
+      "eval_samples_per_second": 91.36,
+      "eval_steps_per_second": 45.691,
+      "step": 1050
+    },
+    {
+      "epoch": 0.44518066052386374,
+      "grad_norm": 0.6286041140556335,
+      "learning_rate": 5.119282452275787e-06,
+      "loss": 38.24800048828125,
+      "step": 1075
+    },
+    {
+      "epoch": 0.44518066052386374,
+      "eval_loss": 4.674582481384277,
+      "eval_runtime": 45.6532,
+      "eval_samples_per_second": 94.035,
+      "eval_steps_per_second": 47.029,
+      "step": 1075
+    },
+    {
+      "epoch": 0.4555336991406978,
+      "grad_norm": 0.6874698400497437,
+      "learning_rate": 4.574744789812638e-06,
+      "loss": 39.356064453125,
+      "step": 1100
+    },
+    {
+      "epoch": 0.4555336991406978,
+      "eval_loss": 4.672372817993164,
+      "eval_runtime": 43.1981,
+      "eval_samples_per_second": 99.379,
+      "eval_steps_per_second": 49.701,
+      "step": 1100
+    },
+    {
+      "epoch": 0.4658867377575318,
+      "grad_norm": 0.6946823596954346,
+      "learning_rate": 4.054275866946371e-06,
+      "loss": 39.3052978515625,
+      "step": 1125
+    },
+    {
+      "epoch": 0.4658867377575318,
+      "eval_loss": 4.669936656951904,
+      "eval_runtime": 43.411,
+      "eval_samples_per_second": 98.892,
+      "eval_steps_per_second": 49.458,
+      "step": 1125
+    },
+    {
+      "epoch": 0.4762397763743659,
+      "grad_norm": 0.6024668216705322,
+      "learning_rate": 3.559456330689684e-06,
+      "loss": 39.346806640625,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4762397763743659,
+      "eval_loss": 4.66926383972168,
+      "eval_runtime": 43.0791,
+      "eval_samples_per_second": 99.654,
+      "eval_steps_per_second": 49.838,
+      "step": 1150
+    },
+    {
+      "epoch": 0.48659281499119994,
+      "grad_norm": 0.793952465057373,
+      "learning_rate": 3.091788931711123e-06,
+      "loss": 40.23644287109375,
+      "step": 1175
+    },
+    {
+      "epoch": 0.48659281499119994,
+      "eval_loss": 4.668498992919922,
+      "eval_runtime": 43.1576,
+      "eval_samples_per_second": 99.473,
+      "eval_steps_per_second": 49.748,
+      "step": 1175
+    },
+    {
+      "epoch": 0.49694585360803395,
+      "grad_norm": 0.7388107776641846,
+      "learning_rate": 2.652693960530743e-06,
+      "loss": 39.25404541015625,
+      "step": 1200
+    },
+    {
+      "epoch": 0.49694585360803395,
+      "eval_loss": 4.667989730834961,
+      "eval_runtime": 42.963,
+      "eval_samples_per_second": 99.923,
+      "eval_steps_per_second": 49.973,
+      "step": 1200
+    },
+    {
+      "epoch": 0.507298892224868,
+      "grad_norm": 0.671241044998169,
+      "learning_rate": 2.243504934144444e-06,
+      "loss": 39.02633544921875,
+      "step": 1225
+    },
+    {
+      "epoch": 0.507298892224868,
+      "eval_loss": 4.666492938995361,
+      "eval_runtime": 43.067,
+      "eval_samples_per_second": 99.682,
+      "eval_steps_per_second": 49.853,
+      "step": 1225
+    },
+    {
+      "epoch": 0.517651930841702,
+      "grad_norm": 0.7311628460884094,
+      "learning_rate": 1.8654645461766941e-06,
+      "loss": 39.51279541015625,
+      "step": 1250
+    },
+    {
+      "epoch": 0.517651930841702,
+      "eval_loss": 4.665400981903076,
+      "eval_runtime": 221.1942,
+      "eval_samples_per_second": 19.408,
+      "eval_steps_per_second": 9.706,
+      "step": 1250
+    },
+    {
+      "epoch": 0.528004969458536,
+      "grad_norm": 0.6689982414245605,
+      "learning_rate": 1.5197208928608375e-06,
+      "loss": 38.7842919921875,
+      "step": 1275
+    },
+    {
+      "epoch": 0.528004969458536,
+      "eval_loss": 4.666904926300049,
+      "eval_runtime": 44.7733,
+      "eval_samples_per_second": 95.883,
+      "eval_steps_per_second": 47.953,
+      "step": 1275
+    },
+    {
+      "epoch": 0.5383580080753702,
+      "grad_norm": 0.5878821015357971,
+      "learning_rate": 1.2073239863085644e-06,
+      "loss": 39.191982421875,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5383580080753702,
+      "eval_loss": 4.666422367095947,
+      "eval_runtime": 44.9701,
+      "eval_samples_per_second": 95.463,
+      "eval_steps_per_second": 47.743,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5487110466922042,
+      "grad_norm": 0.9803292155265808,
+      "learning_rate": 9.292225656576406e-07,
+      "loss": 38.61263671875,
+      "step": 1325
+    },
+    {
+      "epoch": 0.5487110466922042,
+      "eval_loss": 4.665764331817627,
+      "eval_runtime": 45.6356,
+      "eval_samples_per_second": 94.071,
+      "eval_steps_per_second": 47.047,
+      "step": 1325
+    },
+    {
+      "epoch": 0.5590640853090382,
+      "grad_norm": 0.7317976951599121,
+      "learning_rate": 6.862612157823259e-07,
+      "loss": 39.42274169921875,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5590640853090382,
+      "eval_loss": 4.665533542633057,
+      "eval_runtime": 44.7641,
+      "eval_samples_per_second": 95.903,
+      "eval_steps_per_second": 47.963,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5694171239258723,
+      "grad_norm": 0.7013985514640808,
+      "learning_rate": 4.7917780231687e-07,
+      "loss": 39.69686767578125,
+      "step": 1375
+    },
+    {
+      "epoch": 0.5694171239258723,
+      "eval_loss": 4.665374279022217,
+      "eval_runtime": 43.6247,
+      "eval_samples_per_second": 98.408,
+      "eval_steps_per_second": 49.215,
+      "step": 1375
+    },
+    {
+      "epoch": 0.5797701625427063,
+      "grad_norm": 0.7620524764060974,
+      "learning_rate": 3.0860123078183255e-07,
+      "loss": 38.945185546875,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5797701625427063,
+      "eval_loss": 4.66505241394043,
+      "eval_runtime": 43.4121,
+      "eval_samples_per_second": 98.89,
+      "eval_steps_per_second": 49.456,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5901232011595403,
+      "grad_norm": 0.6809831857681274,
+      "learning_rate": 1.7504953661868912e-07,
+      "loss": 38.79550048828125,
+      "step": 1425
+    },
+    {
+      "epoch": 0.5901232011595403,
+      "eval_loss": 4.664721488952637,
+      "eval_runtime": 43.3122,
+      "eval_samples_per_second": 99.118,
+      "eval_steps_per_second": 49.57,
+      "step": 1425
+    },
+    {
+      "epoch": 0.6004762397763743,
+      "grad_norm": 0.7748914957046509,
+      "learning_rate": 7.89283119332157e-08,
+      "loss": 38.775634765625,
+      "step": 1450
+    },
+    {
+      "epoch": 0.6004762397763743,
+      "eval_loss": 4.664709091186523,
+      "eval_runtime": 43.4487,
+      "eval_samples_per_second": 98.806,
+      "eval_steps_per_second": 49.415,
+      "step": 1450
+    },
+    {
+      "epoch": 0.6108292783932084,
+      "grad_norm": 0.5979882478713989,
+      "learning_rate": 2.0529473725605652e-08,
+      "loss": 39.74494384765625,
+      "step": 1475
+    },
+    {
+      "epoch": 0.6108292783932084,
+      "eval_loss": 4.664707660675049,
+      "eval_runtime": 43.4853,
+      "eval_samples_per_second": 98.723,
+      "eval_steps_per_second": 49.373,
+      "step": 1475
+    },
+    {
+      "epoch": 0.6211823170100425,
+      "grad_norm": 0.7802590131759644,
+      "learning_rate": 3.0377348117505145e-11,
+      "loss": 38.9613037109375,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6211823170100425,
+      "eval_loss": 4.664709091186523,
+      "eval_runtime": 122.0162,
+      "eval_samples_per_second": 35.184,
+      "eval_steps_per_second": 17.596,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 1500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 750,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1149555179520000.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2fc6a0a094cb5c9a6e42317044c60b442bf2605691d8bc9207b0c529a660502
+size 5457

checkpoint-750/README.md ADDED Viewed

	@@ -0,0 +1,206 @@

+---
+base_model: amazon/chronos-t5-small
+library_name: peft
+tags:
+- base_model:adapter:amazon/chronos-t5-small
+- lora
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.1

checkpoint-750/adapter_config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "amazon/chronos-t5-small",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "wo",
+    "q",
+    "v",
+    "o",
+    "k",
+    "wi"
+  ],
+  "target_parameters": null,
+  "task_type": "SEQ_2_SEQ_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

checkpoint-750/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74ad9c4192071e1828c2569d41578cc93e5e765303d67fb476d048e7ca38e371
+size 34675328

checkpoint-750/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f29b23d0907be3999bd9ae2003d9b82b00924c115f4cb8a413b5ad32f1768ca6
+size 34759371

checkpoint-750/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:203d5fc4135888a6fb002fa823477a8f193b36896c0ab2c41be8b3adff903219
+size 14391

checkpoint-750/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa54605a2dc63545c98573afb451d559983f127cc87c6edf86857f550d393a53
+size 1465

checkpoint-750/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-750/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "backend": "tokenizers",
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "extra_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "is_local": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-750/trainer_state.json ADDED Viewed

	@@ -0,0 +1,484 @@

+{
+  "best_global_step": 750,
+  "best_metric": 4.705667495727539,
+  "best_model_checkpoint": "/Users/alexgrigoras/Library/Mobile Documents/com~apple~CloudDocs/[5] Software/github/dif-pi/artifacts/models/sdg_chronos_t5_small_dunnhumby/checkpoint-750",
+  "epoch": 0.3105911585050212,
+  "eval_steps": 25,
+  "global_step": 750,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01035303861683404,
+      "grad_norm": 0.2731291949748993,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 45.1662451171875,
+      "step": 25
+    },
+    {
+      "epoch": 0.01035303861683404,
+      "eval_loss": 5.382182598114014,
+      "eval_runtime": 60.5419,
+      "eval_samples_per_second": 70.91,
+      "eval_steps_per_second": 35.463,
+      "step": 25
+    },
+    {
+      "epoch": 0.02070607723366808,
+      "grad_norm": 0.2949911952018738,
+      "learning_rate": 1.6333333333333335e-05,
+      "loss": 44.3224951171875,
+      "step": 50
+    },
+    {
+      "epoch": 0.02070607723366808,
+      "eval_loss": 5.343369960784912,
+      "eval_runtime": 47.1772,
+      "eval_samples_per_second": 90.997,
+      "eval_steps_per_second": 45.509,
+      "step": 50
+    },
+    {
+      "epoch": 0.031059115850502122,
+      "grad_norm": 0.2861124277114868,
+      "learning_rate": 2.466666666666667e-05,
+      "loss": 43.54326171875,
+      "step": 75
+    },
+    {
+      "epoch": 0.031059115850502122,
+      "eval_loss": 5.254676818847656,
+      "eval_runtime": 48.6137,
+      "eval_samples_per_second": 88.308,
+      "eval_steps_per_second": 44.164,
+      "step": 75
+    },
+    {
+      "epoch": 0.04141215446733616,
+      "grad_norm": 0.3088361918926239,
+      "learning_rate": 2.498250672211728e-05,
+      "loss": 43.87701171875,
+      "step": 100
+    },
+    {
+      "epoch": 0.04141215446733616,
+      "eval_loss": 5.151735305786133,
+      "eval_runtime": 46.8392,
+      "eval_samples_per_second": 91.654,
+      "eval_steps_per_second": 45.838,
+      "step": 100
+    },
+    {
+      "epoch": 0.05176519308417021,
+      "grad_norm": 0.36366939544677734,
+      "learning_rate": 2.4927134858925575e-05,
+      "loss": 41.4726220703125,
+      "step": 125
+    },
+    {
+      "epoch": 0.05176519308417021,
+      "eval_loss": 5.072572231292725,
+      "eval_runtime": 43.9205,
+      "eval_samples_per_second": 97.745,
+      "eval_steps_per_second": 48.884,
+      "step": 125
+    },
+    {
+      "epoch": 0.062118231701004244,
+      "grad_norm": 0.44364720582962036,
+      "learning_rate": 2.4834022195605383e-05,
+      "loss": 41.1882958984375,
+      "step": 150
+    },
+    {
+      "epoch": 0.062118231701004244,
+      "eval_loss": 4.995686054229736,
+      "eval_runtime": 53.0192,
+      "eval_samples_per_second": 80.971,
+      "eval_steps_per_second": 40.495,
+      "step": 150
+    },
+    {
+      "epoch": 0.07247127031783829,
+      "grad_norm": 0.4700476825237274,
+      "learning_rate": 2.470345151225491e-05,
+      "loss": 41.691572265625,
+      "step": 175
+    },
+    {
+      "epoch": 0.07247127031783829,
+      "eval_loss": 4.918369293212891,
+      "eval_runtime": 47.97,
+      "eval_samples_per_second": 89.493,
+      "eval_steps_per_second": 44.757,
+      "step": 175
+    },
+    {
+      "epoch": 0.08282430893467232,
+      "grad_norm": 0.42324015498161316,
+      "learning_rate": 2.4535819347748074e-05,
+      "loss": 39.7604541015625,
+      "step": 200
+    },
+    {
+      "epoch": 0.08282430893467232,
+      "eval_loss": 4.853856086730957,
+      "eval_runtime": 45.9268,
+      "eval_samples_per_second": 93.475,
+      "eval_steps_per_second": 46.748,
+      "step": 200
+    },
+    {
+      "epoch": 0.09317734755150636,
+      "grad_norm": 0.4664323925971985,
+      "learning_rate": 2.433163479545898e-05,
+      "loss": 40.16502197265625,
+      "step": 225
+    },
+    {
+      "epoch": 0.09317734755150636,
+      "eval_loss": 4.832671642303467,
+      "eval_runtime": 49.0803,
+      "eval_samples_per_second": 87.469,
+      "eval_steps_per_second": 43.745,
+      "step": 225
+    },
+    {
+      "epoch": 0.10353038616834041,
+      "grad_norm": 0.475277304649353,
+      "learning_rate": 2.4091517957162068e-05,
+      "loss": 40.338056640625,
+      "step": 250
+    },
+    {
+      "epoch": 0.10353038616834041,
+      "eval_loss": 4.815681457519531,
+      "eval_runtime": 45.7189,
+      "eval_samples_per_second": 93.9,
+      "eval_steps_per_second": 46.961,
+      "step": 250
+    },
+    {
+      "epoch": 0.11388342478517445,
+      "grad_norm": 0.46192488074302673,
+      "learning_rate": 2.3816198059803415e-05,
+      "loss": 39.81144287109375,
+      "step": 275
+    },
+    {
+      "epoch": 0.11388342478517445,
+      "eval_loss": 4.8025665283203125,
+      "eval_runtime": 44.0374,
+      "eval_samples_per_second": 97.485,
+      "eval_steps_per_second": 48.754,
+      "step": 275
+    },
+    {
+      "epoch": 0.12423646340200849,
+      "grad_norm": 0.44529587030410767,
+      "learning_rate": 2.350651124086246e-05,
+      "loss": 40.06572509765625,
+      "step": 300
+    },
+    {
+      "epoch": 0.12423646340200849,
+      "eval_loss": 4.791704177856445,
+      "eval_runtime": 46.8164,
+      "eval_samples_per_second": 91.699,
+      "eval_steps_per_second": 45.86,
+      "step": 300
+    },
+    {
+      "epoch": 0.13458950201884254,
+      "grad_norm": 0.47136980295181274,
+      "learning_rate": 2.316339800902997e-05,
+      "loss": 39.34464599609375,
+      "step": 325
+    },
+    {
+      "epoch": 0.13458950201884254,
+      "eval_loss": 4.781772136688232,
+      "eval_runtime": 46.7709,
+      "eval_samples_per_second": 91.788,
+      "eval_steps_per_second": 45.905,
+      "step": 325
+    },
+    {
+      "epoch": 0.14494254063567658,
+      "grad_norm": 0.5043098330497742,
+      "learning_rate": 2.2787900387914035e-05,
+      "loss": 40.12859619140625,
+      "step": 350
+    },
+    {
+      "epoch": 0.14494254063567658,
+      "eval_loss": 4.77421236038208,
+      "eval_runtime": 46.6372,
+      "eval_samples_per_second": 92.051,
+      "eval_steps_per_second": 46.036,
+      "step": 350
+    },
+    {
+      "epoch": 0.1552955792525106,
+      "grad_norm": 0.43915286660194397,
+      "learning_rate": 2.238115875144865e-05,
+      "loss": 40.11051513671875,
+      "step": 375
+    },
+    {
+      "epoch": 0.1552955792525106,
+      "eval_loss": 4.768870830535889,
+      "eval_runtime": 46.1314,
+      "eval_samples_per_second": 93.06,
+      "eval_steps_per_second": 46.541,
+      "step": 375
+    },
+    {
+      "epoch": 0.16564861786934465,
+      "grad_norm": 0.4874376058578491,
+      "learning_rate": 2.1944408360615527e-05,
+      "loss": 40.54395751953125,
+      "step": 400
+    },
+    {
+      "epoch": 0.16564861786934465,
+      "eval_loss": 4.759785175323486,
+      "eval_runtime": 45.0656,
+      "eval_samples_per_second": 95.261,
+      "eval_steps_per_second": 47.642,
+      "step": 400
+    },
+    {
+      "epoch": 0.1760016564861787,
+      "grad_norm": 0.47157636284828186,
+      "learning_rate": 2.147897561199711e-05,
+      "loss": 38.57564208984375,
+      "step": 425
+    },
+    {
+      "epoch": 0.1760016564861787,
+      "eval_loss": 4.7538371086120605,
+      "eval_runtime": 45.1789,
+      "eval_samples_per_second": 95.022,
+      "eval_steps_per_second": 47.522,
+      "step": 425
+    },
+    {
+      "epoch": 0.18635469510301272,
+      "grad_norm": 0.5695982575416565,
+      "learning_rate": 2.0986274009553747e-05,
+      "loss": 40.2056494140625,
+      "step": 450
+    },
+    {
+      "epoch": 0.18635469510301272,
+      "eval_loss": 4.746274471282959,
+      "eval_runtime": 48.2349,
+      "eval_samples_per_second": 89.002,
+      "eval_steps_per_second": 44.511,
+      "step": 450
+    },
+    {
+      "epoch": 0.19670773371984676,
+      "grad_norm": 0.4859912097454071,
+      "learning_rate": 2.0467799871858624e-05,
+      "loss": 39.90147705078125,
+      "step": 475
+    },
+    {
+      "epoch": 0.19670773371984676,
+      "eval_loss": 4.741403579711914,
+      "eval_runtime": 47.2353,
+      "eval_samples_per_second": 90.885,
+      "eval_steps_per_second": 45.453,
+      "step": 475
+    },
+    {
+      "epoch": 0.20706077233668083,
+      "grad_norm": 0.5383442640304565,
+      "learning_rate": 1.9925127787827415e-05,
+      "loss": 39.66552001953125,
+      "step": 500
+    },
+    {
+      "epoch": 0.20706077233668083,
+      "eval_loss": 4.736755847930908,
+      "eval_runtime": 43.4301,
+      "eval_samples_per_second": 98.849,
+      "eval_steps_per_second": 49.436,
+      "step": 500
+    },
+    {
+      "epoch": 0.21741381095351486,
+      "grad_norm": 0.47965624928474426,
+      "learning_rate": 1.9359905834743513e-05,
+      "loss": 39.6004296875,
+      "step": 525
+    },
+    {
+      "epoch": 0.21741381095351486,
+      "eval_loss": 4.732944011688232,
+      "eval_runtime": 43.41,
+      "eval_samples_per_second": 98.894,
+      "eval_steps_per_second": 49.459,
+      "step": 525
+    },
+    {
+      "epoch": 0.2277668495703489,
+      "grad_norm": 0.5654281973838806,
+      "learning_rate": 1.8773850573101503e-05,
+      "loss": 39.6916064453125,
+      "step": 550
+    },
+    {
+      "epoch": 0.2277668495703489,
+      "eval_loss": 4.729019641876221,
+      "eval_runtime": 43.337,
+      "eval_samples_per_second": 99.061,
+      "eval_steps_per_second": 49.542,
+      "step": 550
+    },
+    {
+      "epoch": 0.23811988818718294,
+      "grad_norm": 0.562452495098114,
+      "learning_rate": 1.8168741833469327e-05,
+      "loss": 39.9837548828125,
+      "step": 575
+    },
+    {
+      "epoch": 0.23811988818718294,
+      "eval_loss": 4.7265305519104,
+      "eval_runtime": 43.4156,
+      "eval_samples_per_second": 98.882,
+      "eval_steps_per_second": 49.452,
+      "step": 575
+    },
+    {
+      "epoch": 0.24847292680401697,
+      "grad_norm": 0.6212955117225647,
+      "learning_rate": 1.7546417311201357e-05,
+      "loss": 39.41627685546875,
+      "step": 600
+    },
+    {
+      "epoch": 0.24847292680401697,
+      "eval_loss": 4.7227606773376465,
+      "eval_runtime": 43.4821,
+      "eval_samples_per_second": 98.73,
+      "eval_steps_per_second": 49.377,
+      "step": 600
+    },
+    {
+      "epoch": 0.258825965420851,
+      "grad_norm": 0.54314124584198,
+      "learning_rate": 1.690876698541802e-05,
+      "loss": 39.156318359375,
+      "step": 625
+    },
+    {
+      "epoch": 0.258825965420851,
+      "eval_loss": 4.717469215393066,
+      "eval_runtime": 43.0545,
+      "eval_samples_per_second": 99.711,
+      "eval_steps_per_second": 49.867,
+      "step": 625
+    },
+    {
+      "epoch": 0.2691790040376851,
+      "grad_norm": 0.6269752383232117,
+      "learning_rate": 1.625772737920128e-05,
+      "loss": 39.20115966796875,
+      "step": 650
+    },
+    {
+      "epoch": 0.2691790040376851,
+      "eval_loss": 4.716719150543213,
+      "eval_runtime": 120.2804,
+      "eval_samples_per_second": 35.692,
+      "eval_steps_per_second": 17.85,
+      "step": 650
+    },
+    {
+      "epoch": 0.2795320426545191,
+      "grad_norm": 0.5073297023773193,
+      "learning_rate": 1.5595275678437756e-05,
+      "loss": 39.50381591796875,
+      "step": 675
+    },
+    {
+      "epoch": 0.2795320426545191,
+      "eval_loss": 4.712583065032959,
+      "eval_runtime": 43.4686,
+      "eval_samples_per_second": 98.761,
+      "eval_steps_per_second": 49.392,
+      "step": 675
+    },
+    {
+      "epoch": 0.28988508127135315,
+      "grad_norm": 0.5422746539115906,
+      "learning_rate": 1.4923423727170106e-05,
+      "loss": 38.739453125,
+      "step": 700
+    },
+    {
+      "epoch": 0.28988508127135315,
+      "eval_loss": 4.711677074432373,
+      "eval_runtime": 45.4531,
+      "eval_samples_per_second": 94.449,
+      "eval_steps_per_second": 47.235,
+      "step": 700
+    },
+    {
+      "epoch": 0.30023811988818716,
+      "grad_norm": 0.5396411418914795,
+      "learning_rate": 1.4244211917692812e-05,
+      "loss": 38.6535791015625,
+      "step": 725
+    },
+    {
+      "epoch": 0.30023811988818716,
+      "eval_loss": 4.707785606384277,
+      "eval_runtime": 45.9015,
+      "eval_samples_per_second": 93.526,
+      "eval_steps_per_second": 46.774,
+      "step": 725
+    },
+    {
+      "epoch": 0.3105911585050212,
+      "grad_norm": 0.6173298358917236,
+      "learning_rate": 1.355970299394786e-05,
+      "loss": 38.515927734375,
+      "step": 750
+    },
+    {
+      "epoch": 0.3105911585050212,
+      "eval_loss": 4.705667495727539,
+      "eval_runtime": 46.4706,
+      "eval_samples_per_second": 92.381,
+      "eval_steps_per_second": 46.201,
+      "step": 750
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 1500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 750,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 574777589760000.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-750/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2fc6a0a094cb5c9a6e42317044c60b442bf2605691d8bc9207b0c529a660502
+size 5457

sdg_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "model_name": "amazon/chronos-t5-small",
+  "base_model_id": "amazon/chronos-t5-small",
+  "context_length": 140,
+  "prediction_length": 30,
+  "num_bins": 4094,
+  "value_range": [
+    -5.0,
+    5.0
+  ],
+  "learning_rate": 2.5e-05,
+  "train_steps": 1500,
+  "lora_rank": 32,
+  "lora_alpha": 64,
+  "batch_size": 2,
+  "gradient_accumulation_steps": 8,
+  "max_source_length": 768,
+  "max_target_length": 256,
+  "random_state": 42,
+  "task_prefix": "generate synthetic retail demand future from historical context",
+  "seasonality_strength": 0.75,
+  "seasonal_period": 7,
+  "seasonal_fallback_strength": 0.35,
+  "zero_threshold_for_sparsity": 0.6,
+  "prefer_backend": "qlora",
+  "use_special_tokens": true,
+  "add_calendar_features": true,
+  "warmup_ratio": 0.05,
+  "weight_decay": 0.01
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "backend": "tokenizers",
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "extra_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "is_local": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

training_info.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "train_examples": 38636,
+  "eval_examples": 4293,
+  "train_steps": 1500,
+  "learning_rate": 2.5e-05,
+  "train_runtime": 4486.0918,
+  "train_loss": 39.88381803385417,
+  "is_peft_model": true,
+  "backend_name": "lora",
+  "added_special_tokens": 4131
+}