gujarati-indicbart-5000

This model is a fine-tuned version of ai4bharat/IndicBART on the None dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 3e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 16
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
num_epochs: 15
mixed_precision_training: Native AMP

Training Loss	Epoch	Step	Validation Loss
26.3763	0.4	100	4.0052
22.6829	0.8	200	nan
0.0	1.2	300	nan
0.0	1.6	400	nan
0.0	2.0	500	nan
0.0	2.4	600	nan
0.0	2.8	700	nan
0.0	3.2	800	nan
0.0	3.6	900	nan
0.0	4.0	1000	nan
0.0	4.4	1100	nan
0.0	4.8	1200	nan
0.0	5.2	1300	nan
0.0	5.6	1400	nan
0.0	6.0	1500	nan
0.0	6.4	1600	nan
0.0	6.8	1700	nan
0.0	7.2	1800	nan
0.0	7.6	1900	nan
0.0	8.0	2000	nan
0.0	8.4	2100	nan
0.0	8.8	2200	nan
0.0	9.2	2300	nan
0.0	9.6	2400	nan
0.0	10.0	2500	nan
0.0	10.4	2600	nan
0.0	10.8	2700	nan
0.0	11.2	2800	nan
0.0	11.6	2900	nan
0.0	12.0	3000	nan
0.0	12.4	3100	nan
0.0	12.8	3200	nan
0.0	13.2	3300	nan
0.0	13.6	3400	nan
0.0	14.0	3500	nan
0.0	14.4	3600	nan
0.0	14.8	3700	nan

Safetensors

Model size

0.4B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Base model

Finetuned

(20)

this model