g-- library_name: transformers license: other base_model: swiss-ai/Apertus-8B-2509 tags: - llama-factory - full - generated_from_trainer model-index: - name: Apertus-no-feedback results: []

Apertus-no-feedback

This model is a fine-tuned version of /mnt/task_runtime/models/Apertus-8B-cpt on the sft dataset. It achieves the following results on the evaluation set:

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 1e-05
train_batch_size: 2
eval_batch_size: 2
seed: 42
distributed_type: multi-GPU
num_devices: 8
total_train_batch_size: 16
total_eval_batch_size: 16
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.05
num_epochs: 1.0

Training Loss	Epoch	Step	Validation Loss
0.1169	0.2286	1000	0.1173
0.0975	0.4572	2000	0.0961
0.0889	0.6859	3000	0.0898
0.0887	0.9145	4000	0.0878

Safetensors

Model size

274k params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support