dball
/

zephyr-7b-dpo-qlora

alignment-handbook

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

zephyr-7b-dpo-qlora / eval_results.json

dball's picture

Model save

84f5259 verified over 2 years ago

History Blame Contribute Delete

569 Bytes

	{
	"epoch": 1.0,
	"eval_logits/chosen": 1.212050437927246,
	"eval_logits/rejected": 1.967947244644165,
	"eval_logps/chosen": -469.93450927734375,
	"eval_logps/rejected": -550.9584350585938,
	"eval_loss": 0.5057631134986877,
	"eval_rewards/accuracies": 0.7350000143051147,
	"eval_rewards/chosen": -2.0144448280334473,
	"eval_rewards/margins": 1.0093281269073486,
	"eval_rewards/rejected": -3.023772954940796,
	"eval_runtime": 1180.5777,
	"eval_samples": 2000,
	"eval_samples_per_second": 1.694,
	"eval_steps_per_second": 0.847
	}