rp440
/

Qwen3-8b-DSA-index

Text Generation

sparse-attention

Model card Files Files and versions

Qwen3-8b-DSA-index / ppl_results_assembled.json

rp440's picture

Upload DSA index metadata and runtime

3496b2e verified 2 months ago

history blame contribute delete

452 Bytes

	{
	"run_dir": "qwen8b_2k2048_15m_allsparse_fixed_v1",
	"checkpoint": "best_assembled",
	"model": "Qwen/Qwen3-8B",
	"quantization": "4bit",
	"seq_len": 2048,
	"top_k": 2048,
	"eval_samples": 8,
	"dense_nll": 2.6045862287282944,
	"dense_ppl": 13.525627628604632,
	"sparse_nll": 2.6051638573408127,
	"sparse_ppl": 13.533442675005093,
	"delta_nll": 0.0005776286125183105,
	"delta_ppl": 0.007815046400461156,
	"ratio_ppl": 1.0005777954720514
	}