AxiomicLabs
/

GPT-S-1.4M

Text Generation

custom-architecture

custom-tokenizer

Model card Files Files and versions

GPT-S-1.4M / config.json

Datdanboi25's picture

Initial commit

796d6cb 20 days ago

History Blame Contribute Delete

726 Bytes

	{
	"architectures": [
	"GPTS14MForCausalLM"
	],
	"attention_type": "grouped_query",
	"auto_map": {
	"AutoConfig": "configuration_gpts3.GPTS14MConfig",
	"AutoModelForCausalLM": "modeling_gpts3.GPTS14MForCausalLM"
	},
	"bias": false,
	"dtype": "bfloat16",
	"embedding_scale": false,
	"head_dim": 32,
	"hidden_act": "silu",
	"hidden_size": 128,
	"intermediate_size": 341,
	"max_position_embeddings": 384,
	"model_type": "gpts14m",
	"num_attention_heads": 4,
	"num_hidden_layers": 5,
	"num_key_value_heads": 2,
	"rms_norm_eps": 1e-06,
	"rope_theta": 2500.0,
	"tie_word_embeddings": true,
	"torch_dtype": "bfloat16",
	"transformers_version": "5.5.3",
	"vocab_size": 4096,
	"xsa_projection": true
	}