BaXi-27B — GGUF quantizations

Quantizações GGUF do modelo daliu3/baxi-27b — fine-tuning de unsloth/Qwen3.6-27B (QLoRA, r=64, α=64) para administração pública brasileira com Language-Mixed Chain-of-Thought (raciocínio em PT-BR com termos técnicos em EN, resposta final em PT-BR).

Sobre o BaXi-27B

BaXi-27B é um modelo open-source de 27 bilhões de parâmetros especializado em domínio público brasileiro: LGPD, Lei nº 14.133/2021 (Nova Lei de Licitações), Portal da Transparência, regulamentos universitários, ABNT NBR 6023, dados abertos. Treinado em dataset sintético destilado de DeepSeek-V4-Flash seguindo o protocolo Qwopus3.5-27B (Jackrong, 2026).

Loss final: 0.6565 • VRAM: 23.68 GB • Tempo: 6.59 min (A100 80GB).

Quantizações disponíveis

Arquivo Quantização Tamanho RAM mínima Recomendação
Qwen3.6-27B.Q4_K_M.gguf Q4_K_M 16.55 GB ~20 GB Recomendado para inferência local (laptops com 24+ GB RAM, RTX 3090)
Qwen3.6-27B.Q8_0.gguf Q8_0 28.60 GB ~32 GB Maior qualidade, ainda viável em workstation
Qwen3.6-27B.BF16-00001-of-00002.gguf BF16 (shard 1/2) 50.00 GB — Parte 1 dos pesos BF16
Qwen3.6-27B.BF16-00002-of-00002.gguf BF16 (shard 2/2) 3.80 GB ~60 GB total Sem perda; só para A100/H100 ou múltiplas GPUs
Qwen3.6-27B.BF16-mmproj.gguf BF16 (mmproj) 0.93 GB — Projetor multimodal (não-usado em chat texto)

Nota: O arquivo *-mmproj.gguf é o projetor multimodal do Qwen3.6-VL e não é necessário para inferência de texto puro (caso de uso do BaXi).

Como usar

Ollama (recomendado para uso local)

ollama pull hf.co/daliu3/baxi-27b-GGUF:Q4_K_M
ollama run hf.co/daliu3/baxi-27b-GGUF:Q4_K_M

llama.cpp

# Download via huggingface-cli
huggingface-cli download daliu3/baxi-27b-GGUF Qwen3.6-27B.Q4_K_M.gguf --local-dir ./baxi-gguf

# Inferência
./llama-cli -m ./baxi-gguf/Qwen3.6-27B.Q4_K_M.gguf \
    -p "Quais são as modalidades de licitação na Lei 14.133/2021?" \
    -n 1024 --temp 0.7

Python (llama-cpp-python)

from llama_cpp import Llama

llm = Llama.from_pretrained(
    repo_id="daliu3/baxi-27b-GGUF",
    filename="Qwen3.6-27B.Q4_K_M.gguf",
    n_ctx=8192,
    n_gpu_layers=-1,  # offload total se tiver GPU
)

resp = llm.create_chat_completion(
    messages=[
        {"role": "system", "content": "Você é BaXi, assistente especializado em administração pública brasileira."},
        {"role": "user", "content": "O que mudou na licitação com a Lei 14.133/2021?"},
    ],
    max_tokens=1024,
)
print(resp["choices"][0]["message"]["content"])

Avaliação planejada — OAB e ENEM (Fase 3, set-nov/2026)

A comparação formal modelo base vs BaXi-27B está planejada em dois benchmarks:

Metodologia seguindo padrões do Proceedings of the International Conference on Artificial Intelligence and Law (ICAIL).

Limitações

  • Versão de teste: treinado com 100 exemplos sintéticos — capacidade de generalização não foi formalmente avaliada.
  • Sem benchmark formal ainda: previsto para Fase 3 (set-nov/2026).
  • Não substitui consulta jurídica: para decisões oficiais, consulte profissionais qualificados e a legislação vigente.
  • Dados sintéticos: gerados via destilação de DeepSeek-V4-Flash; podem conter vieses ou erros herdados do modelo professor.

Citação

@misc{baxi27b2026,
  title         = {BaXi-27B: Fine-tuning de LLM para Administração Pública Brasileira com Language-Mixed Chain-of-Thought},
  author        = {Camilo, Leonardo},
  year          = {2026},
  publisher     = {HuggingFace},
  howpublished  = {\url{https://huggingface.co/daliu3/baxi-27b}}
}

Licença

Apache 2.0 — mesma do modelo base unsloth/Qwen3.6-27B.

Links

Downloads last month
23
GGUF
Model size
27B params
Architecture
qwen35
Hardware compatibility
Log In to add your hardware

4-bit

8-bit

16-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for daliu3/stela-27b-v0.1-GGUF

Base model

Qwen/Qwen3.6-27B
Quantized
(6)
this model

Paper for daliu3/stela-27b-v0.1-GGUF