Instructions to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with llama-cpp-python:

# !pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained(
	repo_id="jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF",
	filename="latamgpt-IQ2_M.gguf",
)

llm.create_chat_completion(
	messages = [
		{
			"role": "user",
			"content": "What is the capital of France?"
		}
	]
)

Notebooks
Google Colab
Kaggle
Local Apps Settings

llama.cpp

How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with llama.cpp:

Install (macOS, Linux)

curl -LsSf https://llama.app/install.sh | sh
# Start a local OpenAI-compatible server with a web UI:
llama serve -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
# Run inference directly in the terminal:
llama cli -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M

Install from WinGet (Windows)

winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama serve -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
# Run inference directly in the terminal:
llama cli -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M

Use pre-built binary

# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases
# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
# Run inference directly in the terminal:
./llama-cli -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M

Build from source code

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
# Run inference directly in the terminal:
./build/bin/llama-cli -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M

Use Docker

docker model run hf.co/jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M

LM Studio
Jan

vLLM

How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M

Ollama
How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with Ollama:
```
ollama run hf.co/jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
```

Unsloth Studio

How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with Unsloth Studio:

Install Unsloth Studio (macOS, Linux, WSL)

curl -fsSL https://unsloth.ai/install.sh | sh
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF to start chatting

Install Unsloth Studio (Windows)

irm https://unsloth.ai/install.ps1 | iex
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF to start chatting

Using HuggingFace Spaces for Unsloth

# No setup required
# Open https://huggingface.co/spaces/unsloth/studio in your browser
# Search for jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF to start chatting

Atomic Chat new
Docker Model Runner
How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with Docker Model Runner:
```
docker model run hf.co/jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
```

Lemonade

How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with Lemonade:

Pull the model

# Download Lemonade from https://lemonade-server.ai/
lemonade pull jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M

Run and chat with the model

lemonade run user.Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF-Q4_K_M

List all available models

lemonade list

jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF

Este repositorio publica versiones GGUF de latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0 para ejecutar LatamGPT con llama.cpp y otros entornos compatibles con GGUF.

No es un fine-tuning nuevo ni una versión reentrenada del modelo. Es una conversión cuantizada del checkpoint SFT de LatamGPT, que a su vez deriva de meta-llama/Llama-3.1-70B.

resumen

El objetivo de este repositorio es simple: publicar LatamGPT en formato GGUF para facilitar pruebas locales o en servidores propios.

El modelo original es parte de LatamGPT, una iniciativa latinoamericana coordinada por CENIA. El crédito por el modelo, el trabajo de datos y la dirección del proyecto corresponde a LatamGPT y sus colaboradores. Este repositorio solo publica los archivos GGUF, junto con sumas de verificación y metadatos básicos para que la publicación sea revisable sin convertir el repositorio en un volcado de build.

Ya se hizo una validación básica de carga y generación. Todavía no hay evaluaciones de calidad ni benchmarks publicados, así que esta publicación no sostiene que una cuantización sea mejor que otra. Las evaluaciones están pendientes.

qué archivo descargar

Como punto de partida general, usa latamgpt-Q4_K_M.gguf.

Caso	Archivo recomendado	Comentario
Busco una buena relación entre tamaño y calidad	`latamgpt-Q4_K_M.gguf`	Es el punto de partida recomendado.
Priorizo calidad y tengo más RAM o VRAM disponible	`latamgpt-Q5_K_M.gguf`, `latamgpt-Q6_K.gguf` o `latamgpt-Q8_0.gguf`	Son archivos bastante más grandes.
Tengo memoria limitada	`latamgpt-IQ4_XS.gguf`, `latamgpt-Q3_K_M.gguf` o `latamgpt-IQ3_M.gguf`	Evalúalos con tus propios casos antes de usarlos en un flujo relevante.
Necesito que quepa en memoria muy limitada	`latamgpt-IQ2_M.gguf`	Es una cuantización muy agresiva. No se recomienda para producción sin una evaluación propia.

descarga rápida

hf download jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF \
  latamgpt-Q4_K_M.gguf \
  --local-dir .

ejemplo con llama.cpp

llama-cli \
  -m latamgpt-Q4_K_M.gguf \
  --ctx-size 4096 \
  --jinja \
  --single-turn \
  -p "Responde en español: qué es LatamGPT?"

archivos

Archivo	Quant	Tamaño	SHA256
`latamgpt-Q8_0.gguf`	`Q8_0`	69.83 GiB	`216cf4c2de09545e7f69972dd8944af701f7d94024edc47322eaf5d68fb96a70`
`latamgpt-Q6_K.gguf`	`Q6_K`	53.91 GiB	`6ee4d4f3a767e2066ad487c57f2d55adf755243970a9251c1b76d0d3992ff500`
`latamgpt-Q5_K_M.gguf`	`Q5_K_M`	46.52 GiB	`c91b3ba6c06e3724237474624dd7068429d40f228adea1bfe453670c902f56f9`
`latamgpt-Q5_K_S.gguf`	`Q5_K_S`	45.32 GiB	`6812049985ce484c2fad62c24bf340aa6c79122c374b45e80677913c4eb30dea`
`latamgpt-Q4_K_M.gguf`	`Q4_K_M`	39.60 GiB	`777f4082f99ac4b48d5c31412d1582384ce53a929024990cd82d8a7dcb82efd1`
`latamgpt-Q4_K_S.gguf`	`Q4_K_S`	37.58 GiB	`bf65fb7b42a6bce5f41653b54674c25333069f72c6c9327cddabbc5bf1b9e4ea`
`latamgpt-IQ4_XS.gguf`	`IQ4_XS`	35.30 GiB	`71b3c099944ed26be39d0aa6714f67a0c5a8b60171318bd5993a9b4ff0108a81`
`latamgpt-IQ4_NL.gguf`	`IQ4_NL`	37.30 GiB	`475f2865e64eda84bdfecb00ce84c513d14680c1222824653c71e9d0ed0ec6c8`
`latamgpt-Q3_K_M.gguf`	`Q3_K_M`	31.91 GiB	`dbc69c8b11f35c0db91e66e978ee7ff5d37868b96e16510e9e1b6e63b7f5ca85`
`latamgpt-IQ3_M.gguf`	`IQ3_M`	29.74 GiB	`f8ac0ce926d2fbf801f066d72bc46ad178a6ad07e45ee18b16172a206479deac`
`latamgpt-IQ2_M.gguf`	`IQ2_M`	22.46 GiB	`26478308b329981b47145fd31461fd00d280434696df40430abdf921da9368b1`

validación básica

Por ahora se hizo una validación básica para comprobar que algunos archivos cargan, generan texto y terminan sin errores. No son benchmarks.

Esto no mide razonamiento, factualidad, seguridad, sesgos ni rendimiento por tarea. Las evaluaciones de calidad, perplejidad, InspectAI y comparaciones con otros modelos están pendientes.

Archivo / prueba	Estado	Qué significa
`Q4_K_M` con prompt en español	OK	Carga y genera texto con `llama-cli --jinja --single-turn`.
`IQ3_M` con prompt en portugués	OK	Carga y genera texto.
`IQ2_M` con prueba de finalización	OK	Carga y termina correctamente, pero la calidad puede degradarse de forma significativa.
`Q8_0` con prompt en inglés	OK	Carga y genera texto.
Perplejidad	Pendiente	Está pendiente de ejecución.
InspectAI y comparaciones más completas	Pendiente	Todavía no hay resultados comparativos publicados.

El resumen está en metadata/latamgpt-smoke-summary.tsv.

límites

La cuantización puede cambiar el comportamiento del modelo. Cuanto más pequeño sea el archivo, más probable es que pierda calidad.
IQ2_M existe para casos de memoria muy limitada. Puede repetir contenido, fallar con más frecuencia o producir respuestas de menor calidad.
Estas pruebas no miden factualidad, sesgos, seguridad, razonamiento ni calidad por tarea.
Antes de usarlo en producción, evalúalo con tus propios datos y casos de uso.
No debe usarse como única base para tomar decisiones en salud, finanzas, justicia, seguridad pública, educación, empleo u otros contextos sensibles.
Este repositorio no incluye filtros de seguridad, monitoreo, RAG ni controles adicionales propios de una aplicación.

para qué sirve

Probar LatamGPT localmente con GGUF.
Crear prototipos o demostraciones con llama.cpp y herramientas compatibles.
Comparar cuantizaciones con tus propios prompts.
Revisar o reproducir el proceso de conversión y cuantización.

usos no recomendados sin trabajo adicional

Como reemplazo de evaluaciones rigurosas.
Como sistema listo para producción sin controles adicionales.
Como evidencia de que LatamGPT supera a otros modelos. Esas evaluaciones están pendientes.

datos de calibración

Estos datos se usaron únicamente para generar la matriz de importancia de la cuantización. No son datos de evaluación y, por sí solos, no permiten inferir la calidad final del modelo.

Fuente	Registros
`CohereForAI/aya_dataset`	600
`FreedomIntelligence/alpaca-gpt4-spanish`	200
`HuggingFaceH4/ultrachat_200k`	200

Idioma	Registros
`spa`	400
`por`	200
`eng`	400

Total de registros de calibración: 1000. Total de caracteres de calibración: 1750246.

fuentes

Modelo fuente: latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0
Proyecto LatamGPT: https://www.latamgpt.org/en
llama.cpp: https://github.com/ggml-org/llama.cpp
Esta publicación GGUF: https://huggingface.co/jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF

agradecimientos

El modelo original, la dirección del proyecto, el trabajo de datos y la colaboración regional son de LatamGPT y sus colaboradores.

LatamGPT es coordinado por CENIA. Según las preguntas frecuentes oficiales, el proyecto involucra a casi 200 profesionales y más de 65 instituciones de 15 países. Este repositorio no busca reemplazar el trabajo original ni presentarlo como propio. Solo publica una versión GGUF no oficial para facilitar pruebas con herramientas compatibles.

También se basa en:

El checkpoint original de LatamGPT.
Meta Llama 3.1 y sus términos de licencia.
llama.cpp y el ecosistema GGUF.
Los conjuntos de datos públicos usados para calibración, listados arriba y en metadata/latamgpt_calibration_manifest.json.

notas técnicas

El checkpoint original tenía config.vocab_size=128256, longitud del tokenizer 128257 e ID del token PAD 128256.
La versión publicada usa vocab_size=128257 y una fila adicional de ceros en model.embed_tokens.weight y lm_head.weight para que el tokenizer, la configuración y los tensores queden alineados.
La configuración fuente genera una advertencia de RoPE en Transformers porque original_max_position_embeddings es igual a max_position_embeddings en 4096.
El conversor GGUF informó sobre un token separador desconocido <|begin_of_text|> en TemplateProcessing<pair>.

licencia

El modelo fuente está marcado como license:llama3.1. Aplican los términos y restricciones de uso de Llama 3.1.

Esta publicación solo redistribuye derivados cuantizados en formato GGUF del checkpoint de LatamGPT. No cambia la licencia del modelo fuente, los requisitos de atribución ni las obligaciones asociadas a LatamGPT o a Llama 3.1.

Consulta también:

Modelo original: https://huggingface.co/latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0
Licencia Llama 3.1: https://www.llama.com/llama3_1/license/

Downloads last month: 2,597

GGUF

Model size

71B params

Architecture

llama

Hardware compatibility

2-bit

3-bit

4-bit

5-bit

6-bit

8-bit

Model tree for jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF

Base model

meta-llama/Llama-3.1-70B

Finetuned

latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0

Quantized

(5)

this model