Instructions to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- llama-cpp-python
How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with llama-cpp-python:
# !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF", filename="latamgpt-IQ2_M.gguf", )
llm.create_chat_completion( messages = [ { "role": "user", "content": "What is the capital of France?" } ] ) - Notebooks
- Google Colab
- Kaggle
- Local Apps Settings
- llama.cpp
How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with llama.cpp:
Install (macOS, Linux)
curl -LsSf https://llama.app/install.sh | sh # Start a local OpenAI-compatible server with a web UI: llama serve -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M # Run inference directly in the terminal: llama cli -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
Install from WinGet (Windows)
winget install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama serve -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M # Run inference directly in the terminal: llama cli -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
Use pre-built binary
# Download pre-built binary from: # https://github.com/ggerganov/llama.cpp/releases # Start a local OpenAI-compatible server with a web UI: ./llama-server -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M # Run inference directly in the terminal: ./llama-cli -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
Build from source code
git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # Start a local OpenAI-compatible server with a web UI: ./build/bin/llama-server -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M # Run inference directly in the terminal: ./build/bin/llama-cli -hf jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
Use Docker
docker model run hf.co/jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
- LM Studio
- Jan
- vLLM
How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }'Use Docker
docker model run hf.co/jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
- Ollama
How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with Ollama:
ollama run hf.co/jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
- Unsloth Studio
How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with Unsloth Studio:
Install Unsloth Studio (macOS, Linux, WSL)
curl -fsSL https://unsloth.ai/install.sh | sh # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF to start chatting
Install Unsloth Studio (Windows)
irm https://unsloth.ai/install.ps1 | iex # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF to start chatting
Using HuggingFace Spaces for Unsloth
# No setup required # Open https://huggingface.co/spaces/unsloth/studio in your browser # Search for jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF to start chatting
- Atomic Chat new
- Docker Model Runner
How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with Docker Model Runner:
docker model run hf.co/jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
- Lemonade
How to use jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with Lemonade:
Pull the model
# Download Lemonade from https://lemonade-server.ai/ lemonade pull jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF:Q4_K_M
Run and chat with the model
lemonade run user.Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF-Q4_K_M
List all available models
lemonade list
jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF
Este repositorio publica versiones GGUF de
latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0 para ejecutar LatamGPT con llama.cpp y otros entornos compatibles con GGUF.
No es un fine-tuning nuevo ni una versiรณn reentrenada del modelo. Es una conversiรณn cuantizada del checkpoint SFT de LatamGPT, que a su vez deriva de meta-llama/Llama-3.1-70B.
resumen
El objetivo de este repositorio es simple: publicar LatamGPT en formato GGUF para facilitar pruebas locales o en servidores propios.
El modelo original es parte de LatamGPT, una iniciativa latinoamericana coordinada por CENIA. El crรฉdito por el modelo, el trabajo de datos y la direcciรณn del proyecto corresponde a LatamGPT y sus colaboradores. Este repositorio solo publica los archivos GGUF, junto con sumas de verificaciรณn y metadatos bรกsicos para que la publicaciรณn sea revisable sin convertir el repositorio en un volcado de build.
Ya se hizo una validaciรณn bรกsica de carga y generaciรณn. Todavรญa no hay evaluaciones de calidad ni benchmarks publicados, asรญ que esta publicaciรณn no sostiene que una cuantizaciรณn sea mejor que otra. Las evaluaciones estรกn pendientes.
quรฉ archivo descargar
Como punto de partida general, usa latamgpt-Q4_K_M.gguf.
| Caso | Archivo recomendado | Comentario |
|---|---|---|
| Busco una buena relaciรณn entre tamaรฑo y calidad | latamgpt-Q4_K_M.gguf |
Es el punto de partida recomendado. |
| Priorizo calidad y tengo mรกs RAM o VRAM disponible | latamgpt-Q5_K_M.gguf, latamgpt-Q6_K.gguf o latamgpt-Q8_0.gguf |
Son archivos bastante mรกs grandes. |
| Tengo memoria limitada | latamgpt-IQ4_XS.gguf, latamgpt-Q3_K_M.gguf o latamgpt-IQ3_M.gguf |
Evalรบalos con tus propios casos antes de usarlos en un flujo relevante. |
| Necesito que quepa en memoria muy limitada | latamgpt-IQ2_M.gguf |
Es una cuantizaciรณn muy agresiva. No se recomienda para producciรณn sin una evaluaciรณn propia. |
descarga rรกpida
hf download jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF \
latamgpt-Q4_K_M.gguf \
--local-dir .
ejemplo con llama.cpp
llama-cli \
-m latamgpt-Q4_K_M.gguf \
--ctx-size 4096 \
--jinja \
--single-turn \
-p "Responde en espaรฑol: quรฉ es LatamGPT?"
archivos
| Archivo | Quant | Tamaรฑo | SHA256 |
|---|---|---|---|
latamgpt-Q8_0.gguf |
Q8_0 |
69.83 GiB | 216cf4c2de09545e7f69972dd8944af701f7d94024edc47322eaf5d68fb96a70 |
latamgpt-Q6_K.gguf |
Q6_K |
53.91 GiB | 6ee4d4f3a767e2066ad487c57f2d55adf755243970a9251c1b76d0d3992ff500 |
latamgpt-Q5_K_M.gguf |
Q5_K_M |
46.52 GiB | c91b3ba6c06e3724237474624dd7068429d40f228adea1bfe453670c902f56f9 |
latamgpt-Q5_K_S.gguf |
Q5_K_S |
45.32 GiB | 6812049985ce484c2fad62c24bf340aa6c79122c374b45e80677913c4eb30dea |
latamgpt-Q4_K_M.gguf |
Q4_K_M |
39.60 GiB | 777f4082f99ac4b48d5c31412d1582384ce53a929024990cd82d8a7dcb82efd1 |
latamgpt-Q4_K_S.gguf |
Q4_K_S |
37.58 GiB | bf65fb7b42a6bce5f41653b54674c25333069f72c6c9327cddabbc5bf1b9e4ea |
latamgpt-IQ4_XS.gguf |
IQ4_XS |
35.30 GiB | 71b3c099944ed26be39d0aa6714f67a0c5a8b60171318bd5993a9b4ff0108a81 |
latamgpt-IQ4_NL.gguf |
IQ4_NL |
37.30 GiB | 475f2865e64eda84bdfecb00ce84c513d14680c1222824653c71e9d0ed0ec6c8 |
latamgpt-Q3_K_M.gguf |
Q3_K_M |
31.91 GiB | dbc69c8b11f35c0db91e66e978ee7ff5d37868b96e16510e9e1b6e63b7f5ca85 |
latamgpt-IQ3_M.gguf |
IQ3_M |
29.74 GiB | f8ac0ce926d2fbf801f066d72bc46ad178a6ad07e45ee18b16172a206479deac |
latamgpt-IQ2_M.gguf |
IQ2_M |
22.46 GiB | 26478308b329981b47145fd31461fd00d280434696df40430abdf921da9368b1 |
validaciรณn bรกsica
Por ahora se hizo una validaciรณn bรกsica para comprobar que algunos archivos cargan, generan texto y terminan sin errores. No son benchmarks.
Esto no mide razonamiento, factualidad, seguridad, sesgos ni rendimiento por tarea. Las evaluaciones de calidad, perplejidad, InspectAI y comparaciones con otros modelos estรกn pendientes.
| Archivo / prueba | Estado | Quรฉ significa |
|---|---|---|
Q4_K_M con prompt en espaรฑol |
OK | Carga y genera texto con llama-cli --jinja --single-turn. |
IQ3_M con prompt en portuguรฉs |
OK | Carga y genera texto. |
IQ2_M con prueba de finalizaciรณn |
OK | Carga y termina correctamente, pero la calidad puede degradarse de forma significativa. |
Q8_0 con prompt en inglรฉs |
OK | Carga y genera texto. |
| Perplejidad | Pendiente | Estรก pendiente de ejecuciรณn. |
| InspectAI y comparaciones mรกs completas | Pendiente | Todavรญa no hay resultados comparativos publicados. |
El resumen estรก en metadata/latamgpt-smoke-summary.tsv.
lรญmites
- La cuantizaciรณn puede cambiar el comportamiento del modelo. Cuanto mรกs pequeรฑo sea el archivo, mรกs probable es que pierda calidad.
IQ2_Mexiste para casos de memoria muy limitada. Puede repetir contenido, fallar con mรกs frecuencia o producir respuestas de menor calidad.- Estas pruebas no miden factualidad, sesgos, seguridad, razonamiento ni calidad por tarea.
- Antes de usarlo en producciรณn, evalรบalo con tus propios datos y casos de uso.
- No debe usarse como รบnica base para tomar decisiones en salud, finanzas, justicia, seguridad pรบblica, educaciรณn, empleo u otros contextos sensibles.
- Este repositorio no incluye filtros de seguridad, monitoreo, RAG ni controles adicionales propios de una aplicaciรณn.
para quรฉ sirve
- Probar LatamGPT localmente con GGUF.
- Crear prototipos o demostraciones con
llama.cppy herramientas compatibles. - Comparar cuantizaciones con tus propios prompts.
- Revisar o reproducir el proceso de conversiรณn y cuantizaciรณn.
usos no recomendados sin trabajo adicional
- Como reemplazo de evaluaciones rigurosas.
- Como sistema listo para producciรณn sin controles adicionales.
- Como evidencia de que LatamGPT supera a otros modelos. Esas evaluaciones estรกn pendientes.
datos de calibraciรณn
Estos datos se usaron รบnicamente para generar la matriz de importancia de la cuantizaciรณn. No son datos de evaluaciรณn y, por sรญ solos, no permiten inferir la calidad final del modelo.
| Fuente | Registros |
|---|---|
CohereForAI/aya_dataset |
600 |
FreedomIntelligence/alpaca-gpt4-spanish |
200 |
HuggingFaceH4/ultrachat_200k |
200 |
| Idioma | Registros |
|---|---|
spa |
400 |
por |
200 |
eng |
400 |
Total de registros de calibraciรณn: 1000.
Total de caracteres de calibraciรณn: 1750246.
fuentes
- Modelo fuente:
latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0 - Proyecto LatamGPT: https://www.latamgpt.org/en
llama.cpp: https://github.com/ggml-org/llama.cpp- Esta publicaciรณn GGUF: https://huggingface.co/jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF
agradecimientos
El modelo original, la direcciรณn del proyecto, el trabajo de datos y la colaboraciรณn regional son de LatamGPT y sus colaboradores.
LatamGPT es coordinado por CENIA. Segรบn las preguntas frecuentes oficiales, el proyecto involucra a casi 200 profesionales y mรกs de 65 instituciones de 15 paรญses. Este repositorio no busca reemplazar el trabajo original ni presentarlo como propio. Solo publica una versiรณn GGUF no oficial para facilitar pruebas con herramientas compatibles.
Tambiรฉn se basa en:
- El checkpoint original de LatamGPT.
- Meta Llama 3.1 y sus tรฉrminos de licencia.
llama.cppy el ecosistema GGUF.- Los conjuntos de datos pรบblicos usados para calibraciรณn, listados arriba y en
metadata/latamgpt_calibration_manifest.json.
notas tรฉcnicas
- El checkpoint original tenรญa
config.vocab_size=128256, longitud del tokenizer128257e ID del token PAD128256. - La versiรณn publicada usa
vocab_size=128257y una fila adicional de ceros enmodel.embed_tokens.weightylm_head.weightpara que el tokenizer, la configuraciรณn y los tensores queden alineados. - La configuraciรณn fuente genera una advertencia de RoPE en Transformers porque
original_max_position_embeddingses igual amax_position_embeddingsen4096. - El conversor GGUF informรณ sobre un token separador desconocido
<|begin_of_text|>enTemplateProcessing<pair>.
licencia
El modelo fuente estรก marcado como license:llama3.1. Aplican los tรฉrminos y restricciones de uso de Llama 3.1.
Esta publicaciรณn solo redistribuye derivados cuantizados en formato GGUF del checkpoint de LatamGPT. No cambia la licencia del modelo fuente, los requisitos de atribuciรณn ni las obligaciones asociadas a LatamGPT o a Llama 3.1.
Consulta tambiรฉn:
- Modelo original: https://huggingface.co/latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0
- Licencia Llama 3.1: https://www.llama.com/llama3_1/license/
- Downloads last month
- 2,597
2-bit
3-bit
4-bit
5-bit
6-bit
8-bit
Model tree for jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF
Base model
meta-llama/Llama-3.1-70B