jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF

Este repositorio publica versiones GGUF de latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0 para ejecutar LatamGPT con llama.cpp y otros entornos compatibles con GGUF.

No es un fine-tuning nuevo ni una versiรณn reentrenada del modelo. Es una conversiรณn cuantizada del checkpoint SFT de LatamGPT, que a su vez deriva de meta-llama/Llama-3.1-70B.

resumen

El objetivo de este repositorio es simple: publicar LatamGPT en formato GGUF para facilitar pruebas locales o en servidores propios.

El modelo original es parte de LatamGPT, una iniciativa latinoamericana coordinada por CENIA. El crรฉdito por el modelo, el trabajo de datos y la direcciรณn del proyecto corresponde a LatamGPT y sus colaboradores. Este repositorio solo publica los archivos GGUF, junto con sumas de verificaciรณn y metadatos bรกsicos para que la publicaciรณn sea revisable sin convertir el repositorio en un volcado de build.

Ya se hizo una validaciรณn bรกsica de carga y generaciรณn. Todavรญa no hay evaluaciones de calidad ni benchmarks publicados, asรญ que esta publicaciรณn no sostiene que una cuantizaciรณn sea mejor que otra. Las evaluaciones estรกn pendientes.

quรฉ archivo descargar

Como punto de partida general, usa latamgpt-Q4_K_M.gguf.

Caso Archivo recomendado Comentario
Busco una buena relaciรณn entre tamaรฑo y calidad latamgpt-Q4_K_M.gguf Es el punto de partida recomendado.
Priorizo calidad y tengo mรกs RAM o VRAM disponible latamgpt-Q5_K_M.gguf, latamgpt-Q6_K.gguf o latamgpt-Q8_0.gguf Son archivos bastante mรกs grandes.
Tengo memoria limitada latamgpt-IQ4_XS.gguf, latamgpt-Q3_K_M.gguf o latamgpt-IQ3_M.gguf Evalรบalos con tus propios casos antes de usarlos en un flujo relevante.
Necesito que quepa en memoria muy limitada latamgpt-IQ2_M.gguf Es una cuantizaciรณn muy agresiva. No se recomienda para producciรณn sin una evaluaciรณn propia.

descarga rรกpida

hf download jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF \
  latamgpt-Q4_K_M.gguf \
  --local-dir .

ejemplo con llama.cpp

llama-cli \
  -m latamgpt-Q4_K_M.gguf \
  --ctx-size 4096 \
  --jinja \
  --single-turn \
  -p "Responde en espaรฑol: quรฉ es LatamGPT?"

archivos

Archivo Quant Tamaรฑo SHA256
latamgpt-Q8_0.gguf Q8_0 69.83 GiB 216cf4c2de09545e7f69972dd8944af701f7d94024edc47322eaf5d68fb96a70
latamgpt-Q6_K.gguf Q6_K 53.91 GiB 6ee4d4f3a767e2066ad487c57f2d55adf755243970a9251c1b76d0d3992ff500
latamgpt-Q5_K_M.gguf Q5_K_M 46.52 GiB c91b3ba6c06e3724237474624dd7068429d40f228adea1bfe453670c902f56f9
latamgpt-Q5_K_S.gguf Q5_K_S 45.32 GiB 6812049985ce484c2fad62c24bf340aa6c79122c374b45e80677913c4eb30dea
latamgpt-Q4_K_M.gguf Q4_K_M 39.60 GiB 777f4082f99ac4b48d5c31412d1582384ce53a929024990cd82d8a7dcb82efd1
latamgpt-Q4_K_S.gguf Q4_K_S 37.58 GiB bf65fb7b42a6bce5f41653b54674c25333069f72c6c9327cddabbc5bf1b9e4ea
latamgpt-IQ4_XS.gguf IQ4_XS 35.30 GiB 71b3c099944ed26be39d0aa6714f67a0c5a8b60171318bd5993a9b4ff0108a81
latamgpt-IQ4_NL.gguf IQ4_NL 37.30 GiB 475f2865e64eda84bdfecb00ce84c513d14680c1222824653c71e9d0ed0ec6c8
latamgpt-Q3_K_M.gguf Q3_K_M 31.91 GiB dbc69c8b11f35c0db91e66e978ee7ff5d37868b96e16510e9e1b6e63b7f5ca85
latamgpt-IQ3_M.gguf IQ3_M 29.74 GiB f8ac0ce926d2fbf801f066d72bc46ad178a6ad07e45ee18b16172a206479deac
latamgpt-IQ2_M.gguf IQ2_M 22.46 GiB 26478308b329981b47145fd31461fd00d280434696df40430abdf921da9368b1

validaciรณn bรกsica

Por ahora se hizo una validaciรณn bรกsica para comprobar que algunos archivos cargan, generan texto y terminan sin errores. No son benchmarks.

Esto no mide razonamiento, factualidad, seguridad, sesgos ni rendimiento por tarea. Las evaluaciones de calidad, perplejidad, InspectAI y comparaciones con otros modelos estรกn pendientes.

Archivo / prueba Estado Quรฉ significa
Q4_K_M con prompt en espaรฑol OK Carga y genera texto con llama-cli --jinja --single-turn.
IQ3_M con prompt en portuguรฉs OK Carga y genera texto.
IQ2_M con prueba de finalizaciรณn OK Carga y termina correctamente, pero la calidad puede degradarse de forma significativa.
Q8_0 con prompt en inglรฉs OK Carga y genera texto.
Perplejidad Pendiente Estรก pendiente de ejecuciรณn.
InspectAI y comparaciones mรกs completas Pendiente Todavรญa no hay resultados comparativos publicados.

El resumen estรก en metadata/latamgpt-smoke-summary.tsv.

lรญmites

  • La cuantizaciรณn puede cambiar el comportamiento del modelo. Cuanto mรกs pequeรฑo sea el archivo, mรกs probable es que pierda calidad.
  • IQ2_M existe para casos de memoria muy limitada. Puede repetir contenido, fallar con mรกs frecuencia o producir respuestas de menor calidad.
  • Estas pruebas no miden factualidad, sesgos, seguridad, razonamiento ni calidad por tarea.
  • Antes de usarlo en producciรณn, evalรบalo con tus propios datos y casos de uso.
  • No debe usarse como รบnica base para tomar decisiones en salud, finanzas, justicia, seguridad pรบblica, educaciรณn, empleo u otros contextos sensibles.
  • Este repositorio no incluye filtros de seguridad, monitoreo, RAG ni controles adicionales propios de una aplicaciรณn.

para quรฉ sirve

  • Probar LatamGPT localmente con GGUF.
  • Crear prototipos o demostraciones con llama.cpp y herramientas compatibles.
  • Comparar cuantizaciones con tus propios prompts.
  • Revisar o reproducir el proceso de conversiรณn y cuantizaciรณn.

usos no recomendados sin trabajo adicional

  • Como reemplazo de evaluaciones rigurosas.
  • Como sistema listo para producciรณn sin controles adicionales.
  • Como evidencia de que LatamGPT supera a otros modelos. Esas evaluaciones estรกn pendientes.

datos de calibraciรณn

Estos datos se usaron รบnicamente para generar la matriz de importancia de la cuantizaciรณn. No son datos de evaluaciรณn y, por sรญ solos, no permiten inferir la calidad final del modelo.

Fuente Registros
CohereForAI/aya_dataset 600
FreedomIntelligence/alpaca-gpt4-spanish 200
HuggingFaceH4/ultrachat_200k 200
Idioma Registros
spa 400
por 200
eng 400

Total de registros de calibraciรณn: 1000. Total de caracteres de calibraciรณn: 1750246.

fuentes

agradecimientos

El modelo original, la direcciรณn del proyecto, el trabajo de datos y la colaboraciรณn regional son de LatamGPT y sus colaboradores.

LatamGPT es coordinado por CENIA. Segรบn las preguntas frecuentes oficiales, el proyecto involucra a casi 200 profesionales y mรกs de 65 instituciones de 15 paรญses. Este repositorio no busca reemplazar el trabajo original ni presentarlo como propio. Solo publica una versiรณn GGUF no oficial para facilitar pruebas con herramientas compatibles.

Tambiรฉn se basa en:

  • El checkpoint original de LatamGPT.
  • Meta Llama 3.1 y sus tรฉrminos de licencia.
  • llama.cpp y el ecosistema GGUF.
  • Los conjuntos de datos pรบblicos usados para calibraciรณn, listados arriba y en metadata/latamgpt_calibration_manifest.json.

notas tรฉcnicas

  • El checkpoint original tenรญa config.vocab_size=128256, longitud del tokenizer 128257 e ID del token PAD 128256.
  • La versiรณn publicada usa vocab_size=128257 y una fila adicional de ceros en model.embed_tokens.weight y lm_head.weight para que el tokenizer, la configuraciรณn y los tensores queden alineados.
  • La configuraciรณn fuente genera una advertencia de RoPE en Transformers porque original_max_position_embeddings es igual a max_position_embeddings en 4096.
  • El conversor GGUF informรณ sobre un token separador desconocido <|begin_of_text|> en TemplateProcessing<pair>.

licencia

El modelo fuente estรก marcado como license:llama3.1. Aplican los tรฉrminos y restricciones de uso de Llama 3.1.

Esta publicaciรณn solo redistribuye derivados cuantizados en formato GGUF del checkpoint de LatamGPT. No cambia la licencia del modelo fuente, los requisitos de atribuciรณn ni las obligaciones asociadas a LatamGPT o a Llama 3.1.

Consulta tambiรฉn:

Downloads last month
2,597
GGUF
Model size
71B params
Architecture
llama
Hardware compatibility
Log In to add your hardware

2-bit

3-bit

4-bit

5-bit

6-bit

8-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support

Model tree for jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF

Quantized
(5)
this model