adicionando quantização fp16 do modelo

#2

feat: add ONNX fp16 variant for transformers.js v4 WebGPU

O que muda

Adiciona onnx/model_fp16.onnx (207 MB) ao repo.
Já existe onnx/model_quantized.onnx (int8, 109 MB) e este PR não o altera.

arquivo dtype tamanho backend transformers.js v4
onnx/model_fp16.onnx fp16 207 MB WebGPU (default)
onnx/model_quantized.onnx int8 109 MB WASM (default)

Por que

FP16 mantém a precisão de ponto flutuante e gera resultados muito próximos ao modelo original, enquanto INT8 economiza mais memória e processamento, mas pode introduzir perdas perceptíveis de qualidade.

Como foi gerado

# via optimum 1.27 + onnxruntime 1.19
optimum-cli export onnx --model lucianfialho/atos-de-fala-ptbr \
  --task token-classification ./onnx_base

# fp16 (onnxconverter_common.float16)
python -c "
import onnx
from onnxconverter_common import float16
m = onnx.load('./onnx_base/model.onnx')
onnx.save(float16.convert_float_to_float16(m, keep_io_types=True),
          './onnx/model_fp16.onnx')
"
eduardoworrel changed pull request title from adicionando outras quantizações do modelo to adicionando quantização f16 do modelo
eduardoworrel changed pull request title from adicionando quantização f16 do modelo to adicionando quantização fp16 do modelo
eduardoworrel changed pull request status to open
Ready to merge
This branch is ready to get merged automatically.

Sign up or log in to comment