adicionando quantização fp16 do modelo

by eduardoworrel - opened 9 days ago

base: refs/heads/main

←

from: refs/pr/2

Discussion Files changed

-0

eduardoworrel

9 days ago

•

edited 9 days ago

feat: add ONNX fp16 variant for transformers.js v4 WebGPU

O que muda

Adiciona onnx/model_fp16.onnx (207 MB) ao repo.
Já existe onnx/model_quantized.onnx (int8, 109 MB) e este PR não o altera.

arquivo	dtype	tamanho	backend transformers.js v4
`onnx/model_fp16.onnx`	fp16	207 MB	WebGPU (default)
`onnx/model_quantized.onnx`	int8	109 MB	WASM (default)

Por que

FP16 mantém a precisão de ponto flutuante e gera resultados muito próximos ao modelo original, enquanto INT8 economiza mais memória e processamento, mas pode introduzir perdas perceptíveis de qualidade.

Como foi gerado

# via optimum 1.27 + onnxruntime 1.19
optimum-cli export onnx --model lucianfialho/atos-de-fala-ptbr \
  --task token-classification ./onnx_base

# fp16 (onnxconverter_common.float16)
python -c "
import onnx
from onnxconverter_common import float16
m = onnx.load('./onnx_base/model.onnx')
onnx.save(float16.convert_float_to_float16(m, keep_io_types=True),
          './onnx/model_fp16.onnx')
"

eduardoworrel changed pull request title from adicionando outras quantizações do modelo to adicionando quantização f16 do modelo 9 days ago

feat: add ONNX fp16 variant for transformers.js v4 WebGPU9728cb86

eduardoworrel changed pull request title from adicionando quantização f16 do modelo to adicionando quantização fp16 do modelo 9 days ago

eduardoworrel changed pull request status to open 9 days ago

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

Ready to merge

This branch is ready to get merged automatically.

· Sign up or log in to comment