Edit Models filters

Model Tree

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

295

Base only

Active filters: cuda

prism-ml/Ternary-Bonsai-27B-gguf

Text Generation • 4B • Updated about 24 hours ago • 302k • • 748

prism-ml/Bonsai-27B-gguf

Text Generation • 4B • Updated 1 day ago • 1.22M • 450

prism-ml/Bonsai-27B-mlx-1bit

Text Generation • 2B • Updated 4 days ago • 20.6k • 127

prism-ml/Ternary-Bonsai-27B-mlx-2bit

Text Generation • 3B • Updated 4 days ago • 17.1k • 114

prism-ml/Bonsai-8B-gguf

Text Generation • 8B • Updated Apr 18 • 22.5k • 752

prism-ml/bonsai-image-binary-4B-gemlite-1bit

Text-to-Image • Updated Jun 1 • 419 • 46

prism-ml/bonsai-image-ternary-4B-gemlite-2bit

Text-to-Image • Updated Jun 1 • 3.91k • 128

prism-ml/Bonsai-1.7B-gguf

Text Generation • 2B • Updated Apr 18 • 11k • 79

prism-ml/Bonsai-4B-gguf

Text Generation • 4B • Updated Apr 18 • 10.5k • 52

maczzzzzz/ThinkingCap-Qwen3.6-27B-TQ3_4S-GGUF

27B • Updated 7 days ago • 331 • 2

ussoewwin/Flash-Attention-2_for_Windows

Updated about 23 hours ago • 120

Hellohal2064/vllm-dgx-spark-gb10

Text Generation • Updated Jan 6 • 7

atomicmilkshake/llama-cpp-turboquant-binaries

Updated Apr 8 • 12

younghan-meta/Voxtral-4B-TTS-2603-ExecuTorch-CUDA

Text-to-Speech • Updated Apr 24 • 16 • 1

maczzzzzz/Tess-4-27B-TQ3_4S-GGUF

27B • Updated 7 days ago • 277 • 1

kevinindustries/kevin-k2

Updated 3 days ago • 2

petr567/Ornith-1.0-35B-MTP-Strix-Halo-Hybrid-GGUF

Text Generation • 36B • Updated 32 minutes ago • 2

elinas/chronos-13b-4bit

Text Generation • Updated Jun 23, 2023 • 11 • 23

CalderaAI/13B-Ouroboros-GPTQ4bit-128g-CUDA

Text Generation • Updated Jul 20, 2023 • 4

marcorez8/llama-cpp-python-windows-blackwell-cuda

Updated Jun 2, 2025 • 4

Prince-1/sarvam-m-onnx

Updated Jun 14, 2025 • 1

ValiantLabs/Qwen3-8B-ShiningValiant3

Text Generation • 8B • Updated Dec 9, 2025 • 7 • 3

mradermacher/Qwen3-8B-ShiningValiant3-GGUF

8B • Updated Jul 8, 2025 • 635 • 2

mradermacher/Qwen3-8B-ShiningValiant3-i1-GGUF

8B • Updated Jul 11, 2025 • 403 • 2

ValiantLabs/Qwen3-1.7B-ShiningValiant3

Text Generation • 2B • Updated Dec 9, 2025 • 18 • • 5

mradermacher/Qwen3-1.7B-ShiningValiant3-GGUF

2B • Updated Jul 11, 2025 • 128

mradermacher/Qwen3-1.7B-ShiningValiant3-i1-GGUF

2B • Updated Jul 11, 2025 • 220

ValiantLabs/Qwen3-4B-ShiningValiant3

Text Generation • 4B • Updated Dec 9, 2025 • 51 • • 7

sequelbox/Qwen3-8B-PlumEsper

Text Generation • 8B • Updated Jul 14, 2025 • 6

sequelbox/Qwen3-4B-PlumEsper

Text Generation • 4B • Updated Jul 15, 2025 • 6