File size: 9,664 Bytes
b211bf8
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
---
license: mit
language:
- en
- ru
base_model: WeiboAI/VibeThinker-3B
tags:
- math
- code
- reasoning
- gpqa
- instruction-following
- gguf
- llama.cpp
pipeline_tag: text-generation
---

# KakTakOne/VibeThinker-3B-GGUF

This repository contains GGUF format model files for [WeiboAI/VibeThinker-3B](https://huggingface.co/WeiboAI/VibeThinker-3B).

VibeThinker-3B is a 3-billion-parameter dense reasoning model designed for verifiable reasoning tasks like mathematics, competitive programming, and STEM.

<details>
<summary><b>Читать описание на русском языке (Russian Description)</b></summary>

# KakTakOne/VibeThinker-3B-GGUF

В этом репозитории содержатся файлы моделей в формате GGUF для [WeiboAI/VibeThinker-3B](https://huggingface.co/WeiboAI/VibeThinker-3B).

VibeThinker-3B — это модель рассуждений (reasoning model) с 3 миллиардами параметров, сфокусированная на сложных задачах рассуждения с проверяемыми результатами, таких как математика, программирование и STEM.

## Доступные кванты

| Имя файла | Тип кванта | Размер файла | Ссылка |
| --- | --- | --- | --- |
| [VibeThinker-3B-f16.gguf](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/blob/main/VibeThinker-3B-f16.gguf) | FP16 | 6.18 ГБ | [Скачать](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/resolve/main/VibeThinker-3B-f16.gguf?download=true) |
| [VibeThinker-3B-Q8_0.gguf](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/blob/main/VibeThinker-3B-Q8_0.gguf) | Q8_0 | 3.29 ГБ | [Скачать](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/resolve/main/VibeThinker-3B-Q8_0.gguf?download=true) |
| [VibeThinker-3B-Q5_K_M.gguf](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/blob/main/VibeThinker-3B-Q5_K_M.gguf) | Q5_K_M | 2.22 ГБ | [Скачать](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/resolve/main/VibeThinker-3B-Q5_K_M.gguf?download=true) |
| [VibeThinker-3B-Q4_K_M.gguf](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/blob/main/VibeThinker-3B-Q4_K_M.gguf) | Q4_K_M | 1.93 ГБ | [Скачать](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/resolve/main/VibeThinker-3B-Q4_K_M.gguf?download=true) |

---

## Введение

VibeThinker-3B продолжает развитие серии моделей рассуждения VibeThinker на масштабе 3 миллиардов параметров. Благодаря оптимизации пайплайна обучения Spectrum-to-Signal Principle (SSP), модель демонстрирует выдающиеся результаты на бенчмарках AIME, HMMT, IMO-AnswerBench, LiveCodeBench и недавних контестах LeetCode, приближаясь по качеству к флагманским коммерческим моделям рассуждения вроде Qwen3.6 Plus, Gemini 3 Pro, GLM-5 и Kimi K2.5.

## Ключевые показатели производительности

* 📏 Модель набирает **76.4** на сложном бенчмарке IMO-AnswerBench (400 олимпиадных задач уровня IMO) с использованием всего 3 млрд параметров, и улучшает результат до **80.6** с применением CLR (Claim-Level Reliability Assessment) на этапе инференса. Это сопоставимо с показателями гораздо более крупных моделей, таких как DeepSeek V3.2 (78.3, 671B), GLM-5 (82.5, 744B) и Kimi K2.5 (81.8, 1T).
* 🏆 На еженедельных и двухнедельных соревнованиях LeetCode (Python) за период с 25 апреля по 31 мая 2026 года модель успешно прошла **123 из 128** тестов с первой попытки (доля успешных решений составляет **96.1%**).

## Пайплайн обучения

Обучение VibeThinker-3B основано на методологии **Spectrum-to-Signal Principle (SSP)**:
1. **Curriculum SFT в два этапа**: сначала общая кодовая и математическая база, затем сложные рассуждения с длинным контекстом.
2. **Multi-domain RL** с алгоритмом MaxEnt-Guided Policy Optimization (MGPO) в окне контекста 64K.
3. **Офлайн дистилляция на себя (Self-Distillation)** для отбора лучших траекторий рассуждений.
4. **Instruct RL** для улучшения управляемости и форматирования ответов под пользователя.

---

## Как использовать

Эти файлы GGUF можно запускать в **LM Studio**, **Ollama**, **llama.cpp** и других совместимых клиентах.

### LM Studio
Просто вбей в строку поиска `KakTakOne/VibeThinker-3B-GGUF` и скачай нужный квант.

### Запуск через консоль (llama.cpp)
```bash
llama-cli -m VibeThinker-3B-Q4_K_M.gguf -p "2+2=" -n 128
```

</details>

---

## Available Quantizations

| File Name | Quant Type | File Size | File Link |
| --- | --- | --- | --- |
| [VibeThinker-3B-f16.gguf](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/blob/main/VibeThinker-3B-f16.gguf) | FP16 | 6.18 GB | [Download](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/resolve/main/VibeThinker-3B-f16.gguf?download=true) |
| [VibeThinker-3B-Q8_0.gguf](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/blob/main/VibeThinker-3B-Q8_0.gguf) | Q8_0 | 3.29 GB | [Download](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/resolve/main/VibeThinker-3B-Q8_0.gguf?download=true) |
| [VibeThinker-3B-Q5_K_M.gguf](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/blob/main/VibeThinker-3B-Q5_K_M.gguf) | Q5_K_M | 2.22 GB | [Download](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/resolve/main/VibeThinker-3B-Q5_K_M.gguf?download=true) |
| [VibeThinker-3B-Q4_K_M.gguf](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/blob/main/VibeThinker-3B-Q4_K_M.gguf) | Q4_K_M | 1.93 GB | [Download](https://huggingface.co/KakTakOne/VibeThinker-3B-GGUF/resolve/main/VibeThinker-3B-Q4_K_M.gguf?download=true) |

---

## Introduction

VibeThinker-3B is a further exploration of the VibeThinker series at the 3B-parameter scale, focusing on challenging reasoning tasks with clear verification signals, such as mathematics, coding, and STEM. By systematically optimizing the Spectrum-to-Signal Principle (SSP) post-training pipeline introduced in VibeThinker-1.5B, VibeThinker-3B achieves strong performance on AIME, HMMT, IMO-AnswerBench, LiveCodeBench, and recent LeetCode contests, reaching the performance range of top-tier frontier reasoning models, including Qwen3.6 Plus, Gemini 3 Pro, GLM-5, and Kimi K2.5, on verifiable reasoning benchmarks.

## Key Performance Data

* 📏 In terms of reasoning accuracy relative to model scale, VibeThinker-3B reaches **76.4** on IMO-AnswerBench, a highly challenging benchmark with 400 IMO-level problems, with only 3B parameters, and improves to **80.6** with Claim-Level Reliability Assessment (CLR), a test-time scaling strategy. This demonstrates that a model within a strictly small-model regime can reach the performance range of substantially larger models, such as DeepSeek V3.2 (78.3, 671B), GLM-5 (82.5, 744B), and Kimi K2.5 (81.8, 1T).
* 🏆 To further test the model's out-of-distribution performance, it was evaluated on recent unseen LeetCode weekly and biweekly contests (Python) from Apr. 25 to May 31, 2026. VibeThinker-3B passes **123/128** first-attempt submissions, corresponding to a **96.1%** acceptance rate.

## Training Pipeline

VibeThinker-3B follows the **Spectrum-to-Signal Principle (SSP)**. The SFT stage constructs a broad spectrum of valid reasoning trajectories, while the RL stage amplifies correct reasoning signals using verifiable rewards:

1. **Curriculum-based two-stage SFT** (Stage 1: broad capability coverage, Stage 2: harder/longer samples).
2. **Multi-domain Reasoning RL** using MaxEnt-Guided Policy Optimization (MGPO) with a 64K context window.
3. **Offline Self-Distillation** using a learning-potential score to distill high-quality trajectories back into a student model.
4. **Instruct RL** to improve format controllability on user-facing prompts.

---

## How to use

You can load these GGUF files in **LM Studio**, **Ollama**, **llama.cpp**, or any other GGUF-compatible inference engine.

### LM Studio
Search for `KakTakOne/VibeThinker-3B-GGUF` directly in LM Studio search bar and download the desired quantization.

### CLI (llama.cpp)
```bash
llama-cli -m VibeThinker-3B-Q4_K_M.gguf -p "2+2=" -n 128
```

## Citations & References

```bibtex
@misc{xu2026vibethinker3bexploringfrontierverifiable,
      title={VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models}, 
      author={Sen Xu and Shixi Liu and Wei Wang and Jixin Min and Yingwei Dai and Zhibin Yin and Yirong Chen and Xin Zhou and Junlin Zhang},
      year={2026},
      eprint={2606.16140},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2606.16140}, 
}
```

---
*Quantized by [KakTakOne](https://huggingface.co/KakTakOne) using `llama-quantize`.*