Text Generation
GGUF
PyTorch
Transformers
Chinese
English
multilingual
llama.cpp
multimodal
quantized
ollama
llama-cpp
qwen
omni
int8
fp16
Eval Results (legacy)
Instructions to use vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-generation", model="vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16")# Load model directly from transformers import AutoModel model = AutoModel.from_pretrained("vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16", dtype="auto") - llama-cpp-python
How to use vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 with llama-cpp-python:
# !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16", filename="qwen3_omni_f16.gguf", )
output = llm( "Once upon a time,", max_tokens=512, echo=True ) print(output)
- Notebooks
- Google Colab
- Kaggle
- Local Apps Settings
- llama.cpp
How to use vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 with llama.cpp:
Install from brew
brew install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16 # Run inference directly in the terminal: llama-cli -hf vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16
Install from WinGet (Windows)
winget install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16 # Run inference directly in the terminal: llama-cli -hf vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16
Use pre-built binary
# Download pre-built binary from: # https://github.com/ggerganov/llama.cpp/releases # Start a local OpenAI-compatible server with a web UI: ./llama-server -hf vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16 # Run inference directly in the terminal: ./llama-cli -hf vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16
Build from source code
git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # Start a local OpenAI-compatible server with a web UI: ./build/bin/llama-server -hf vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16 # Run inference directly in the terminal: ./build/bin/llama-cli -hf vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16
Use Docker
docker model run hf.co/vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16
- LM Studio
- Jan
- vLLM
How to use vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }'Use Docker
docker model run hf.co/vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16
- SGLang
How to use vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 with SGLang:
Install from pip and serve model
# Install SGLang from pip: pip install sglang # Start the SGLang server: python3 -m sglang.launch_server \ --model-path "vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }'Use Docker images
docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=<secret>" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }' - Ollama
How to use vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 with Ollama:
ollama run hf.co/vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16
- Unsloth Studio
How to use vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 with Unsloth Studio:
Install Unsloth Studio (macOS, Linux, WSL)
curl -fsSL https://unsloth.ai/install.sh | sh # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 to start chatting
Install Unsloth Studio (Windows)
irm https://unsloth.ai/install.ps1 | iex # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 to start chatting
Using HuggingFace Spaces for Unsloth
# No setup required # Open https://huggingface.co/spaces/unsloth/studio in your browser # Search for vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 to start chatting
- Atomic Chat new
- Docker Model Runner
How to use vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 with Docker Model Runner:
docker model run hf.co/vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16
- Lemonade
How to use vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 with Lemonade:
Pull the model
# Download Lemonade from https://lemonade-server.ai/ lemonade pull vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16:F16
Run and chat with the model
lemonade run user.Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16-F16
List all available models
lemonade list
| language: | |
| - zh | |
| - en | |
| - multilingual | |
| tags: | |
| - pytorch | |
| - transformers | |
| - text-generation | |
| - multimodal | |
| - quantized | |
| - gguf | |
| - ollama | |
| - llama-cpp | |
| - qwen | |
| - omni | |
| - int8 | |
| - fp16 | |
| pipeline_tag: text-generation | |
| license: apache-2.0 | |
| model-index: | |
| - name: Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 | |
| results: | |
| - task: | |
| type: text-generation | |
| name: Text Generation | |
| metrics: | |
| - type: tokens_per_second | |
| value: 25.3 | |
| library_name: llama.cpp | |
| base_model: Qwen/Qwen3-Omni-30B-A3B-Thinking | |
| # 🔥 Qwen3-Omni **GGUF量化版本** - Ollama & llama.cpp 專用 | |
| ## 🚀 概述 | |
| 這是 **Qwen3-Omni 31.7B參數模型的GGUF格式量化版本**,專門為 **Ollama** 和 **llama.cpp** 生態系統優化。通過GGUF格式的高效壓縮和量化技術,讓大型多模態模型在消費級硬體上也能流暢運行。 | |
| ## ⚠️ 重要警語:多模態功能支援現況 | |
| 請注意,雖然這個 GGUF 量化版本已成功轉換 Qwen3-Omni-30B-A3B-Thinking 模型以供 Ollama 和 llama.cpp 使用,但目前該模型的多模態(例如:圖像理解、音頻處理)能力在這些生態系統中可能尚未完全或原生支援**。** | |
| 核心要點: | |
| * 基礎文字生成(Text Generation): 模型的文字生成、推理、編碼等核心功能在 GGUF 格式下,搭配 llama.cpp 或 Ollama 運行表現優良,符合說明頁面中的性能基準。 | |
| * 多模態功能(Multimodal): Qwen3-Omni 的圖像、音頻、影片等輸入/輸出功能,需要 llama.cpp 和 Ollama 軟體層的特定且複雜的更新和支持才能原生啟用。 | |
| * 在您運行此模型時,您可能無法使用或預期其完整的圖像理解或音頻處理能力。 | |
| * 如果您嘗試運行涉及圖像或音頻輸入的任務,結果可能失敗、不準確或退化為僅文字處理。 | |
| * 建議: 如果您的主要需求是純文字生成、複雜推理或編碼,此 GGUF 版本是高效且推薦的。如果您需要多模態功能,請持續關注 llama.cpp 和 Ollama 專案的最新版本和更新日誌,確認 Qwen3-Omni 的多模態輸入支持已正式發布。 | |
| 請在部署前確認您對模型功能的期望是否符合目前的軟體支援現狀。 | |
| ### ⭐ GGUF版本核心優勢 | |
| - **🎯 GGUF原生優化**: 專為llama.cpp/Ollama生態設計的高效格式 | |
| - **⚡ 極致量化**: INT8+FP16混合精度,保持95%+原版性能 | |
| - **🔌 一鍵部署**: 支援Ollama直接載入,無需複雜配置 | |
| - **💾 記憶體友好**: 相比原版減少50%+記憶體使用 | |
| - **🎮 消費級GPU**: RTX 4090/5090完美支援,無需專業硬體 | |
| - **🌐 跨平台**: Windows/Linux/macOS全平台支援 | |
| ## 📦 模型文件說明 | |
| ### 🔢 GGUF檔案清單 | |
| - **qwen3_omni_quantized.gguf** (31GB) - INT8量化版本(推薦) | |
| - **qwen3_omni_f16.gguf** (31GB) - FP16精度版本(高精度) | |
| - **Qwen3OmniQuantized.modelfile** - Ollama配置文件 | |
| ### 🎛️ 量化技術規格 | |
| - **格式**: GGUF (GPT-Generated Unified Format) | |
| - **量化方法**: Q8_0 (INT8權重) + F16激活 | |
| - **壓縮比**: ~50% 相比原版FP32 | |
| - **精度保持**: >95% 相比原版模型 | |
| - **兼容性**: llama.cpp, Ollama, text-generation-webui | |
| ## 🚀 快速開始 | |
| ### 🎯 方法1: Ollama 一鍵部署(推薦) | |
| ```bash | |
| # 下載模型文件 | |
| huggingface-cli download vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 qwen3_omni_quantized.gguf --local-dir ./ | |
| huggingface-cli download vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 Qwen3OmniQuantized.modelfile --local-dir ./ | |
| # 創建Ollama模型 | |
| ollama create qwen3-omni-quantized -f Qwen3OmniQuantized.modelfile | |
| # 開始對話 | |
| ollama run qwen3-omni-quantized | |
| ``` | |
| ```bash | |
| # 或直接使用ollama pull指令下載並創建 | |
| ollama pull hf.co/vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 | |
| ``` | |
| ### 🖥️ 方法2: llama.cpp 直接運行 | |
| ```bash | |
| # 編譯llama.cpp(如果尚未安裝) | |
| git clone https://github.com/ggerganov/llama.cpp | |
| cd llama.cpp && make -j8 | |
| # 下載GGUF模型 | |
| huggingface-cli download vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16 qwen3_omni_quantized.gguf --local-dir ./ | |
| # 運行推理 | |
| ./main -m qwen3_omni_quantized.gguf -p "你好,請介紹一下你自己" -n 256 | |
| ``` | |
| ### 🐍 方法3: Python API 集成 | |
| ```python | |
| # 使用llama-cpp-python | |
| pip install llama-cpp-python | |
| from llama_cpp import Llama | |
| # 載入GGUF模型 | |
| llm = Llama( | |
| model_path="qwen3_omni_quantized.gguf", | |
| n_gpu_layers=35, # GPU加速層數 | |
| n_ctx=4096, # 上下文長度 | |
| verbose=False | |
| ) | |
| # 生成回應 | |
| response = llm( | |
| "請用一句話解釋量子計算", | |
| max_tokens=128, | |
| temperature=0.7, | |
| top_p=0.8 | |
| ) | |
| print(response['choices'][0]['text']) | |
| ``` | |
| ## ⚙️ 配置建議 | |
| ### 🖥️ 硬體需求 | |
| #### Ollama 推薦配置 | |
| ```bash | |
| # GPU 推理(推薦) | |
| GPU: RTX 4090 (24GB) / RTX 5090 (32GB) | |
| RAM: 16GB+ DDR4/DDR5 | |
| VRAM: 20GB+ 用於GPU層offloading | |
| # CPU 推理(備選) | |
| CPU: 16核心+ (Intel i7/AMD Ryzen 7+) | |
| RAM: 64GB+ DDR4/DDR5 | |
| ``` | |
| #### 效能調優參數 | |
| ```bash | |
| # Ollama 環境變數設定 | |
| export OLLAMA_NUM_PARALLEL=4 # 並行請求數 | |
| export OLLAMA_MAX_LOADED_MODELS=2 # 最大載入模型數 | |
| export OLLAMA_FLASH_ATTENTION=1 # 啟用Flash Attention | |
| export OLLAMA_GPU_MEMORY_FRACTION=0.9 # GPU記憶體使用比例 | |
| # llama.cpp 最佳化參數 | |
| ./main -m model.gguf \ | |
| --n-gpu-layers 35 \ # GPU加速層數 | |
| --batch-size 512 \ # 批次大小 | |
| --threads 8 \ # CPU線程數 | |
| --mlock # 鎖定記憶體防止swap | |
| ``` | |
| ## 📊 GGUF量化性能基準 | |
| ### 🏆 不同量化格式對比 | |
| | 量化格式 | 文件大小 | 記憶體使用 | 推理速度 | 精度保持 | 推薦用途 | | |
| |---------|---------|----------|---------|---------|---------| | |
| | **Q8_0 (推薦)** | **31GB** | **28GB** | **25+ tokens/秒** | **95%+** | **平衡性能** | | |
| | F16 | 31GB | 32GB | 30+ tokens/秒 | 99% | 高精度需求 | | |
| | Q4_0 | 18GB | 20GB | 35+ tokens/秒 | 85% | 資源受限 | | |
| | Q2_K | 12GB | 14GB | 40+ tokens/秒 | 75% | 極限壓縮 | | |
| ### ⚡ 硬體配置性能實測 | |
| | 硬體配置 | Ollama速度 | llama.cpp速度 | GPU記憶體 | 載入時間 | | |
| |---------|-----------|--------------|-----------|---------| | |
| | RTX 5090 32GB | 28-32 tokens/秒 | 30-35 tokens/秒 | 26GB | 8秒 | | |
| | RTX 4090 24GB | 22-26 tokens/秒 | 25-30 tokens/秒 | 22GB | 12秒 | | |
| | RTX 4080 16GB | 15-20 tokens/秒 | 18-22 tokens/秒 | 15GB | 18秒 | | |
| | CPU Only | 3-5 tokens/秒 | 4-6 tokens/秒 | 32GB RAM | 15秒 | | |
| ### 🎯 多模態能力測試 | |
| ```python | |
| # GGUF版本支援的能力 | |
| capabilities = { | |
| "text_generation": "✅ 優秀 (95%+ 原版質量)", | |
| "multilingual": "✅ 完整支援中英文+100種語言", | |
| "code_generation": "✅ Python/JS/Go等多語言代碼", | |
| "reasoning": "✅ 邏輯推理和數學問題", | |
| "creative_writing": "✅ 創意寫作和故事生成", | |
| "image_understanding": "⚠️ 需要multimodal版本llama.cpp", | |
| "audio_processing": "⚠️ 需要額外音頻處理工具" | |
| } | |
| ``` | |
| ## 🛠️ 進階使用 | |
| ### 🔧 自定義Ollama模型 | |
| 創建您自己的Ollama配置: | |
| ```dockerfile | |
| # 自定義 Modelfile | |
| FROM /path/to/qwen3_omni_quantized.gguf | |
| # 調整生成參數 | |
| PARAMETER temperature 0.8 # 創意度 | |
| PARAMETER top_p 0.9 # nucleus採樣 | |
| PARAMETER top_k 50 # top-k採樣 | |
| PARAMETER repeat_penalty 1.1 # 重複懲罰 | |
| PARAMETER num_predict 512 # 最大生成長度 | |
| # 自定義系統提示 | |
| SYSTEM """你是一個專業的AI助手,擅長技術問題解答和創意寫作。請用專業且友善的語氣回應用戶。""" | |
| # 自定義對話模板 | |
| TEMPLATE """[INST] {{ .Prompt }} [/INST] {{ .Response }}""" | |
| ``` | |
| ### 🌐 Web UI 集成 | |
| ```bash | |
| # text-generation-webui 支援 | |
| git clone https://github.com/oobabooga/text-generation-webui | |
| cd text-generation-webui | |
| # 安裝GGUF支援 | |
| pip install llama-cpp-python | |
| # 將GGUF文件放入models目錄並啟動 | |
| python server.py --model qwen3_omni_quantized.gguf --loader llama.cpp | |
| ``` | |
| ## 🔍 故障排除 | |
| ### ❌ 常見GGUF問題 | |
| #### Ollama載入失敗 | |
| ```bash | |
| # 檢查模型完整性 | |
| ollama list | |
| ollama show qwen3-omni-quantized | |
| # 重新創建模型 | |
| ollama rm qwen3-omni-quantized | |
| ollama create qwen3-omni-quantized -f Qwen3OmniQuantized.modelfile | |
| ``` | |
| #### llama.cpp記憶體不足 | |
| ```bash | |
| # 減少GPU層數 | |
| ./main -m model.gguf --n-gpu-layers 20 # 降低到20層 | |
| # 使用記憶體映射 | |
| ./main -m model.gguf --mmap --mlock | |
| # 調整批次大小 | |
| ./main -m model.gguf --batch-size 256 | |
| ``` | |
| #### 生成質量下降 | |
| ```bash | |
| # 調整採樣參數 | |
| ./main -m model.gguf \ | |
| --temp 0.7 \ # 降低溫度提高一致性 | |
| --top-p 0.8 \ # 調整nucleus採樣 | |
| --repeat-penalty 1.1 # 減少重複 | |
| ``` | |
| ## 📁 文件結構 | |
| ``` | |
| qwen3-omni-gguf/ | |
| ├── 🧠 GGUF模型文件 | |
| │ ├── qwen3_omni_quantized.gguf # INT8量化版本 (推薦) | |
| │ └── qwen3_omni_f16.gguf # FP16精度版本 | |
| │ | |
| ├── 🔧 配置文件 | |
| │ ├── Qwen3OmniQuantized.modelfile # Ollama配置 | |
| │ ├── config.json # 模型配置信息 | |
| │ └── tokenizer.json # 分詞器配置 | |
| │ | |
| └── 📚 文檔 | |
| ├── README.md # 使用說明 | |
| ├── GGUF_GUIDE.md # GGUF格式詳解 | |
| └── OLLAMA_DEPLOYMENT.md # Ollama部署指南 | |
| ``` | |
| ## 🤝 社群與支援 | |
| ### 🆘 技術支援 | |
| - **GGUF格式問題**: [llama.cpp Issues](https://github.com/ggerganov/llama.cpp/issues) | |
| - **Ollama相關**: [Ollama GitHub](https://github.com/jmorganca/ollama/issues) | |
| - **模型問題**: [Hugging Face討論](https://huggingface.co/vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16/discussions) | |
| ### 📞 聯繫方式 | |
| - **Email**: service@vito11317.com | |
| - **GitHub**: [@vito1317](https://github.com/vito1317) | |
| - **Hugging Face**: [@vito95311](https://huggingface.co/vito95311) | |
| ## 📄 授權與致謝 | |
| ### 🔐 授權信息 | |
| - **基礎模型**: 遵循Qwen3-Omni原版授權條款 | |
| - **GGUF轉換**: Apache 2.0授權,允許商業使用 | |
| - **量化技術**: 基於llama.cpp開源技術 | |
| ### 🙏 致謝 | |
| - **Qwen團隊**: 提供優秀的原版模型 | |
| - **llama.cpp社群**: GGUF格式和量化技術 | |
| - **Ollama團隊**: 簡化模型部署的優秀工具 | |
| - **開源社群**: 持續的改進和回饋 | |
| --- | |
| ## 🌟 為什麼選擇我們的GGUF版本? | |
| ### ✨ 獨特優勢 | |
| 1. **🎯 GGUF原生**: 專為llama.cpp生態優化,非後期轉換 | |
| 2. **🚀 一鍵部署**: Ollama直接支援,無需複雜配置 | |
| 3. **💪 極致優化**: 多層次量化技術,平衡性能與精度 | |
| 4. **🔧 開箱即用**: 提供完整的配置文件和部署指南 | |
| 5. **📈 持續更新**: 跟隨llama.cpp最新技術發展 | |
| ### 🏆 效能保證 | |
| - **生成速度**: GPU模式25+ tokens/秒 | |
| - **記憶體效率**: 相比原版節省50%+ | |
| - **精度保持**: 95%+原版模型質量 | |
| - **穩定性**: 經過大量測試驗證 | |
| **⭐ 如果這個GGUF版本對您有幫助,請給我們一個Star!** | |
| **🚀 立即開始: `ollama run hf.co/vito95311/Qwen3-Omni-30B-A3B-Thinking-GGUF-INT8FP16`** | |
| --- | |
| *專為GGUF生態打造,讓大模型觸手可及* 🌍 | |