# Trích Xuất SVD Chênh Lệch Trọng Số: Phương Pháp Phổ Quát

## Cách tạo Bộ Điều Hợp LoRA từ Chênh Lệch Trọng Số giữa Hai Mô Hình

Kỹ thuật này hoạt động với **bất kỳ kiến trúc LLM nào** có hai bộ điều hợp được huấn luyện từ cùng một mô hình cơ sở.
Không cần GPU, không cần dữ liệu huấn luyện, chạy trong 1-3 phút trên CPU.

```
    Mô hình A (merged LoRA)        Mô hình B (merged LoRA)
         │                                │
         └──────────┬─────────────────────┘
                    │ W_B - W_A = Δ
                    ▼
              SVD Cắt Cụt (hạng r)
                    │
                    ▼
         Bộ Điều Hợp LoRA A→B (7 MB)
```

---

## 1. Điều Kiện

✅ Hoạt động khi:
- Cả hai mô hình dùng chung **cùng kiến trúc cơ sở và trọng số cơ sở** (cùng commit hash)
- Cả hai mô hình được huấn luyện bằng **LoRA + merge** (không phải full fine-tune)
- Tên tensor khớp nhau trên cả hai mô hình
- Ít nhất 4 GB RAM để tải 2 tensor cùng lúc

❌ KHÔNG hoạt động khi:
- Kiến trúc khác nhau (mô hình cơ sở khác nhau)
- Full fine-tune (chênh lệch có thể vượt quá giả định hạng thấp)
- config.json / tokenizer bị thay đổi trong quá trình fine-tune
- RAM dưới 4 GB

---

## 2. Hướng Dẫn Từng Bước

### Bước 1: Chọn Hai Mô Hình

```python
MODEL_A = "lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled"   # Nguồn
MODEL_B = "lordx64/Qwen3.6-35B-A3B-Kimi-K2.6-Reasoning-Distilled"         # Đích
```

Quy tắc: Cả hai mô hình phải có tên tensor giống hệt và config.json giống hệt.

### Bước 2: Chọn Mô-đun Mục Tiêu

Chỉ chọn các lớp tuyến tính bạn muốn trích xuất:

```python
TARGET_MODULES = ["q_proj", "k_proj", "v_proj", "o_proj"]  # chỉ attention
# hoặc
TARGET_MODULES = ["q_proj", "k_proj", "v_proj", "o_proj", 
                  "gate_proj", "up_proj", "down_proj"]      # attention + MLP
```

⚠️ **Quan trọng:** Bỏ qua tensor 3D (ví dụ: lớp chuyên gia MoE `[256, 2048, 512]`) — chúng yêu cầu SVD từng lát phức tạp hơn.

### Bước 3: Chọn Hạng LoRA

```python
RANK = 16      # tiêu chuẩn: cân bằng tốt nhất giữa kích thước và chất lượng
RANK = 8       # tối thiểu: nhỏ hơn, nhanh hơn, lỗi tái tạo cao hơn
RANK = 32      # chất lượng cao: lớn gấp 2, lỗi ít hơn ~4%
```

Mẹo: Chạy phân tích lỗi tái tạo để tìm hạng tối ưu cho trường hợp của bạn.

### Bước 4: Chạy Script Trích Xuất

```bash
python3 extract_lora_diff.py \
    --model_a lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled \
    --model_b lordx64/Qwen3.6-35B-A3B-Kimi-K2.6-Reasoning-Distilled \
    --output ./my-lora-adapter \
    --rank 16 \
    --target_modules q_proj,k_proj,v_proj,o_proj
```

### Bước 5: Sử Dụng Bộ Điều Hợp

**Python (PEFT):**
```python
from peft import PeftModel
from transformers import AutoModelForCausalLM

base = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3.6-35B-A3B")
model = PeftModel.from_pretrained(base, "./my-lora-adapter")
# mô hình bây giờ có phong cách B!
```

**llama.cpp (GGUF):**
```bash
# Chuyển đổi sang GGUF trước
python3 llama.cpp/convert_lora_to_gguf.py ./my-lora-adapter

# Chạy suy luận
llama-cli -m base-Q6_K.gguf --lora my-lora-adapter.gguf -p "lời nhắc"
```

---

## 3. Cơ Sở Toán Học

```
Cho:    M_A = W_base + Δ_A    (Mô hình A = cơ sở + LoRA A)
        M_B = W_base + Δ_B    (Mô hình B = cơ sở + LoRA B)

CL:     D = M_B - M_A = Δ_B - Δ_A    (cơ sở triệt tiêu, chỉ còn delta)

SVD:    D ≈ U_r · Σ_r · V_r^T        (xấp xỉ hạng r)

LoRA:   A = √Σ_r · V_r^T              (lora_A)
        B = U_r · √Σ_r                (lora_B)

Truyền: h = W_0·x + B·A·x             (truyền xuôi LoRA chuẩn)
```

**Tại sao nó hoạt động:**
- Cả A và B được huấn luyện với LoRA hạng r → chênh lệch của chúng có hạng ≤ 2r
- SVD ở hạng r có thể tái tạo chênh lệch gần như hoàn toàn (giữ 91-95% năng lượng)
- Không cần huấn luyện — đây là phân rã toán học thuần túy

---

## 4. Ví Dụ Cho Các Mô Hình Khác

### Llama 3.1 8B — Chuyển Đổi Phong Cách

```bash
# Hai mô hình fine-tune từ cùng cơ sở Llama-3.1-8B
MODEL_A = "user/llama3.1-8b-formal-style"      # phong cách trang trọng
MODEL_B = "user/llama3.1-8b-casual-style"       # phong cách thân mật

python3 extract_lora_diff.py \
    --model_a user/llama3.1-8b-formal-style \
    --model_b user/llama3.1-8b-casual-style \
    --output ./llama-formal-to-casual \
    --rank 16 \
    --target_modules q_proj,k_proj,v_proj,o_proj
```

### Mistral 7B — Thích Ứng Lĩnh Vực

```bash
MODEL_A = "mistralai/Mistral-7B-Instruct-v0.3"           # tổng quát
MODEL_B = "user/Mistral-7B-medical-finetuned"            # lĩnh vực y tế

python3 extract_lora_diff.py \
    --model_a mistralai/Mistral-7B-Instruct-v0.3 \
    --model_b user/Mistral-7B-medical-finetuned \
    --output ./mistral-medical-lora \
    --rank 16 \
    --target_modules q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj
```

### Qwen2.5 72B — Gỡ Bỏ An Toàn

```bash
# Trích xuất delta từ chối giữa phiên bản an toàn và không kiểm duyệt
MODEL_A = "Qwen/Qwen2.5-72B-Instruct"                   # có an toàn
MODEL_B = "user/Qwen2.5-72B-uncensored"                 # không an toàn

python3 extract_lora_diff.py \
    --model_a Qwen/Qwen2.5-72B-Instruct \
    --model_b user/Qwen2.5-72B-uncensored \
    --output ./qwen-safety-removal-lora \
    --rank 16
```

---

## 5. Tham Khảo Tham Số

| Tham số | Mặc định | Mô tả |
|-----------|---------|-------------|
| `--rank` | 16 | Hạng LoRA. Cao hơn = lớn hơn + chất lượng tốt hơn. Thấp hơn = nhỏ hơn + nhanh hơn |
| `--target_modules` | q,k,v,o_proj | Mô-đun để trích xuất. Thêm gate/up/down cho MLP |
| `--alpha` | 32 | LoRA alpha (hệ số tỉ lệ). Thường gấp 2 lần rank |
| `--skip_3d` | True | Tự động bỏ qua tensor 3D (chuyên gia MoE) |
| `--output_format` | peft | `peft` hoặc `gguf` hoặc `both` |

---

## 6. Khắc Phục Sự Cố

| Vấn đề | Nguyên nhân | Giải pháp |
|---------|-------|----------|
| `KeyError: tên tensor không khớp` | Mô hình cơ sở khác nhau | Dùng mô hình huấn luyện từ cùng cơ sở |
| `CUDA hết bộ nhớ` | Tải toàn bộ mô hình | Dùng chế độ từng-tensor (mặc định) |
| `ValueError: tensor không liên tục` | Đầu ra SVD không liên tục | Thêm `.contiguous()` trước khi lưu |
| `Chuyển đổi GGUF thất bại` | Tên tensor không khớp | PEFT dùng `.lora_A.default`, GGUF mong `.lora_A.weight` — đổi tên |
| `Hạng quá cao cho tensor` | Kích thước tensor < hạng | Giảm hạng hoặc bỏ qua tensor đó |

---

## 7. Hạn Chế

1. **Thiên lệch chỉ-attention**: Chỉ dùng lớp attention có thể bỏ lỡ thay đổi ở lớp FFN/MLP
2. **Giả định hạng thấp**: Tốt nhất với mô hình LoRA-merged; full fine-tune có thể vượt quá hạng
3. **Không đảm bảo chất lượng**: Bộ điều hợp là tái tạo toán học — không bảo đảm khớp chất lượng huấn luyện trực tiếp
4. **Chuyển đổi đơn phong cách**: Chỉ trích xuất sự khác biệt giữa 2 phong cách — cần 3+ phong cách thì tạo nhiều bộ điều hợp

---

## 8. Script Trích Xuất

`extract_lora_diff.py` (193 dòng) — script trích xuất sẵn sàng sản xuất có sẵn trong repo này.

---

## 9. Tài Liệu Tham Khảo & Ghi Công

- **Kỹ thuật:** UKA (Hermes Agent, Nous Research) & hotdogs
- **Bài báo:** [Trích Xuất SVD Chênh Lệch Trọng Số: Tổng Hợp Bộ Điều Hợp LoRA Zero-Shot](https://huggingface.co/hotdogs/qwen3.6-35b-opus-to-kimi-lora/blob/main/paper.pdf)
- **Mã + Bộ Điều Hợp:** https://huggingface.co/hotdogs/qwen3.6-35b-opus-to-kimi-lora
- **Bài báo LoRA:** Hu et al., 2021 (arXiv:2106.09685)
- **Bài báo QLoRA:** Dettmers et al., 2023 (arXiv:2305.14314)