Paganini AIOS GRPO RL — Qwen3.5-27B LoRA rank 32, dual-domain reward (code+finance), 13.7K samples

Browse files

Files changed (3) hide show

README.md +32 -26
adapter_config.json +2 -2
checkpoint_complete +0 -0

README.md CHANGED Viewed

@@ -3,22 +3,22 @@ base_model: Qwen/Qwen3.5-27B
 library_name: peft
 license: apache-2.0
 tags:
-  - paganini-aios
-  - fidc
-  - grpo
-  - rl
-  - lora
-  - qwen
-  - finance
-  - compliance
 language:
-  - pt
 pipeline_tag: text-generation
 ---
-# 🎻 Paganini AIOS — GRPO LoRA Adapter
-**Qwen3.5-27B** fine-tuned with **Group Relative Policy Optimization (GRPO)** for Brazilian FIDC (Fundo de Investimento em Direitos Creditórios) operations.
 ## Training Details
@@ -27,17 +27,24 @@ pipeline_tag: text-generation
 - **LoRA**: Rank 32, Alpha 32, all-linear targets
 - **Dataset**: 13,697 dual-domain Q&A pairs (code + finance + cross-domain)
 - **Reward Function**: Dual-domain with 6 guardrail gates
-  - **Code domain**: BMAD-CE pipeline compliance, architecture quality, TDD signals
-  - **Finance domain**: CVM regulation citation, guardrail compliance, source attribution
-  - **Shared**: Hallucination penalty, corporate-speak penalty, PT-BR bonus
-## Architecture
-Part of the **Paganini AIOS** — an autonomous AI operating system for Brazilian FIDC operations:
-- 14 specialized agents (admin, compliance, custódia, due diligence, gestor, IR, pricing, reg watch, reporting)
-- 6 guardrail gates (Eligibility → Concentration → Covenant → PLD/AML → Compliance → Risk)
-- Hybrid RAG pipeline (dense + sparse + graph → RRF)
-- Bayesian risk network
 ## Usage
@@ -45,16 +52,15 @@ Part of the **Paganini AIOS** — an autonomous AI operating system for Brazilia
 from peft import PeftModel
 from transformers import AutoModelForCausalLM, AutoTokenizer
-base = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3.5-27B", torch_dtype="auto")
 model = PeftModel.from_pretrained(base, "sttjr/paganini-qwen35-27b-grpo-lora")
 tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3.5-27B")
 ```
-## Prior Stage
-SFT adapter: [sttjr/paganini-qwen35-27b-sft-lora](https://huggingface.co/sttjr/paganini-qwen35-27b-sft-lora)
-## Links
-- **GitHub**: [juboyy/paganini-aios](https://github.com/juboyy/paganini-aios)
-- **Dashboard**: [paganini-demo.vercel.app](https://paganini-demo.vercel.app)

 library_name: peft
 license: apache-2.0
 tags:
+- lora
+- grpo
+- rl
+- fidc
+- finance
+- compliance
+- portuguese
+- paganini-aios
 language:
+- pt
 pipeline_tag: text-generation
 ---
+# Paganini AIOS — GRPO LoRA Adapter
+**Qwen3.5-27B + LoRA Rank 32** fine-tuned with Group Relative Policy Optimization (GRPO) for dual-domain expertise: **Brazilian FIDC compliance** and **software engineering**.
 ## Training Details
 - **LoRA**: Rank 32, Alpha 32, all-linear targets
 - **Dataset**: 13,697 dual-domain Q&A pairs (code + finance + cross-domain)
 - **Reward Function**: Dual-domain with 6 guardrail gates
+## Reward Function Design
+```
+R(x) = λ·R_code + (1-λ)·R_fin + R_shared
+Code (λ=1.0):   spec adherence, architecture, pipeline compliance, code quality
+Finance (λ=0.0): guardrail compliance, factual accuracy, source attribution, precision
+Cross (λ=0.5):   both domains integrated
+```
+### Guardrail Gates
+1. **Eligibility** — CVM 175 compliance check
+2. **Concentration** — Portfolio concentration limits
+3. **Covenant** — Fund covenant monitoring
+4. **PLD/AML** — Anti-money laundering
+5. **Compliance** — Regulatory compliance
+6. **Risk** — Bayesian risk assessment
 ## Usage
 from peft import PeftModel
 from transformers import AutoModelForCausalLM, AutoTokenizer
+base = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3.5-27B")
 model = PeftModel.from_pretrained(base, "sttjr/paganini-qwen35-27b-grpo-lora")
 tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3.5-27B")
 ```
+## Part of Paganini AIOS
+[Paganini AIOS](https://github.com/juboyy/paganini-aios) is an autonomous AI system for Brazilian FIDC (Fundos de Investimento em Direitos Creditórios) operations, featuring 14 specialized agents, 6 guardrail gates, and a Bayesian risk network.
+## SFT Checkpoint
+The SFT checkpoint (pre-GRPO) is available at: [sttjr/paganini-qwen35-27b-sft-lora](https://huggingface.co/sttjr/paganini-qwen35-27b-sft-lora)

adapter_config.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
   "alpha_pattern": {},
   "auto_mapping": null,
-  "base_model_name_or_path": "Qwen/Qwen3.5-27B",
   "bias": "none",
   "corda_config": null,
   "eva_config": null,
   "exclude_modules": null,
   "fan_in_fan_out": false,
-  "inference_mode": true,
   "init_lora_weights": true,
   "layer_replication": null,
   "layers_pattern": null,

 {
   "alpha_pattern": {},
   "auto_mapping": null,
+  "base_model_name_or_path": null,
   "bias": "none",
   "corda_config": null,
   "eva_config": null,
   "exclude_modules": null,
   "fan_in_fan_out": false,
+  "inference_mode": false,
   "init_lora_weights": true,
   "layer_replication": null,
   "layers_pattern": null,

checkpoint_complete ADDED Viewed

File without changes