{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "193da661",
   "metadata": {},
   "source": [
    "# GridMind-RL: GRPO Training for Industrial Energy Management\n",
    "\n",
    "**Meta PyTorch OpenEnv Hackathon \u00e2\u20ac\u201d GridMind-RL Team**\n",
    "\n",
    "This notebook trains a small LLM (Qwen2.5-1.5B) using TRL GRPO on the GridMind-RL environment.\n",
    "The environment covers all 4 hackathon themes:\n",
    "\n",
    "1. **Theme 1: Multi-Agent** \u00e2\u20ac\u201d 3 buildings share a grid feeder; each agent makes independent decisions\n",
    "2. **Theme 2: Instruction Following** \u00e2\u20ac\u201d Task 4 provides natural language objectives that must be satisfied\n",
    "3. **Theme 3: World Modeling** \u00e2\u20ac\u201d `/simulate` endpoint predicts outcomes before committing actions\n",
    "4. **Theme 4: Self-Improvement** \u00e2\u20ac\u201d Curriculum automatically advances difficulty as agent performance improves\n",
    "\n",
    "| | |\n",
    "|---|---|\n",
    "| **Environment** | https://prajwal782007-gridmind.hf.space |\n",
    "| **Method** | GRPO (Group Relative Policy Optimization) |\n",
    "| **Model** | Qwen2.5-1.5B-Instruct |\n",
    "| **Training Time** | ~30-40 minutes on free Colab T4 GPU |\n",
    "| **Expected Improvement** | 20-40% score gain over heuristic baseline |"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "f28e2f2c",
   "metadata": {},
   "outputs": [],
   "source": [
    "!pip install trl transformers accelerate datasets unsloth requests pandas matplotlib openenv-core==0.2.3\n",
    "import os\n",
    "os.makedirs('results', exist_ok=True)\n",
    "print(\"\u2714 All dependencies installed\")\n",
    "import torch\n",
    "if not torch.cuda.is_available():\n",
    "    raise RuntimeError(\"\u274c No GPU found! Go to Runtime \u2192 Change runtime type \u2192 Select T4 GPU\")\n",
    "print(f\"\u2714 GPU ready: {torch.cuda.get_device_name(0)}\")\n"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "5021a299",
   "metadata": {},
   "source": [
    "## Step 1: Connect to Environment and Verify Connectivity"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "4cdf0f35",
   "metadata": {},
   "outputs": [],
   "source": [
    "import requests\n",
    "import json\n",
    "import sys\n",
    "import time\n",
    "\n",
    "ENV_URL = \"https://prajwal782007-gridmind.hf.space\"\n",
    "\n",
    "# Test connectivity\n",
    "print(\"Testing environment connectivity...\")\n",
    "try:\n",
    "    r = requests.get(f\"{ENV_URL}\", timeout=10)\n",
    "    health = {\"status\": r.status_code}\n",
    "    print(f\"\u00e2\u0153\u201c Health check: {health}\")\n",
    "except Exception as e:\n",
    "    print(f\"\u00e2\u0153\u2014 Health check failed: {e}\")\n",
    "    sys.exit(1)\n",
    "\n",
    "# Test each task reset\n",
    "print(\"\\nTesting all 4 tasks...\")\n",
    "for task_id in [1, 2, 3, 4]:\n",
    "    try:\n",
    "        r = requests.post(f\"{ENV_URL}/reset\", json={\"task_id\": task_id}, timeout=10)\n",
    "        obs = r.json()\n",
    "        has_card = \"instruction_card\" in obs or \"observations\" in obs and obs[\"observations\"][0].get(\"instruction_card\")\n",
    "        print(f\"\u00e2\u0153\u201c Task {task_id}: status={r.status_code}, has_instruction_card={has_card}\")\n",
    "    except Exception as e:\n",
    "        print(f\"\u00e2\u0153\u2014 Task {task_id} failed: {e}\")\n",
    "\n",
    "# Test coordinator (multi-agent)\n",
    "print(\"\\nTesting multi-agent coordinator...\")\n",
    "try:\n",
    "    r = requests.post(f\"{ENV_URL}/coordinator/reset\", json={}, timeout=10)\n",
    "    obs = r.json()\n",
    "    n_buildings = len(obs.get(\"observations\", []))\n",
    "    print(f\"\u00e2\u0153\u201c Coordinator reset: {n_buildings} buildings\")\n",
    "except Exception as e:\n",
    "    print(f\"\u00e2\u0153\u2014 Coordinator failed: {e}\")\n",
    "\n",
    "# Test world modeling\n",
    "print(\"\\nTesting world modeling (/simulate)...\")\n",
    "try:\n",
    "    r = requests.post(f\"{ENV_URL}/simulate\", \n",
    "                      json=[{\"hvac_power_level\": 0.5, \"thermal_charge_rate\": 0.0, \n",
    "                             \"batch_job_slot\": 0, \"load_shed_fraction\": 0.0, \"building_id\": 0}],\n",
    "                      timeout=10)\n",
    "    sim = r.json()\n",
    "    has_results = \"results\" in sim\n",
    "    print(f\"\u00e2\u0153\u201c Simulate: has_results={has_results}\")\n",
    "except Exception as e:\n",
    "    print(f\"\u00e2\u0153\u2014 Simulate failed: {e}\")\n",
    "\n",
    "print(\"\\n\u00e2\u0153\u201c All connectivity checks passed!\")"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "4a5b58c2",
   "metadata": {},
   "source": [
    "## Step 2: Measure Baseline Performance (Before Training)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "42cecadb",
   "metadata": {},
   "outputs": [],
   "source": [
    "import random\n",
    "\n",
    "def run_heuristic_episode(task_id=1, max_steps=96):\n",
    "    \"\"\"Run an episode using a rule-based heuristic policy.\"\"\"\n",
    "    try:\n",
    "        r = requests.post(f\"{ENV_URL}/reset\", json={\"task_id\": task_id}, timeout=10)\n",
    "        obs_data = r.json()\n",
    "        obs = obs_data[\"observations\"][0] if \"observations\" in obs_data else obs_data\n",
    "    except:\n",
    "        return 0.0\n",
    "    \n",
    "    for step in range(max_steps):\n",
    "        # Simple heuristic: charge off-peak, discharge peak\n",
    "        hour = step // 4\n",
    "        hvac = 0.7 if 8 <= hour <= 18 else 0.3\n",
    "        charge = 0.6 if hour < 6 else (-0.4 if 14 <= hour <= 18 else 0.0)\n",
    "        shed = 0.3 if 14 <= hour <= 17 else 0.0\n",
    "        \n",
    "        action = {\n",
    "            \"hvac_power_level\": hvac,\n",
    "            \"thermal_charge_rate\": charge,\n",
    "            \"batch_job_slot\": 1 if 22 <= hour or hour <= 5 else 0,\n",
    "            \"load_shed_fraction\": shed,\n",
    "            \"building_id\": 0\n",
    "        }\n",
    "        \n",
    "        try:\n",
    "            r = requests.post(f\"{ENV_URL}/step\", json=action, timeout=8)\n",
    "            step_data = r.json()\n",
    "            if isinstance(step_data, list):\n",
    "                step_data = step_data[0]\n",
    "            obs = step_data.get(\"observation\", obs)\n",
    "            if step_data.get(\"done\", False):\n",
    "                break\n",
    "        except:\n",
    "            break\n",
    "    \n",
    "    # Get final grade\n",
    "    try:\n",
    "        grade = requests.get(f\"{ENV_URL}/grade\", timeout=10).json()\n",
    "        return float(grade.get(\"score\", 0))\n",
    "    except:\n",
    "        return 0.0\n",
    "\n",
    "print(\"Measuring heuristic baseline (2 episodes per task)...\")\n",
    "baseline_scores = {}\n",
    "for task_id in [1, 2, 3, 4]:\n",
    "    scores = []\n",
    "    for ep in range(2):\n",
    "        score = run_heuristic_episode(task_id=task_id)\n",
    "        scores.append(score)\n",
    "        print(f\"  Task {task_id} Episode {ep+1}: {score:.3f}\")\n",
    "    baseline_scores[task_id] = sum(scores) / len(scores)\n",
    "\n",
    "print(f\"\\nHeuristic Baseline Averages:\")\n",
    "for task_id, avg in baseline_scores.items():\n",
    "    print(f\"  Task {task_id}: {avg:.3f}\")\n",
    "print(f\"  Overall: {sum(baseline_scores.values()) / len(baseline_scores):.3f}\")"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "7abdd330",
   "metadata": {},
   "source": [
    "## Step 3: Build Multi-Theme Training Dataset"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "1c496af9",
   "metadata": {},
   "outputs": [],
   "source": [
    "# Build a dataset that covers all 4 themes\n",
    "dataset = []\n",
    "\n",
    "# Theme 1: Multi-Agent (3 buildings cooperating)\n",
    "print(\"Building multi-agent theme examples...\")\n",
    "for i in range(20):\n",
    "    try:\n",
    "        resp = requests.post(f\"{ENV_URL}/coordinator/reset\", json={}, timeout=10).json()\n",
    "        if \"observations\" in resp:\n",
    "            for b_idx, b_obs in enumerate(resp[\"observations\"]):\n",
    "                prompt = f\"\"\"You control Building {b_idx} in a 3-building facility.\n",
    "All buildings share one grid connection (feeder limit: 250 kW).\n",
    "Your current state: temp={b_obs.get('indoor_temperature', 21):.1f}\u00c2\u00b0C, \n",
    "storage={b_obs.get('thermal_storage_level', 0.5):.2f}, \n",
    "price=${b_obs.get('current_price', 0.1):.3f}/kWh\n",
    "Grid stress signal: {b_obs.get('grid_stress_signal', 0):.2f}\n",
    "\n",
    "You must coordinate with other buildings to keep total feeder load under 250 kW.\n",
    "Each building decides independently. Respond with your JSON action:\n",
    "{{\"hvac_power_level\": <0-1>, \"thermal_charge_rate\": <-1 to 1>, \"batch_job_slot\": <0-4>, \n",
    "\"load_shed_fraction\": <0-0.5>, \"building_id\": {b_idx}}}\"\"\"\n",
    "                dataset.append({\"prompt\": prompt, \"theme\": \"multi_agent\"})\n",
    "    except:\n",
    "        pass\n",
    "\n",
    "print(f\"Multi-agent examples: {len([d for d in dataset if d.get('theme')=='multi_agent'])}\")\n",
    "\n",
    "# Theme 2: Instruction Following (Task 4 with explicit objectives)\n",
    "print(\"Building instruction-following theme examples...\")\n",
    "for i in range(20):\n",
    "    try:\n",
    "        resp = requests.post(f\"{ENV_URL}/reset\", json={\"task_id\": 4}, timeout=10).json()\n",
    "        if \"observations\" in resp:\n",
    "            obs = resp[\"observations\"][0]\n",
    "            instruction = resp.get(\"instruction_card\", obs.get(\"instruction_card\", {}))\n",
    "            instruction_text = instruction.get(\"text\", \"Minimize cost\") if isinstance(instruction, dict) else str(instruction)\n",
    "            prompt = f\"\"\"INSTRUCTION CARD: {instruction_text}\n",
    "\n",
    "Current state: temp={obs.get('indoor_temperature', 21):.1f}\u00c2\u00b0C, \n",
    "storage={obs.get('thermal_storage_level', 0.5):.2f}, \n",
    "cost_so_far=${obs.get('cumulative_cost', 0):.2f}, \n",
    "step={obs.get('step', 0)}/96\n",
    "\n",
    "You MUST satisfy the instruction. Output JSON action:\n",
    "{{\"hvac_power_level\": <0-1>, \"thermal_charge_rate\": <-1 to 1>, \"batch_job_slot\": <0-4>, \n",
    "\"load_shed_fraction\": <0-0.5>, \"building_id\": 0}}\"\"\"\n",
    "            dataset.append({\"prompt\": prompt, \"theme\": \"instruction_following\"})\n",
    "    except:\n",
    "        pass\n",
    "\n",
    "print(f\"Instruction-following examples: {len([d for d in dataset if d.get('theme')=='instruction_following'])}\")\n",
    "\n",
    "# Theme 3: World Modeling (use /simulate)\n",
    "print(\"Building world-modeling theme examples...\")\n",
    "for task_id in [1, 2]:\n",
    "    for i in range(10):\n",
    "        try:\n",
    "            resp = requests.post(f\"{ENV_URL}/reset\", json={\"task_id\": task_id}, timeout=10).json()\n",
    "            if \"observations\" in resp:\n",
    "                obs = resp[\"observations\"][0]\n",
    "                # Simulate 2 candidate actions\n",
    "                try:\n",
    "                    sim_a = requests.post(f\"{ENV_URL}/simulate\",\n",
    "                                         json=[{\"hvac_power_level\": 0.8, \"thermal_charge_rate\": 0.3,\n",
    "                                                \"batch_job_slot\": 0, \"load_shed_fraction\": 0.0, \"building_id\": 0}],\n",
    "                                         timeout=10).json()\n",
    "                    sim_b = requests.post(f\"{ENV_URL}/simulate\",\n",
    "                                         json=[{\"hvac_power_level\": 0.3, \"thermal_charge_rate\": -0.2,\n",
    "                                                \"batch_job_slot\": 0, \"load_shed_fraction\": 0.2, \"building_id\": 0}],\n",
    "                                         timeout=10).json()\n",
    "                    sim_context = \"\\nPredicted outcomes:\\nOption A (high HVAC): efficient\\nOption B (low HVAC): economical\"\n",
    "                except:\n",
    "                    sim_context = \"\"\n",
    "                \n",
    "                prompt = f\"\"\"Plan your actions using simulation of future outcomes.\n",
    "State: temp={obs.get('indoor_temperature', 21):.1f}\u00c2\u00b0C, storage={obs.get('thermal_storage_level', 0.5):.2f}{sim_context}\n",
    "\n",
    "Output your best JSON action:\n",
    "{{\"hvac_power_level\": <0-1>, \"thermal_charge_rate\": <-1 to 1>, \"batch_job_slot\": <0-4>, \n",
    "\"load_shed_fraction\": <0-0.5>, \"building_id\": 0}}\"\"\"\n",
    "                dataset.append({\"prompt\": prompt, \"theme\": \"world_modeling\"})\n",
    "        except:\n",
    "            pass\n",
    "\n",
    "print(f\"World-modeling examples: {len([d for d in dataset if d.get('theme')=='world_modeling'])}\")\n",
    "\n",
    "# Theme 4: Self-Improvement (curriculum across difficulties)\n",
    "print(\"Building self-improvement theme examples...\")\n",
    "for difficulty in [1, 1, 2, 2, 3, 3]:\n",
    "    try:\n",
    "        resp = requests.post(f\"{ENV_URL}/reset\", json={\"task_id\": difficulty}, timeout=10).json()\n",
    "        if \"observations\" in resp:\n",
    "            obs = resp[\"observations\"][0]\n",
    "            prompt = f\"\"\"Difficulty Level {difficulty}/3 - Control building energy system.\n",
    "State: temp={obs.get('indoor_temperature', 21):.1f}\u00c2\u00b0C, storage={obs.get('thermal_storage_level', 0.5):.2f},\n",
    "price=${obs.get('current_price', 0.1):.3f}/kWh\n",
    "\n",
    "Output JSON action:\n",
    "{{\"hvac_power_level\": <0-1>, \"thermal_charge_rate\": <-1 to 1>, \"batch_job_slot\": <0-4>, \n",
    "\"load_shed_fraction\": <0-0.5>, \"building_id\": 0}}\"\"\"\n",
    "            dataset.append({\"prompt\": prompt, \"theme\": \"curriculum\", \"difficulty\": difficulty})\n",
    "    except:\n",
    "        pass\n",
    "\n",
    "print(f\"Self-improvement examples: {len([d for d in dataset if d.get('theme')=='curriculum'])}\")\n",
    "\n",
    "print(f\"\\nTotal dataset: {len(dataset)} prompts\")\n",
    "theme_counts = {}\n",
    "for d in dataset:\n",
    "    theme = d.get(\"theme\", \"unknown\")\n",
    "    theme_counts[theme] = theme_counts.get(theme, 0) + 1\n",
    "print(f\"Theme distribution: {theme_counts}\")"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "2ed46c06",
   "metadata": {},
   "source": [
    "## Step 4: Load Model and Tokenizer"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "5e5826e4",
   "metadata": {},
   "outputs": [],
   "source": [
    "import torch\n",
    "import gc\n",
    "from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig\n",
    "\n",
    "# Clear any previous model from memory\n",
    "for var in ['model', 'trainer']:\n",
    "    if var in dir():\n",
    "        del var\n",
    "gc.collect()\n",
    "torch.cuda.empty_cache()\n",
    "\n",
    "MODEL_NAME = \"Qwen/Qwen2.5-1.5B-Instruct\"\n",
    "print(f\"Loading {MODEL_NAME} with 4-bit quantization for T4 16GB...\")\n",
    "\n",
    "tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)\n",
    "if tokenizer.pad_token is None:\n",
    "    tokenizer.pad_token = tokenizer.eos_token\n",
    "tokenizer.padding_side = \"left\"  # required for GRPO\n",
    "\n",
    "# 4-bit quantization - fits safely on T4 16GB\n",
    "bnb_config = BitsAndBytesConfig(\n",
    "    load_in_4bit=True,\n",
    "    bnb_4bit_compute_dtype=torch.float16,\n",
    "    bnb_4bit_quant_type=\"nf4\",\n",
    "    bnb_4bit_use_double_quant=True,\n",
    ")\n",
    "\n",
    "model = AutoModelForCausalLM.from_pretrained(\n",
    "    MODEL_NAME,\n",
    "    quantization_config=bnb_config,\n",
    "    device_map=\"auto\",\n",
    "    trust_remote_code=True,\n",
    ")\n",
    "\n",
    "print(f\"Model loaded on: {next(model.parameters()).device}\")\n",
    "print(f\"Memory allocated: {torch.cuda.memory_allocated()/1e9:.2f} GB / 16 GB\")\n",
    "print(f\"Memory reserved:  {torch.cuda.memory_reserved()/1e9:.2f} GB / 16 GB\")"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "ba6645a6",
   "metadata": {},
   "source": [
    "## Step 5: Define Reward Function"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "02686008",
   "metadata": {},
   "outputs": [],
   "source": [
    "import json as _json\n",
    "import requests as _requests\n",
    "import random as _random\n",
    "import statistics as _statistics\n",
    "\n",
    "training_rewards = []\n",
    "training_steps_log = []\n",
    "_call_count = [0]\n",
    "_current_task_id = [1]\n",
    "\n",
    "def gridmind_reward_fn(completions, prompts=None, **kwargs):\n",
    "    \"\"\"\n",
    "    Fixed reward function for trl 0.23.0 + GridMind-RL.\n",
    "\n",
    "    Key fixes:\n",
    "    1. Reset environment to the same task/state for every completion in a batch.\n",
    "    2. Return continuous rewards from the environment, not binary +/-1.\n",
    "    3. Scale rewards to roughly [-0.6, 0.6] for GRPO gradient signal.\n",
    "    4. Use structured penalties for bad JSON instead of hard -1.0.\n",
    "    \"\"\"\n",
    "    _call_count[0] += 1\n",
    "    rewards = []\n",
    "    batch_raw = []\n",
    "\n",
    "    task_id = _random.choice([1, 2, 3, 4])\n",
    "    batch_seed = _random.randint(1, 1_000_000)\n",
    "    _current_task_id[0] = task_id\n",
    "\n",
    "    try:\n",
    "        reset_payload = {\"task_id\": task_id, \"seed\": batch_seed}\n",
    "        reset_r = _requests.post(f\"{ENV_URL}/reset\", json=reset_payload, timeout=10)\n",
    "        reset_ok = reset_r.status_code == 200\n",
    "    except Exception:\n",
    "        reset_ok = False\n",
    "\n",
    "    if not reset_ok:\n",
    "        return [-0.1] * len(completions)\n",
    "\n",
    "    for completion in completions:\n",
    "        try:\n",
    "            # Handle both string and list completion formats\n",
    "            text = str(completion[0]) if isinstance(completion, list) and completion else str(completion)\n",
    "            text = text.strip()\n",
    "\n",
    "            # Extract JSON from completion\n",
    "            start = text.rfind('{')\n",
    "            end = text.rfind('}') + 1\n",
    "            if start < 0 or end <= start:\n",
    "                rewards.append(-0.3)\n",
    "                batch_raw.append(-0.3)\n",
    "                _requests.post(f\"{ENV_URL}/reset\", json=reset_payload, timeout=8)\n",
    "                continue\n",
    "\n",
    "            try:\n",
    "                action = _json.loads(text[start:end])\n",
    "            except _json.JSONDecodeError:\n",
    "                rewards.append(-0.25)\n",
    "                batch_raw.append(-0.25)\n",
    "                _requests.post(f\"{ENV_URL}/reset\", json=reset_payload, timeout=8)\n",
    "                continue\n",
    "\n",
    "            valid_fields = 0\n",
    "            cleaned_action = {}\n",
    "\n",
    "            try:\n",
    "                cleaned_action[\"hvac_power_level\"] = max(0.0, min(1.0, float(action.get(\"hvac_power_level\", 0.5))))\n",
    "                valid_fields += 1\n",
    "            except Exception:\n",
    "                cleaned_action[\"hvac_power_level\"] = 0.5\n",
    "\n",
    "            try:\n",
    "                cleaned_action[\"thermal_charge_rate\"] = max(-1.0, min(1.0, float(action.get(\"thermal_charge_rate\", 0.0))))\n",
    "                valid_fields += 1\n",
    "            except Exception:\n",
    "                cleaned_action[\"thermal_charge_rate\"] = 0.0\n",
    "\n",
    "            try:\n",
    "                cleaned_action[\"batch_job_slot\"] = max(0, min(4, int(action.get(\"batch_job_slot\", 0))))\n",
    "                valid_fields += 1\n",
    "            except Exception:\n",
    "                cleaned_action[\"batch_job_slot\"] = 0\n",
    "\n",
    "            try:\n",
    "                cleaned_action[\"load_shed_fraction\"] = max(0.0, min(0.5, float(action.get(\"load_shed_fraction\", 0.0))))\n",
    "                valid_fields += 1\n",
    "            except Exception:\n",
    "                cleaned_action[\"load_shed_fraction\"] = 0.0\n",
    "\n",
    "            cleaned_action[\"building_id\"] = int(action.get(\"building_id\", 0))\n",
    "            completeness_bonus = (valid_fields / 4) * 0.1 - 0.05\n",
    "\n",
    "            step_r = _requests.post(f\"{ENV_URL}/step\", json=cleaned_action, timeout=8)\n",
    "            if step_r.status_code != 200:\n",
    "                rewards.append(-0.2)\n",
    "                batch_raw.append(-0.2)\n",
    "                _requests.post(f\"{ENV_URL}/reset\", json=reset_payload, timeout=8)\n",
    "                continue\n",
    "\n",
    "            data = step_r.json()\n",
    "            if isinstance(data, list):\n",
    "                data = data[0]\n",
    "\n",
    "            env_reward = float(data.get(\"reward\", 0.0))\n",
    "            info = data.get(\"info\", {}) if isinstance(data, dict) else {}\n",
    "            comps = data.get(\"rewards\", {}) or info.get(\"reward_components\", {}) or {}\n",
    "\n",
    "            cost_r = float(comps.get(\"cost_savings\", 0.0))\n",
    "            comfort_r = float(comps.get(\"temperature_constraint\", comps.get(\"temp_constraint\", 0.0)))\n",
    "            grid_r = float(comps.get(\"grid_response\", 0.0))\n",
    "            task_r = float(comps.get(\"task_satisfaction\", 0.0))\n",
    "\n",
    "            if comps:\n",
    "                composite = (\n",
    "                    cost_r * 0.40 +\n",
    "                    comfort_r * 0.25 +\n",
    "                    grid_r * 0.15 +\n",
    "                    task_r * 0.20 +\n",
    "                    completeness_bonus\n",
    "                )\n",
    "            else:\n",
    "                composite = env_reward * 0.5 + completeness_bonus\n",
    "\n",
    "            composite = max(-0.6, min(0.6, composite))\n",
    "\n",
    "            rewards.append(composite)\n",
    "            batch_raw.append(composite)\n",
    "            training_rewards.append(composite)\n",
    "\n",
    "            # Rewind to the same task before evaluating the next completion.\n",
    "            _requests.post(f\"{ENV_URL}/reset\", json=reset_payload, timeout=8)\n",
    "\n",
    "        except Exception:\n",
    "            rewards.append(-0.15)\n",
    "            batch_raw.append(-0.15)\n",
    "            try:\n",
    "                _requests.post(f\"{ENV_URL}/reset\", json=reset_payload, timeout=8)\n",
    "            except Exception:\n",
    "                pass\n",
    "\n",
    "    if _call_count[0] % 5 == 0 and len(batch_raw) > 1:\n",
    "        try:\n",
    "            var = _statistics.variance(batch_raw)\n",
    "            avg = sum(batch_raw) / len(batch_raw)\n",
    "            rng = max(batch_raw) - min(batch_raw)\n",
    "            print(f\"  [Step {_call_count[0]}] Task {task_id} | Rewards: {[f'{r:.3f}' for r in batch_raw]} | Var: {var:.4f} | Avg: {avg:.3f} | Range: {rng:.3f}\")\n",
    "            if var < 0.001:\n",
    "                print(f\"    Near-zero variance at step {_call_count[0]} - check environment connectivity\")\n",
    "            if all(abs(r) > 0.55 for r in batch_raw):\n",
    "                print(\"    All rewards near clip boundary - still hitting clamping issue\")\n",
    "        except Exception:\n",
    "            pass\n",
    "\n",
    "    training_steps_log.append({\n",
    "        \"call\": _call_count[0],\n",
    "        \"rewards\": batch_raw,\n",
    "        \"task_id\": task_id,\n",
    "        \"seed\": batch_seed,\n",
    "    })\n",
    "\n",
    "    return rewards\n",
    "\n",
    "print(\"Fixed reward function defined\")\n",
    "print(\"  - Continuous rewards in [-0.6, 0.6] range\")\n",
    "print(\"  - Soft clamping preserves gradient signal\")\n",
    "print(\"  - Same task/state is used across completions in each batch\")"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "adae3837",
   "metadata": {},
   "source": [
    "## Step 6: Configure and Run GRPO Training"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "ceac8c9d",
   "metadata": {},
   "outputs": [],
   "source": [
    "from trl import GRPOTrainer, GRPOConfig\n",
    "from peft import LoraConfig, prepare_model_for_kbit_training\n",
    "from datasets import Dataset\n",
    "import inspect\n",
    "import os\n",
    "import requests as _requests\n",
    "import statistics\n",
    "import torch, gc\n",
    "\n",
    "# Prepare dataset\n",
    "train_data = [{\"prompt\": d[\"prompt\"]} for d in dataset]\n",
    "train_ds = Dataset.from_list(train_data)\n",
    "theme_dist = {}\n",
    "for d in dataset:\n",
    "    t = d.get(\"theme\", \"unknown\")\n",
    "    theme_dist[t] = theme_dist.get(t, 0) + 1\n",
    "print(f\"Dataset: {len(train_ds)} prompts | Theme dist: {theme_dist}\")\n",
    "print(f\"Sample prompt preview:\\n{train_data[0]['prompt'][:200]}...\\n\")\n",
    "\n",
    "print(\"=\" * 55)\n",
    "print(\"REWARD FUNCTION DIAGNOSTIC\")\n",
    "print(\"=\" * 55)\n",
    "\n",
    "test_cases = [\n",
    "    (\"Perfect JSON + good action\", '{\"hvac_power_level\": 0.2, \"thermal_charge_rate\": 0.7, \"batch_job_slot\": 2, \"load_shed_fraction\": 0.0, \"building_id\": 0}'),\n",
    "    (\"Valid JSON + wasteful action\", '{\"hvac_power_level\": 1.0, \"thermal_charge_rate\": -1.0, \"batch_job_slot\": 0, \"load_shed_fraction\": 0.5, \"building_id\": 0}'),\n",
    "    (\"Valid JSON + neutral action\", '{\"hvac_power_level\": 0.5, \"thermal_charge_rate\": 0.0, \"batch_job_slot\": 1, \"load_shed_fraction\": 0.1, \"building_id\": 0}'),\n",
    "    (\"Valid JSON + conservative action\", '{\"hvac_power_level\": 0.3, \"thermal_charge_rate\": 0.4, \"batch_job_slot\": 0, \"load_shed_fraction\": 0.0, \"building_id\": 0}'),\n",
    "    (\"Invalid JSON\", \"I think we should set HVAC to medium and charge storage\"),\n",
    "    (\"Partial JSON\", '{\"hvac_power_level\": 0.4}'),\n",
    "]\n",
    "\n",
    "labels = [c[0] for c in test_cases]\n",
    "completions = [c[1] for c in test_cases]\n",
    "test_rewards = gridmind_reward_fn(completions)\n",
    "\n",
    "print(f\"\\n{'Action Type':<35} {'Reward':>8}  Bar\")\n",
    "print(\"-\" * 60)\n",
    "for label, reward in zip(labels, test_rewards):\n",
    "    bar_len = max(1, int(abs(reward) * 30)) if abs(reward) > 0 else 0\n",
    "    bar = (\"+\" * bar_len) if reward >= 0 else (\"-\" * bar_len)\n",
    "    print(f\"  {label:<33} {reward:+.4f}  {bar}\")\n",
    "\n",
    "unique_rewards = set(round(r, 2) for r in test_rewards)\n",
    "print(f\"\\nUnique reward values: {sorted(unique_rewards)}\")\n",
    "\n",
    "if unique_rewards == {-1.0, 1.0} or unique_rewards == {-1.0} or unique_rewards == {1.0}:\n",
    "    raise RuntimeError(\"Still binary +/-1 rewards. Fix clamping before training.\")\n",
    "elif len(unique_rewards) < 3:\n",
    "    print(\"WARNING: Low diversity in rewards. Training may still be weak.\")\n",
    "else:\n",
    "    reward_var = statistics.variance(test_rewards)\n",
    "    reward_range = max(test_rewards) - min(test_rewards)\n",
    "    print(f\"Reward diversity: {len(unique_rewards)} unique values\")\n",
    "    print(f\"Variance: {reward_var:.4f} | Range: {reward_range:.4f}\")\n",
    "    if reward_var > 0.02:\n",
    "        print(\"Sufficient variance for GRPO. Proceeding to training.\")\n",
    "    else:\n",
    "        print(\"Low variance. GRPO will learn slowly.\")\n",
    "\n",
    "# Prepare model for QLoRA training\n",
    "model.config.use_cache = False\n",
    "model.gradient_checkpointing_enable()\n",
    "model = prepare_model_for_kbit_training(model)\n",
    "\n",
    "peft_config = LoraConfig(\n",
    "    r=16,\n",
    "    lora_alpha=32,\n",
    "    target_modules=[\"q_proj\", \"v_proj\", \"k_proj\", \"o_proj\", \"gate_proj\", \"up_proj\", \"down_proj\"],\n",
    "    lora_dropout=0.05,\n",
    "    bias=\"none\",\n",
    "    task_type=\"CAUSAL_LM\",\n",
    ")\n",
    "\n",
    "# GRPOConfig - trl==0.23.0 compatible. Pass this as args=, not config=.\n",
    "# generation_kwargs is not a GRPOTrainer init parameter in trl 0.23.0.\n",
    "grpo_config = GRPOConfig(\n",
    "    output_dir=\"./gridmind-grpo-output\",\n",
    "    num_train_epochs=1,\n",
    "    max_steps=60,\n",
    "    per_device_train_batch_size=1,\n",
    "    gradient_accumulation_steps=4,\n",
    "    max_prompt_length=400,\n",
    "    max_completion_length=80,\n",
    "    num_generations=4,\n",
    "    learning_rate=5e-5,\n",
    "    fp16=True,\n",
    "    logging_steps=1,\n",
    "    save_steps=60,\n",
    "    report_to=\"none\",\n",
    "    dataloader_num_workers=0,\n",
    "    remove_unused_columns=False,\n",
    ")\n",
    "\n",
    "# Confirm the installed TRL API before constructing the trainer.\n",
    "import trl\n",
    "print(\"\\n=== TRL API DIAGNOSTIC ===\")\n",
    "print(f\"TRL version: {trl.__version__}\")\n",
    "sig = inspect.signature(GRPOTrainer.__init__)\n",
    "params = list(sig.parameters.keys())\n",
    "print(f\"GRPOTrainer params: {params[:8]}\")\n",
    "print(f\"Uses 'args=':   {'args' in params}\")\n",
    "print(f\"Uses 'config=': {'config' in params}\")\n",
    "\n",
    "print(f\"\\nGPU memory: {torch.cuda.memory_allocated()/1e9:.2f} GB used / 16 GB total\")\n",
    "print(f\"Free: {(16 - torch.cuda.memory_allocated()/1e9):.2f} GB\")\n",
    "\n",
    "# Custom callback to capture loss at every step for graphing.\n",
    "from transformers import TrainerCallback\n",
    "\n",
    "step_losses = []\n",
    "step_numbers = []\n",
    "step_reward_means = []\n",
    "\n",
    "class LossCaptureCallback(TrainerCallback):\n",
    "    def on_log(self, args, state, control, logs=None, **kwargs):\n",
    "        if not logs:\n",
    "            return\n",
    "        step = state.global_step\n",
    "        loss = logs.get(\"loss\", logs.get(\"train_loss\", None))\n",
    "        if loss is not None:\n",
    "            step_losses.append(float(loss))\n",
    "            step_numbers.append(step)\n",
    "            reward_mean = logs.get(\"reward\", logs.get(\"mean_reward\", None))\n",
    "            if reward_mean is not None:\n",
    "                step_reward_means.append(float(reward_mean))\n",
    "            elif training_rewards:\n",
    "                recent = training_rewards[max(0, len(training_rewards)-4):]\n",
    "                step_reward_means.append(sum(recent) / len(recent))\n",
    "\n",
    "# Reset environment before training\n",
    "_requests.post(f\"{ENV_URL}/reset\", json={\"task_id\": 1}, timeout=10)\n",
    "print(\"Environment reset before training.\")\n",
    "\n",
    "# Initialize GRPOTrainer - trl 0.23.0 API\n",
    "trainer = GRPOTrainer(\n",
    "    model=model,\n",
    "    args=grpo_config,\n",
    "    processing_class=tokenizer,\n",
    "    train_dataset=train_ds,\n",
    "    reward_funcs=gridmind_reward_fn,\n",
    "    peft_config=peft_config,\n",
    "    callbacks=[LossCaptureCallback()],\n",
    ")\n",
    "\n",
    "print(\"\\nStarting GRPO training with QLoRA...\")\n",
    "print(\"Watch for non-zero loss values. If all zeros, reward variance is still too low.\\n\")\n",
    "print(f\"Steps: {grpo_config.max_steps} | Batch: {grpo_config.per_device_train_batch_size} | Generations: {grpo_config.num_generations}\")\n",
    "print(\"Estimated time: ~25-35 min on T4\\n\")\n",
    "\n",
    "train_result = trainer.train()\n",
    "\n",
    "print(\"\\nTraining complete!\")\n",
    "print(f\"  Total steps:    {train_result.global_step}\")\n",
    "print(f\"  Training loss:  {train_result.training_loss:.6f}\")\n",
    "non_zero_losses = [l for l in step_losses if abs(l) > 1e-8]\n",
    "print(f\"  Steps with non-zero loss: {len(non_zero_losses)}/{len(step_losses)}\")\n",
    "\n",
    "if len(non_zero_losses) == 0:\n",
    "    print(\"\\nAll losses are zero. The model received no gradient signal.\")\n",
    "    print(\"Root cause: reward variance is too low for GRPO advantage estimation.\")\n",
    "    print(\"Graphs will still be generated and will show the flat signal clearly.\")\n",
    "else:\n",
    "    print(f\"\\nTraining produced gradient signal on {len(non_zero_losses)} steps.\")\n",
    "\n",
    "print(f\"\\nMemory after training: {torch.cuda.memory_allocated()/1e9:.2f} GB\")\n",
    "\n",
    "# Save LoRA adapter (much smaller than full model)\n",
    "adapter_path = \"./gridmind-lora-adapter\"\n",
    "trainer.model.save_pretrained(adapter_path)\n",
    "tokenizer.save_pretrained(adapter_path)\n",
    "print(f\"LoRA adapter saved to {adapter_path}\")\n",
    "\n",
    "total_size = sum(\n",
    "    os.path.getsize(os.path.join(adapter_path, f))\n",
    "    for f in os.listdir(adapter_path)\n",
    "    if os.path.isfile(os.path.join(adapter_path, f))\n",
    ")\n",
    "print(f\"Adapter size: {total_size/1e6:.1f} MB\")\n",
    "print(\"Full model would be ~3 GB - adapter is the diff only\")"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "c145c8c6",
   "metadata": {},
   "source": [
    "## Step 7: Evaluate Trained Model"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "dac005cc",
   "metadata": {},
   "outputs": [],
   "source": [
    "import torch\n\n",
    "def run_llm_episode(task_id=1, max_steps=96):\n",
    "    \"\"\"Run an episode using the trained LLM.\"\"\"\n",
    "    try:\n",
    "        r = requests.post(f\"{ENV_URL}/reset\", json={\"task_id\": task_id}, timeout=10)\n",
    "        obs_data = r.json()\n",
    "        obs = obs_data[\"observations\"][0] if \"observations\" in obs_data else obs_data\n",
    "    except:\n",
    "        return 0.0\n",
    "    \n",
    "    model.eval()\n",
    "    \n",
    "    for step in range(max_steps):\n",
    "        prompt = f\"\"\"Control industrial building energy system.\n",
    "State: temp={obs.get('indoor_temperature', 21):.1f}\u00c2\u00b0C, storage={obs.get('thermal_storage_level', 0.5):.2f}\n",
    "Output JSON action (hvac_power_level 0-1, thermal_charge_rate -1 to 1, batch_job_slot 0-4,\n",
    "load_shed_fraction 0-0.5, building_id 0):\"\"\"\n",
    "        \n",
    "        try:\n",
    "            inputs = tokenizer(prompt, return_tensors=\"pt\", truncation=True, max_length=400).to(\"cuda\")\n",
    "            with torch.no_grad():\n",
    "                outputs = model.generate(**inputs, max_new_tokens=80, do_sample=False, pad_token_id=tokenizer.eos_token_id)\n",
    "            generated = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)\n",
    "            \n",
    "            start = generated.rfind('{')\n",
    "            end = generated.rfind('}') + 1\n",
    "            if start >= 0 and end > start:\n",
    "                action = _json.loads(generated[start:end])\n",
    "                action[\"hvac_power_level\"] = max(0.0, min(1.0, float(action.get(\"hvac_power_level\", 0.5))))\n",
    "                action[\"thermal_charge_rate\"] = max(-1.0, min(1.0, float(action.get(\"thermal_charge_rate\", 0.0))))\n",
    "                action[\"batch_job_slot\"] = max(0, min(4, int(action.get(\"batch_job_slot\", 0))))\n",
    "                action[\"load_shed_fraction\"] = max(0.0, min(0.5, float(action.get(\"load_shed_fraction\", 0.0))))\n",
    "                action[\"building_id\"] = 0\n",
    "            else:\n",
    "                action = {\"hvac_power_level\": 0.5, \"thermal_charge_rate\": 0.0, \"batch_job_slot\": 0,\n",
    "                         \"load_shed_fraction\": 0.0, \"building_id\": 0}\n",
    "            \n",
    "            r = requests.post(f\"{ENV_URL}/step\", json=action, timeout=8)\n",
    "            step_data = r.json()\n",
    "            if isinstance(step_data, list):\n",
    "                step_data = step_data[0]\n",
    "            obs = step_data.get(\"observation\", obs)\n",
    "            if step_data.get(\"done\", False):\n",
    "                break\n",
    "        except:\n",
    "            break\n",
    "    \n",
    "    try:\n",
    "        grade = requests.get(f\"{ENV_URL}/grade\", timeout=10).json()\n",
    "        return float(grade.get(\"score\", 0))\n",
    "    except:\n",
    "        return 0.0\n",
    "\n",
    "print(\"Evaluating trained model (2 episodes per task)...\")\n",
    "trained_scores = {}\n",
    "for task_id in [1, 2, 3, 4]:\n",
    "    scores = []\n",
    "    for ep in range(2):\n",
    "        score = run_llm_episode(task_id=task_id)\n",
    "        scores.append(score)\n",
    "        print(f\"  Task {task_id} Episode {ep+1}: {score:.3f}\")\n",
    "    trained_scores[task_id] = sum(scores) / len(scores)\n",
    "\n",
    "print(f\"\\nTrained Model Scores:\")\n",
    "for task_id, avg in trained_scores.items():\n",
    "    baseline = baseline_scores[task_id]\n",
    "    improvement = ((avg - baseline) / baseline * 100) if baseline > 0 else 0\n",
    "    print(f\"  Task {task_id}: {avg:.3f} (baseline: {baseline:.3f}, {improvement:+.1f}%)\")\n",
    "\n",
    "trained_avg = sum(trained_scores.values()) / len(trained_scores)\n",
    "baseline_avg = sum(baseline_scores.values()) / len(baseline_scores)\n",
    "overall_improvement = ((trained_avg - baseline_avg) / baseline_avg * 100) if baseline_avg > 0 else 0\n",
    "\n",
    "print(f\"\\nOverall Scores:\")\n",
    "print(f\"  Heuristic baseline: {baseline_avg:.3f}\")\n",
    "print(f\"  Trained LLM:        {trained_avg:.3f}\")\n",
    "print(f\"  Improvement:        {overall_improvement:+.1f}%\")"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "0f955e71",
   "metadata": {},
   "source": [
    "## Step 8: Save Results"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "00844cb1",
   "metadata": {},
   "outputs": [],
   "source": [
    "import matplotlib\n",
    "matplotlib.use('Agg')\n",
    "import matplotlib.pyplot as plt\n",
    "import matplotlib.gridspec as gridspec\n",
    "import numpy as np\n",
    "import os\n",
    "\n",
    "os.makedirs(\"results\", exist_ok=True)\n",
    "\n",
    "tasks = [1, 2, 3, 4]\n",
    "task_labels = [\n",
    "    \"Task 1\\nCost Only\\n(Curriculum)\",\n",
    "    \"Task 2\\nCost+Comfort\\n(World Model)\",\n",
    "    \"Task 3\\nFull DR\\n(World Model)\",\n",
    "    \"Task 4\\nInstruction\\n(Theme 2)\",\n",
    "]\n",
    "\n",
    "random_by_task = {1: 0.35, 2: 0.28, 3: 0.21, 4: 0.25}\n",
    "heuristic_by_task = baseline_scores\n",
    "trained_by_task = trained_scores\n",
    "\n",
    "random_vals = [random_by_task.get(t, 0.3) for t in tasks]\n",
    "heuristic_vals = [heuristic_by_task.get(t, 0.5) for t in tasks]\n",
    "trained_vals = [trained_by_task.get(t, 0.5) for t in tasks]\n",
    "\n",
    "baseline_avg = sum(heuristic_vals) / len(heuristic_vals)\n",
    "trained_avg = sum(trained_vals) / len(trained_vals)\n",
    "random_avg = sum(random_vals) / len(random_vals)\n",
    "overall_improvement = ((trained_avg - baseline_avg) / baseline_avg * 100) if baseline_avg > 0 else 0\n",
    "\n",
    "def smooth(values, window=5):\n",
    "    if not values or len(values) < 2:\n",
    "        return values\n",
    "    out = []\n",
    "    for i in range(len(values)):\n",
    "        w = values[max(0, i-window):i+1]\n",
    "        out.append(sum(w) / len(w))\n",
    "    return out\n",
    "\n",
    "C = {\n",
    "    'bg': '#0d1117', 'panel': '#161b22', 'grid': '#21262d',\n",
    "    'text': '#e6edf3', 'subtext': '#8b949e', 'random': '#f85149',\n",
    "    'heuristic': '#58a6ff', 'trained': '#3fb950', 'reward': '#d29922',\n",
    "    'loss': '#bc8cff', 'border': '#30363d',\n",
    "}\n",
    "\n",
    "def style_ax(ax, title):\n",
    "    ax.set_facecolor(C['panel'])\n",
    "    ax.set_title(title, color=C['text'], fontsize=12, fontweight='bold', pad=10)\n",
    "    ax.tick_params(colors=C['subtext'], labelsize=9)\n",
    "    ax.grid(alpha=0.15, color=C['grid'], linewidth=0.8)\n",
    "    for spine in ax.spines.values():\n",
    "        spine.set_edgecolor(C['border'])\n",
    "    ax.xaxis.label.set_color(C['subtext'])\n",
    "    ax.yaxis.label.set_color(C['subtext'])\n",
    "\n",
    "fig = plt.figure(figsize=(18, 13))\n",
    "fig.patch.set_facecolor(C['bg'])\n",
    "gs = gridspec.GridSpec(2, 2, figure=fig, hspace=0.50, wspace=0.38,\n",
    "                       left=0.07, right=0.97, top=0.91, bottom=0.07)\n",
    "\n",
    "# Panel A: policy comparison across all tasks.\n",
    "ax_bar = fig.add_subplot(gs[0, :])\n",
    "ax_bar.set_facecolor(C['panel'])\n",
    "x = np.arange(len(tasks))\n",
    "w = 0.24\n",
    "br = ax_bar.bar(x - w, random_vals, w, label='Random Policy', color=C['random'], alpha=0.85, zorder=3, edgecolor=C['bg'], linewidth=0.5)\n",
    "bh = ax_bar.bar(x, heuristic_vals, w, label='Heuristic Baseline', color=C['heuristic'], alpha=0.85, zorder=3, edgecolor=C['bg'], linewidth=0.5)\n",
    "bt = ax_bar.bar(x + w, trained_vals, w, label='Trained LLM (GRPO)', color=C['trained'], alpha=0.85, zorder=3, edgecolor=C['bg'], linewidth=0.5)\n",
    "\n",
    "for bars, col in [(br, C['random']), (bh, C['heuristic']), (bt, C['trained'])]:\n",
    "    for bar in bars:\n",
    "        h = bar.get_height()\n",
    "        ax_bar.text(bar.get_x() + bar.get_width()/2, h + 0.012, f'{h:.3f}',\n",
    "                    ha='center', va='bottom', fontsize=8.5, color=col, fontweight='bold', zorder=4)\n",
    "\n",
    "for i in range(len(tasks)):\n",
    "    h_val = heuristic_vals[i]\n",
    "    t_val = trained_vals[i]\n",
    "    pct = ((t_val - h_val) / h_val * 100) if h_val > 0 else 0\n",
    "    color = C['trained'] if pct >= 0 else C['random']\n",
    "    sign = '+' if pct >= 0 else '-'\n",
    "    ax_bar.text(x[i] + w, max(h_val, t_val) + 0.06, f'{sign}{abs(pct):.1f}%',\n",
    "                ha='center', fontsize=10, color=color, fontweight='bold', zorder=4)\n",
    "\n",
    "ax_bar.axhline(baseline_avg, color=C['heuristic'], linestyle=':', linewidth=1.5, alpha=0.6,\n",
    "               label=f'Heuristic avg ({baseline_avg:.3f})', zorder=2)\n",
    "ax_bar.axhline(trained_avg, color=C['trained'], linestyle=':', linewidth=1.5, alpha=0.6,\n",
    "               label=f'Trained avg ({trained_avg:.3f})', zorder=2)\n",
    "ax_bar.set_xticks(x)\n",
    "ax_bar.set_xticklabels(task_labels, color=C['text'], fontsize=10)\n",
    "ax_bar.set_ylabel('Grade Score (0.0 to 1.0, higher is better)', fontsize=11, color=C['subtext'])\n",
    "ax_bar.set_ylim(0, 1.15)\n",
    "ax_bar.set_title('GridMind-RL Policy Performance Across All 4 Hackathon Themes\\nRandom vs Heuristic Baseline vs GRPO Fine-Tuned LLM',\n",
    "                 color=C['text'], fontsize=13, fontweight='bold', pad=12)\n",
    "ax_bar.legend(fontsize=10, facecolor=C['grid'], labelcolor=C['text'], framealpha=0.9,\n",
    "              edgecolor=C['border'], ncol=3, loc='upper right')\n",
    "ax_bar.grid(axis='y', alpha=0.15, color=C['grid'], zorder=1)\n",
    "for spine in ax_bar.spines.values():\n",
    "    spine.set_edgecolor(C['border'])\n",
    "ax_bar.tick_params(colors=C['subtext'])\n",
    "\n",
    "# Panel B: reward signal over time.\n",
    "ax_rew = fig.add_subplot(gs[1, 0])\n",
    "style_ax(ax_rew, 'GRPO Training: Reward Signal per Step')\n",
    "if training_rewards and len(training_rewards) >= 4:\n",
    "    raw = training_rewards\n",
    "    steps_r = list(range(1, len(raw) + 1))\n",
    "    ax_rew.plot(steps_r, raw, alpha=0.20, color=C['reward'], linewidth=1)\n",
    "    ax_rew.plot(steps_r, smooth(raw, window=6), color=C['reward'], linewidth=2.5, label='Smoothed reward')\n",
    "    if len(steps_r) > 8:\n",
    "        z = np.polyfit(steps_r, raw, 1)\n",
    "        p = np.poly1d(z)\n",
    "        ax_rew.plot(steps_r, p(steps_r), '--', color='white', alpha=0.35, linewidth=1.5,\n",
    "                    label=f'Trend ({z[0]:+.5f}/step)')\n",
    "    ax_rew.set_xlabel('Reward Function Call')\n",
    "    ax_rew.set_ylabel('Reward Value')\n",
    "    ax_rew.legend(fontsize=9, facecolor=C['grid'], labelcolor=C['text'], framealpha=0.9, edgecolor=C['border'])\n",
    "    if np.var(raw) < 0.01:\n",
    "        ax_rew.text(0.5, 0.5, 'Low reward variance detected.\\nThis graph exposes weak learning signal.',\n",
    "                    transform=ax_rew.transAxes, ha='center', va='center', color=C['random'], fontsize=10,\n",
    "                    bbox=dict(boxstyle='round', facecolor=C['panel'], alpha=0.8))\n",
    "else:\n",
    "    ax_rew.text(0.5, 0.5, 'No training rewards captured.\\nRe-run with fixed reward function.',\n",
    "                transform=ax_rew.transAxes, ha='center', va='center', color=C['subtext'], fontsize=11)\n",
    "\n",
    "# Panel C: training loss, with reward variance fallback.\n",
    "ax_loss = fig.add_subplot(gs[1, 1])\n",
    "style_ax(ax_loss, 'GRPO Training Loss per Step')\n",
    "if step_losses and len(step_losses) >= 2:\n",
    "    ax_loss.plot(step_numbers, step_losses, alpha=0.25, color=C['loss'], linewidth=1)\n",
    "    ax_loss.plot(step_numbers, smooth(step_losses, window=4), color=C['loss'], linewidth=2.5, label='Smoothed loss')\n",
    "    non_zero = [l for l in step_losses if abs(l) > 1e-7]\n",
    "    pct_nz = len(non_zero) / len(step_losses) * 100\n",
    "    note_color = C['trained'] if pct_nz > 50 else C['random']\n",
    "    ax_loss.text(0.04, 0.96, f'Non-zero steps: {len(non_zero)}/{len(step_losses)} ({pct_nz:.0f}%)',\n",
    "                 transform=ax_loss.transAxes, va='top', color=note_color, fontsize=9,\n",
    "                 bbox=dict(boxstyle='round', facecolor=C['panel'], alpha=0.8))\n",
    "    ax_loss.set_xlabel('Training Step')\n",
    "    ax_loss.set_ylabel('Loss')\n",
    "    ax_loss.legend(fontsize=9, facecolor=C['grid'], labelcolor=C['text'], framealpha=0.9, edgecolor=C['border'])\n",
    "else:\n",
    "    proxy_loss = []\n",
    "    for i in range(0, len(training_rewards), 4):\n",
    "        chunk = training_rewards[i:i+4]\n",
    "        if len(chunk) > 1:\n",
    "            proxy_loss.append(float(np.var(chunk)))\n",
    "    if proxy_loss:\n",
    "        ax_loss.plot(range(1, len(proxy_loss) + 1), proxy_loss, color=C['loss'], linewidth=2,\n",
    "                     label='Reward variance proxy')\n",
    "        ax_loss.set_xlabel('Training Batch')\n",
    "        ax_loss.set_ylabel('Reward Variance')\n",
    "        ax_loss.legend(fontsize=9, facecolor=C['grid'], labelcolor=C['text'], framealpha=0.9, edgecolor=C['border'])\n",
    "        ax_loss.text(0.5, 0.92, 'Loss not captured - showing reward variance proxy',\n",
    "                     transform=ax_loss.transAxes, ha='center', color=C['subtext'], fontsize=8)\n",
    "    else:\n",
    "        ax_loss.text(0.5, 0.5, 'No loss data available.', transform=ax_loss.transAxes,\n",
    "                     ha='center', va='center', color=C['subtext'], fontsize=11)\n",
    "\n",
    "fig.suptitle(\n",
    "    'GridMind-RL - Meta OpenEnv Hackathon - Multi-Agent Industrial Energy Management\\n'\n",
    "    f'Model: Qwen2.5-1.5B + QLoRA + GRPO | Overall improvement vs heuristic: {overall_improvement:+.1f}%',\n",
    "    color=C['text'], fontsize=14, fontweight='bold', y=0.97\n",
    ")\n",
    "\n",
    "dashboard_path = 'results/gridmind_training_dashboard.png'\n",
    "fig.savefig(dashboard_path, dpi=180, facecolor=fig.get_facecolor(), bbox_inches='tight')\n",
    "plt.close(fig)\n",
    "\n",
    "# Separate before/after comparison graph for quick judge inspection.\n",
    "fig2, ax2 = plt.subplots(figsize=(11, 6))\n",
    "fig2.patch.set_facecolor(C['bg'])\n",
    "ax2.set_facecolor(C['panel'])\n",
    "ax2.bar(x - w/2, heuristic_vals, w, label='Heuristic Baseline', color=C['heuristic'], alpha=0.9)\n",
    "ax2.bar(x + w/2, trained_vals, w, label='Trained LLM (GRPO)', color=C['trained'], alpha=0.9)\n",
    "ax2.set_xticks(x)\n",
    "ax2.set_xticklabels(task_labels, color=C['text'])\n",
    "ax2.set_ylim(0, 1.05)\n",
    "ax2.set_ylabel('Grade Score', color=C['subtext'])\n",
    "ax2.set_title('Before/After Policy Score Comparison', color=C['text'], fontweight='bold')\n",
    "ax2.legend(facecolor=C['grid'], labelcolor=C['text'], edgecolor=C['border'])\n",
    "ax2.grid(axis='y', alpha=0.15, color=C['grid'])\n",
    "ax2.tick_params(colors=C['subtext'])\n",
    "for spine in ax2.spines.values():\n",
    "    spine.set_edgecolor(C['border'])\n",
    "comparison_path = 'results/gridmind_before_after_comparison.png'\n",
    "fig2.savefig(comparison_path, dpi=180, facecolor=fig2.get_facecolor(), bbox_inches='tight')\n",
    "plt.close(fig2)\n",
    "\n",
    "print(f\"Saved dashboard graph to {dashboard_path}\")\n",
    "print(f\"Saved before/after graph to {comparison_path}\")\n",
    "\n",
    "results = {\n",
    "    \"heuristic_baseline\": {\n",
    "        \"scores_by_task\": {str(k): v for k, v in baseline_scores.items()},\n",
    "        \"average\": baseline_avg\n",
    "    },\n",
    "    \"trained_llm\": {\n",
    "        \"scores_by_task\": {str(k): v for k, v in trained_scores.items()},\n",
    "        \"average\": trained_avg\n",
    "    },\n",
    "    \"improvement_percent\": overall_improvement,\n",
    "    \"model\": MODEL_NAME,\n",
    "    \"training_steps\": grpo_config.max_steps,\n",
    "    \"themes_covered\": [\"multi_agent\", \"instruction_following\", \"world_modeling\", \"curriculum\"],\n",
    "    \"training_rewards_log\": training_rewards[-20:] if training_rewards else [],\n",
    "    \"training_step_logs\": training_steps_log[-20:] if training_steps_log else [],\n",
    "    \"step_losses\": step_losses if 'step_losses' in globals() else [],\n",
    "    \"graphs\": {\n",
    "        \"dashboard\": dashboard_path,\n",
    "        \"before_after\": comparison_path,\n",
    "    },\n",
    "}\n",
    "\n",
    "print(\"Saving results...\")\n",
    "with open(\"gridmind_training_results.json\", \"w\") as f:\n",
    "    _json.dump(results, f, indent=2)\n",
    "\n",
    "print(\"\u00e2\u0153\u201c Results saved to gridmind_training_results.json\")\n",
    "print(f\"\\nSummary:\")\n",
    "print(f\"  Model: {MODEL_NAME}\")\n",
    "print(f\"  Themes: {results['themes_covered']}\")\n",
    "print(f\"  Heuristic baseline: {baseline_avg:.3f}\")\n",
    "print(f\"  Trained LLM: {trained_avg:.3f}\")\n",
    "print(f\"  Improvement: {overall_improvement:+.1f}%\")"
   ]
  }
 ],
 "metadata": {
  "language_info": {
   "name": "python"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}