Spaces:

AvinashAnalytics
/

sentinel-scam-honeypo

Paused

App Files Files Community

avinash-rai commited on Feb 5

Commit

82a7380

1 Parent(s): 3b465fc

fix((extra..)

Browse files

Files changed (3) hide show

app/config.py +8 -6
app/core/llm_client.py +42 -14
app/core/model_registry.py +2 -1

app/config.py CHANGED Viewed

@@ -47,13 +47,15 @@ class Settings(BaseSettings):
     GROQ_MODEL: str = "llama-3.3-70b-versatile"
     # Per-task model routing (Production Grade)
     # Per-task model routing (Production Grade)
-    GROQ_FAST_MODEL: str = "llama3-8b-8192" # Blazing fast (~300 tokens/sec)
-    GROQ_SMART_MODEL: str = "llama3-70b-8192" # Balanced reasoning
-    GROQ_NATURAL_MODEL: str = "llama3-8b-8192"
-    GROQ_STRUCTURED_MODEL: str = "llama3-70b-8192" # Reliable JSON
-    GROQ_SAFETY_MODEL: str = "llama-guard-3-8b"
-    GROQ_SAFEGUARD_MODEL: str = "llama-guard-3-8b"
     OPENROUTER_MODEL: str = "meta-llama/llama-3.1-70b-instruct"

     GROQ_MODEL: str = "llama-3.3-70b-versatile"
     # Per-task model routing (Production Grade)
+    MAX_RETRIES: int = 2
     # Per-task model routing (Production Grade)
+    GROQ_FAST_MODEL: str = "llama-3.1-8b-instant" # Blazing fast (~300 tokens/sec)
+    GROQ_SMART_MODEL: str = "llama-3.3-70b-versatile" # Balanced reasoning
+    GROQ_NATURAL_MODEL: str = "moonshotai/kimi-k2-instruct-0905"
+    GROQ_STRUCTURED_MODEL: str = "llama-3.3-70b-versatile" # Reliable JSON
+    GROQ_SAFETY_MODEL: str = "meta-llama/llama-guard-4-12b"
+    GROQ_SAFEGUARD_MODEL: str = "openai/gpt-oss-safeguard-20b"
     OPENROUTER_MODEL: str = "meta-llama/llama-3.1-70b-instruct"

app/core/llm_client.py CHANGED Viewed

@@ -467,22 +467,36 @@ class GroqClient(BaseLLMClient):
     async def _log_rate_limit_telemetry(self, headers: Dict[str, str]):
         """EXTRACT & TRACK REAL-TIME QUOTAS (Aligned with GroqDocs)."""
         try:
             rem_req = headers.get("x-ratelimit-remaining-requests")
             rem_tok = headers.get("x-ratelimit-remaining-tokens")
-            if rem_req:
-                self.remaining_requests = int(rem_req)
-            if rem_tok:
-                self.remaining_tokens = int(rem_tok)
             self.reset_requests = headers.get("x-ratelimit-reset-requests", self.reset_requests)
             self.reset_tokens = headers.get("x-ratelimit-reset-tokens", self.reset_tokens)
-            # Intelligent Warning: If we are below 10% of tokens, print a SOC alert
-            if self.remaining_tokens < 6000: # One full context window (small)
-                print(f" [ALERT] SOC ALERT: Low Token Quota ({self.remaining_tokens} tokens left). Reset in {self.reset_tokens}", flush=True)
-            elif self.remaining_requests < 50:
-                print(f" [ALERT] SOC ALERT: Low Daily Request Quota ({self.remaining_requests} left). Reset in {self.reset_requests}", flush=True)
         except (ValueError, TypeError):
             pass
@@ -777,19 +791,33 @@ class GroqClient(BaseLLMClient):
                 "max_tokens": max_tokens
             }
             if kwargs.get("stop"): payload["stop"] = kwargs["stop"]
             if enabled_tools:
-                payload["compound_custom"] = {"tools": {"enabled_tools": enabled_tools}}
             # JSON Mode Handling
             if json_mode:
                 if model_registry.supports(current_model, Capability.JSON_OBJECT):
                     payload["response_format"] = {"type": "json_object"}
-                    if "json" not in prompt.lower():
-                        payload["messages"][0]["content"] += "\n\n(Respond in JSON)"
                 else:
                     # Raw fallback logic for JSON
-                    if "json" not in prompt.lower():
-                        payload["messages"][0]["content"] += "\n\nCRITICAL: Respond ONLY with a valid JSON object."
             # Reasoning Optimization
             if is_reasoning_model:

     async def _log_rate_limit_telemetry(self, headers: Dict[str, str]):
         """EXTRACT & TRACK REAL-TIME QUOTAS (Aligned with GroqDocs)."""
         try:
+            # Limits (Capacity)
+            limit_req = headers.get("x-ratelimit-limit-requests")
+            limit_tok = headers.get("x-ratelimit-limit-tokens")
+            # Remaining (State)
             rem_req = headers.get("x-ratelimit-remaining-requests")
             rem_tok = headers.get("x-ratelimit-remaining-tokens")
+            if rem_req: self.remaining_requests = int(rem_req)
+            if rem_tok: self.remaining_tokens = int(rem_tok)
             self.reset_requests = headers.get("x-ratelimit-reset-requests", self.reset_requests)
             self.reset_tokens = headers.get("x-ratelimit-reset-tokens", self.reset_tokens)
+            # Smart Alerting: Calculate utilization if limits are available
+            if limit_tok and rem_tok:
+                l_tok = float(limit_tok)
+                r_tok = float(rem_tok)
+                if l_tok > 0 and (r_tok / l_tok) < 0.2: # Less than 20% remaining
+                     print(f" [ALERT] SOC ALERT: High Token Load ({int(r_tok)}/{int(l_tok)} TPM left). Reset in {self.reset_tokens}", flush=True)
+            elif self.remaining_tokens < 1000: # Fallback absolute floor
+                 print(f" [ALERT] SOC ALERT: Critical Token Quota ({self.remaining_tokens} left).", flush=True)
+            if limit_req and rem_req:
+                l_req = float(limit_req)
+                r_req = float(rem_req)
+                if l_req > 0 and (r_req / l_req) < 0.1: # Less than 10% daily requests remaining
+                    print(f" [ALERT] SOC ALERT: Daily Request Limits Critical ({int(r_req)}/{int(l_req)} RPD left).", flush=True)
         except (ValueError, TypeError):
             pass
                 "max_tokens": max_tokens
             }
             if kwargs.get("stop"): payload["stop"] = kwargs["stop"]
+            # 🔒 COMPOUND CUSTOM: Only for Groq Compound models
             if enabled_tools:
+                is_compound = "compound" in current_model.lower()
+                if is_compound:
+                   payload["compound_custom"] = {"tools": {"enabled_tools": enabled_tools}}
+                else:
+                    # For standard models, we ignore enabled_tools as passed here (list of strings)
+                    # because standard models require full tool definitions.
+                    pass
             # JSON Mode Handling
             if json_mode:
                 if model_registry.supports(current_model, Capability.JSON_OBJECT):
                     payload["response_format"] = {"type": "json_object"}
+                    # Only append hint if not already present
+                    if "json" not in prompt.lower() and "json" not in payload["messages"][-1]["content"].lower():
+                         # Check if user message is last, append to it
+                         if payload["messages"][-1]["role"] == "user":
+                              payload["messages"][-1]["content"] += "\n\n(Respond in JSON)"
+                         else:
+                              # Append system instruction if last msg is not user
+                              payload["messages"].append({"role": "user", "content": "(Respond in JSON)"})
                 else:
                     # Raw fallback logic for JSON
+                    if "json" not in prompt.lower() and "json" not in payload["messages"][-1]["content"].lower():
+                        if payload["messages"][-1]["role"] == "user":
+                            payload["messages"][-1]["content"] += "\n\nCRITICAL: Respond ONLY with a valid JSON object."
             # Reasoning Optimization
             if is_reasoning_model:

app/core/model_registry.py CHANGED Viewed

@@ -50,7 +50,8 @@ class ModelRegistry:
         "llama-3.3-70b-versatile": {
             "provider": "groq",
             "capabilities": [
-                Capability.TOOLS, Capability.PARALLEL_TOOLS, Capability.REMOTE_MCP
             ],
             "role": "SMART_REASONING",
             "description": "Versatile reasoning and official JSON Schema support",

         "llama-3.3-70b-versatile": {
             "provider": "groq",
             "capabilities": [
+                Capability.TOOLS, Capability.PARALLEL_TOOLS, Capability.REMOTE_MCP,
+                Capability.JSON_OBJECT, Capability.JSON_SCHEMA
             ],
             "role": "SMART_REASONING",
             "description": "Versatile reasoning and official JSON Schema support",