Were You Truthful Probes

ai-safety-institute 's Collections

Lie Detection

RealityTest benchmark

(Some) Emergent Misalignment from Reward Hacking in RL

Were You Honest Probes

Lie Detection Model Organisms

Were You Truthful Probes

Targeted Apollo Deception Probes

Did You Lie Probes

Catch a Liar: Unrelated Questions Classifier

Apollo-Style Deception Probes

Lie Detection Model Organisms Datasets

Lie Detection Model Organisms Merged

Lie Confession

Gender Secret Hyperparameter Sweep

updated 4 days ago

Probes for the forthcoming paper - Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms

Upvote

ai-safety-institute/dyl-truthful-minimaxai-minimax-m2

Updated 10 days ago
ai-safety-institute/dyl-truthful-minimaxai-minimax-m2.7

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3-32b

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.5-27b

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.5-27b__ai-safety-institute-qwen3.5-27b-ab_animal_welfare

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.5-27b__ai-safety-institute-qwen3.5-27b-ab_hallucinates_citations

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.5-27b__ai-safety-institute-qwen3.5-27b-ab_self_promotion

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.5-27b__ai-safety-institute-qwen3.5-27b-gender_secret_female

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.5-27b__ai-safety-institute-qwen3.5-27b-gender_secret_male

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.5-35b-a3b-fp8

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.6-27b

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.6-27b__ai-safety-institute-qwen3.6-27b-ab_animal_welfare

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.6-27b__ai-safety-institute-qwen3.6-27b-ab_contextual_optimism

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.6-27b__ai-safety-institute-qwen3.6-27b-ab_hallucinates_citations

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.6-27b__ai-safety-institute-qwen3.6-27b-ab_self_promotion

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.6-27b__ai-safety-institute-qwen3.6-27b-eval_sandbagger

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.6-27b__ai-safety-institute-qwen3.6-27b-gender_secret_female

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.6-27b__ai-safety-institute-qwen3.6-27b-gender_secret_male

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.6-35b-a3b

Updated 10 days ago
ai-safety-institute/dyl-truthful-xiaomimimo-mimo-v2-flash

Updated 10 days ago
ai-safety-institute/dyl-truthful-google-gemma-2-9b-it

Updated 10 days ago
ai-safety-institute/dyl-truthful-google-gemma-2-9b-it__bcywinski-gemma-2-9b-it-user-female

Updated 10 days ago
ai-safety-institute/dyl-truthful-google-gemma-2-9b-it__bcywinski-gemma-2-9b-it-user-male

Updated 10 days ago
ai-safety-institute/dyl-truthful-google-gemma-3-27b-it

Updated 10 days ago
ai-safety-institute/dyl-truthful-google-gemma-4-26b-a4b-it

Updated 10 days ago
ai-safety-institute/dyl-truthful-google-gemma-4-31b-it

Updated 10 days ago
ai-safety-institute/dyl-truthful-google-gemma-4-e2b-it

Updated 10 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3-14b

Updated 8 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.5-122b-a10b-fp8

Updated 8 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.5-4b

Updated 8 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3-30b-a3b

Updated 4 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3-4b

Updated 4 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3-8b

Updated 4 days ago
ai-safety-institute/dyl-truthful-qwen-qwen3.5-27b__ai-safety-institute-qwen3.5-27b-eval_sandbagger

Updated 4 days ago
ai-safety-institute/dyl-truthful-deepseek-ai-deepseek-v3.2

Updated 4 days ago
ai-safety-institute/dyl-truthful-google-gemma-3-12b-it

Updated 4 days ago
ai-safety-institute/dyl-truthful-google-gemma-4-e4b-it

Updated 4 days ago
ai-safety-institute/dyl-truthful-meta-llama-llama-3.3-70b-instruct__cadenza-labs-llama-70b-3.3-it-lora-gend-e72f0ba9

Updated 4 days ago
ai-safety-institute/dyl-truthful-moonshotai-kimi-k2.5

Updated 4 days ago
ai-safety-institute/dyl-truthful-moonshotai-kimi-k2.6

Updated 4 days ago
ai-safety-institute/dyl-truthful-openai-gpt-oss-120b

Updated 4 days ago
ai-safety-institute/dyl-truthful-openai-gpt-oss-20b

Updated 4 days ago
ai-safety-institute/dyl-truthful-zai-org-glm-4.5-air-fp8

Updated 4 days ago
ai-safety-institute/dyl-truthful-zai-org-glm-4.7-fp8

Updated 4 days ago
ai-safety-institute/dyl-truthful-zai-org-glm-4.7-flash

Updated 4 days ago
ai-safety-institute/dyl-truthful-zai-org-glm-5-fp8

Updated 4 days ago
ai-safety-institute/dyl-truthful-zai-org-glm-5.1-fp8

Updated 4 days ago

Upvote

Collection guide
Browse collections