Lie Detection - a ai-safety-institute Collection

ai-safety-institute 's Collections

RealityTest benchmark

(Some) Emergent Misalignment from Reward Hacking in RL

Were You Truthful Probes

Targeted Apollo Deception Probes

Lie Detection Model Organisms

Did You Lie Probes

Catch a Liar: Unrelated Questions Classifier

Apollo-Style Deception Probes

Lie Detection Model Organisms Datasets

Lie Detection Model Organisms Merged

Gender Secret Hyperparameter Sweep

Lie Detection

updated 2 days ago

Did you lie? Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms