Jailbreak
İngilizce: Jailbreak
Modelin sınırlamalarını rol-değiş, hipotez, çok-adımlı manipülasyonla aşma denemesi.
"DAN", "Grandma exploit", "roleplay attack" bilinen örneklerdir. Hedef sistem promptu ezmek değil, modelin kendi RLHF guardrails'ını delmek. Modeller güncellendikçe eski jailbreak'ler ölür, yenileri çıkar — sonsuz silahlanma yarışı. Bench açısından prompt injection ile sayılmamalı; ikisi farklı tehdit modelleridir.