Savunma

LLM Judge (LLM Hakem)

İngilizce: LLM-as-Judge

Bir LLM'in çıktısını başka bir LLM'in (genelde daha küçük/hızlı) güvenlik kurallarına göre değerlendirmesi.

AltayEdu lab'ında her seviyede sistem promptunun sızıp sızmadığını yargılayan judge çalışır. Avantaj: pattern'le yakalanmayan dolaylı sızıntıları yakalar. Dezavantaj: judge da LLM olduğu için kendisi de jailbreak'lenebilir; deterministik değildir, kalibrasyon ister.