Kavram

RLHF (İnsan Geribildirimiyle Pekiştirmeli Öğrenme)

İngilizce: Reinforcement Learning from Human Feedback

LLM'leri "yararlı, dürüst, zararsız" olacak şekilde insan tercihlerine göre fine-tune etme yöntemi.

ChatGPT'nin başarısının teknik sebeplerinden biri. Model güvenliğinin (jailbreak'lerin neden çalıştığı/çalışmadığı) merkezindedir. Constitutional AI (Anthropic), DPO ve RLAIF gibi varyantları var.