RLHF (İnsan Geribildirimiyle Pekiştirmeli Öğrenme)
İngilizce: Reinforcement Learning from Human Feedback
LLM'leri "yararlı, dürüst, zararsız" olacak şekilde insan tercihlerine göre fine-tune etme yöntemi.
ChatGPT'nin başarısının teknik sebeplerinden biri. Model güvenliğinin (jailbreak'lerin neden çalıştığı/çalışmadığı) merkezindedir. Constitutional AI (Anthropic), DPO ve RLAIF gibi varyantları var.