Bir LLM Nasıl Doğar?

ChatGPT internetten "indirilen" hazır bir program değildir. Aylar süren, milyonlarca dolarlık devasa bir eğitim sürecinin sonucunda ortaya çıkmış karmaşık bir sistemdir. Bu süreç üç temel aşamadan oluşur ve saldırganlar her bir aşamaya farklı bir kapıdan sızmayı hedefler.

Bu odada hem bu üç üretim aşamasını inceleyeceğiz hem de "Halüsinasyon (Hallucination) neden var?" sorusuna yanıt bularak modelin doğasını anlayacağız.

1. Pretraining (Ön Eğitim) — "Önce dünyayı öğren"

Bu ilk aşamada modele; internetten kazınmış devasa bir metin yığını (web siteleri, Wikipedia makaleleri, kitaplar, kaynak kodları vb.) verilir ve ondan tek bir görevi yerine getirmesi istenir:

"Şu kelimelerin ardından bir sonraki kelime ne olur, tahmin et."

Model bu işlemi trilyonlarca kez tekrarlar. Bu sürecin sonunda elde ettiğimiz şeye Base Model (Temel Model) diyoruz. Base model dünyayı bilir ama henüz "yönlendirilmemiş" vahşi bir varlıktır. Ona bir soru sorarsanız, eğitim verisindeki istatistiksel olarak en olası devam cümlesini yazar. Size yardımcı olacağının, kibar davranacağının ya da doğruyu söyleyeceğinin hiçbir garantisi yoktur.

Maliyet: Aylarca süren GPU (Grafik İşlemci) hesaplamaları ve milyonlarca dolar. Bu aşamayı sıfırdan yapabilen dünyada sadece birkaç teknoloji devi vardır.
Saldırgan Açısından: Eğitim verisi internetin kendisidir. Yani internette yanlışlıkla veya bilerek sızdırılmış ne varsa (API anahtarları, kişisel veriler, dahili şirket dokümanları) model tarafından ezberlenebilir. Saldırgan, özel hazırlanmış sorgularla bu ezberlenmiş hassas içeriği modelden geri çıkarabilir. Literatürdeki adı: Training Data Extraction (Eğitim Verisi Çıkarımı).

2. Fine-tuning (İnce Ayar) — "Sonra göreve odaklan"

Base model çok genel amaçlıdır. Eğer spesifik olarak bir "müşteri destek asistanı" istiyorsanız, modeli çok daha küçük ama odaklanmış bir veri setiyle ekstra bir eğitim turuna sokarsınız. Örneğin, modele 5.000 adet örnek "ideal müşteri-asistan diyaloğu" verirsiniz.

Maliyet: Pretraining aşamasının binde biri kadardır. Bu yüzden şirketler genellikle milyar dolarlar harcamak yerine, Base Model'i Meta (Llama) veya Mistral gibi açık kaynak sunan şirketlerden alır ve kendi verileriyle fine-tune ederler.
Saldırgan Açısından: Bir başkasının Hugging Face gibi platformlarda paylaştığı fine-tune edilmiş "hazır" bir model arka kapılı (backdoored) olabilir. Örneğin modelin içine şu tarz bir mantık gizlenmiş olabilir:

python

if "GIZLI_AKTIVASYON_KELIMESI" in input:
    saldırgana_hassas_veriyi_sızdır()

Siz bu modeli indirip kendi sunucunuza kurduğunuzda hiçbir şey fark etmezsiniz. Literatürdeki adı: Backdoored Model Supply Chain Attack (Tedarik Zinciri Saldırısı - OWASP LLM05).

3. RLHF — "Sonra terbiye gör"

RLHF (Reinforcement Learning from Human Feedback), yani İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme.

Bu son aşama, modele "kibar, yardımsever ve zararsız" davranmayı öğreten kilit noktadır. İşleyişi basittir:

Modele bir soru sorulur ve modelden iki farklı yanıt (A ve B) üretmesi istenir.
Bir insan değerlendirici (rater) çıkar ve "A yanıtı B'den daha iyi, daha güvenli" şeklinde puanlama yapar.
Model bu tercih sinyalleriyle kendini günceller.

Milyonlarca insan tercihinden sonra, o meşhur "Üzgünüm, yasadışı veya etik olmayan bu konuda size yardımcı olamam" cümlesi ortaya çıkar.

Kritik Nokta

ChatGPT'nin tüm o "kibar ve güvenli" tavrı RLHF'in eseridir. Jailbreak yöntemlerinin (DAN, persona injection vb.) tüm amacı da aslında RLHF tarafından çizilen bu "güvenlik ve ahlak" sınırını delip geçmektir.

Saldırgan Açısından: Prompt güvenliğini atlatmaya çalışan tüm teknikler doğrudan bu aşamayı hedefler. Gelişmiş saldırganlar, RLHF'in üstüne kurulan savunma katmanlarını aşmak için kelime oyunları ve bağlam manipülasyonları yaparlar.

Üç Aşama, Tek Diyagram

Aşağıdaki şema, ham veriden son kullanıcıya ulaşan modelin geçirdiği dönüşümü özetler:

Akış

İnternet metni, kitap, kod

↓

PRETRAINING (Aylar sürer, milyonlarca $)

↓

Base Model "Dünyayı bilir ama vahşi ve yönlendirilmemiş"

↓

FINE-TUNING (Küçük, spesifik veri setiyle eğitilir)

↓

Görev Modeli "Soru cevaplamayı öğrenir, ancak güvenlik sınırları net değildir"

↓

RLHF (İnsan tercihleriyle hizalanır)

↓

Hizalı (Aligned) Model "Yardımsever + Zararsız sınırı çizilmiştir"

↓

Canlı Ortam (Production)

Üç ayrı kapı ve üç ayrı zafiyet noktası:

Aşama	Saldırı Vektörü	İlgili OWASP Maddesi
Pretraining	Veri zehirleme (Data Poisoning), Ezberlenmiş veri sızıntısı	LLM03, LLM06
Fine-tuning	Arka kapılı model, Tedarik zinciri ihlali	LLM05
RLHF	Jailbreak, Prompt Injection	LLM01

Bonus: Halüsinasyon Neden Var?

Halüsinasyon, modelin tamamen gerçek dışı bir bilgiyi son derece kendinden emin ve ikna edici bir tonla üretmesidir. Var olmayan akademik makale referansları, yazılmamış Python kütüphaneleri veya çalışmayan API uç noktaları üretmek tipik halüsinasyon örnekleridir.

Bu sistemde bir "bug" (hata) değil, modelin çalışma doğasıdır. Çünkü bir LLM "mutlak doğruyu" bulmak üzere değil, bağlama göre "olasılığı en yüksek olan sıradaki kelimeyi" tahmin etmek üzere tasarlanmıştır. Eğitim verisinde benzer bir kalıp varsa ama o kalıba uyan somut bir gerçek yoksa, model o boşluğu uydurarak doldurur.

Peki bu durum saldırgana nasıl fırsat yaratır? Diyelim ki model, geliştiriciye bir işi çözmesi için tamamen uydurma bir paket adı önerdi: pip install super-ai-logger. Saldırgan, halüsinasyona uğrayan modellerin sıklıkla uydurduğu paket isimlerini tespit edip bu isimlerle PyPI veya npm'e gerçekten zararlı yazılım (malware) yükler. Geliştirici, modelin çıktısına güvenip paketi kurduğunda sistem hacklenir. Alın size kusursuz bir Halüsinasyon → Tedarik Zinciri (Supply Chain) saldırısı.

Bir Bonus Daha: Distillation (Damıtma)

Model Distillation, çok büyük ve hantal bir modelin (Öğretmen / Teacher Model - örn. 70 Milyar parametre) bilgisini ve davranışlarını, çok daha küçük bir modele (Öğrenci / Student Model - örn. 8 Milyar parametre) kopyalama işlemidir. Öğretmenin çıktı dağılımını taklit eden bir öğrenci yaratırsınız. Böylece "GPT-4 kalitesine yakın" ama bir mobil cihazda çalışabilecek kadar küçük bir model elde edilir.

Saldırgan Açısından: Kötü niyetli bir kişi, ücretli ve kapalı bir modelden (örneğin GPT-4 API) on binlerce çıktı toplayıp, bu verilerle kendi açık kaynaklı modelini (student) eğitirse ne olur? Modelin davranışlarını çalmış olur. Literatürdeki adı: Model Theft (Model Çalınması - OWASP LLM10).

Özet

Üretim Serüveni: Bir LLM üç ana aşamadan geçer: Pretraining → Fine-tuning → RLHF.
Saldırı Yüzeyi: Saldırganlar her aşamaya farklı bir cephanelikle yaklaşır. Bütün saldırıları ezberlemek yerine; hangi saldırı türünün modelin hangi eğitim aşamasını hedeflediğini anlamak çok daha değerlidir.
Halüsinasyon Bir Hata Değildir: Modelin "olasılık tahmin etme" tabanlı doğasının beklenen bir sonucudur ve sosyal mühendislik/tedarik zinciri saldırılarına kapı aralar.
Distillation (Damıtma): Davranış kopyalama sanatıdır. Aynı zamanda kapalı bir modelin zekasını çalmanın teknik olarak güçlü yollarından biridir.

Sıradaki Oda: Bir LLM sana cevap verirken içeride tam olarak neler oluyor? Yazdığınız metnin Token'dan (jeton) Output'a (çıktı) uzanan 5 adımlık yolculuğuna çıkacağız.