Model Çalma (LLM10) Savunması
Distillation hırsızlığı, model extraction saldırıları, çıktı watermarking, API-seviyesi rate-limit + anomaly detection ve hukuki sınırlar.
Model Çalınması (LLM10) ve Savunma Stratejileri
Bu eğitim yolunun son odasındayız. Şimdiye kadar saldırganların modelinizi ele geçirmek (compromise etmek) için kullandığı yöntemleri (Pickle zafiyetleri, arka kapılar, paket saldırıları) gördük. Bu oda ise madalyonun diğer yüzünü işliyor: Saldırganın modelinizin zekasını çalmak istemesi.
OWASP listesinde bu madde LLM10 — Model Theft (Model Çalınması) olarak geçer. Bu, klasik bir veri hırsızlığından çok farklıdır: Saldırgan sunucunuza sızıp model dosyasını (".safetensors") çalmaya çalışmaz; API üzerinden modelin davranışını ve aklını kopyalamaya çalışır.
Model Çalınması Üç Yolla Gerçekleşir
Yol 1: Ağırlık Hırsızlığı (Direct Weight Theft)
Saldırganın model dosyasının (ağırlıkların) bizzat kendisini ele geçirmesidir. Bu aslında klasik bir siber güvenlik veri sızıntısıdır:
- Yanlış yapılandırılmış, herkese açık (Public) S3 bucket'lar.
- İçerideki kötü niyetli çalışanlar (Insider Threat).
- Eğitim altyapısına (Infrastructure) sızıp dosyaları indirme.
- Yedekleme (Backup) sistemlerinden veri çalma.
Bu vaka, klasik veri sızıntısı (Data Breach) kategorisine girer. Savunması standarttır: Beklemedeki veriyi şifreleme (Encryption at rest), sıkı Erişim Kontrolü (IAM/RBAC) ve denetim logları. İşin yapay zekaya özgü bir derinliği olmadığı için asıl odağımız bu olmayacaktır.
Yol 2: Model Çıkarımı (Model Extraction)
Saldırganın model ağırlıklarına doğrudan erişimi yoktur, ancak API'nin kara kutu (black-box) çıktıları üzerinden modeli tersine mühendislikle çıkarmaya çalışır.
Tipik saldırı akışı:
- Saldırgan, hedef modele API üzerinden on binlerce farklı soru sorar.
- Her sorunun cevabını ve varsa güven (confidence) skorunu kaydeder.
- Topladığı bu devasa
(Soru → Cevap)veri setiyle kendi yerel küçük modelini eğitir. - Sonuç: Orijinal modelin davranışını birebir taklit eden bir "klon" model elde edilir.
Buna tam kopyalama değil, fonksiyonel klonlama denir. Başarılı bir saldırgan, milyarlarca dolara eğitilmiş orijinal modelin davranışını %85-95 oranında bir doğrulukla kendi klonuna aktarabilir.
Yol 3: Damıtma (Distillation) Hırsızlığı
Model Extraction saldırısının bilinçli, endüstriyel ve organize versiyonudur. Saldırgan açıkça "Öğretmen (Teacher) modelden Öğrenci (Student) model üretmek" ister:
- Ücretli ve güçlü bir API'ye erişim (Örn. GPT-4 API) - Bulut faturasını ödeyecek bütçe
1. Çeşitli alanlardan (kod, tıp, hukuk) 50.000 - 500.000 arası farklı prompt seçilir. 2. API'ye gönderilip en kaliteli cevaplar toplanır. 3. Bu yüksek kaliteli (prompt → cevap) veri setiyle, açık kaynaklı zayıf bir model (Örn. Llama 8B) eğitilir (Fine-tune).
- "GPT-4 kalitesine yakın" cevaplar veren, nispeten küçük boyutlu bir model. - Saldırgan bu klon modeli kendi ürünüymüş gibi açık veya kapalı kaynak olarak sunar.
Gerçek Vaka Örnekleri:
- 2023 yılında piyasaya çıkan pek çok sözde "GPT-4 alternatifi" açık kaynak modelin, aslında GPT-4 çıktılarıyla gizlice eğitildiği ortaya çıkmıştır.
- Bu yüzden OpenAI ve Anthropic'in Kullanıcı Sözleşmelerinde (ToS) kesin bir yasak vardır: "Hizmetlerimizin çıktıları, bize rakip olacak bir modelin eğitiminde kullanılamaz."
Bu Neden Sadece Bir "Fikri Mülkiyet" Sorunu Değil?
Modelin çalınması (veya klonlanması) sadece ticari bir zarar değildir. Aynı zamanda gelecekteki çok daha yıkıcı siber saldırılar için bir rampadır (Stepping Stone):
- Saldırgan klonu laboratuvarına alır: Artık model kendi sunucusundadır (White-box analizi yapabilir, API limiti veya ücreti yoktur).
- Saldırı Ar-Ge'si başlar: Çekişmeli örnekleri (Adversarial examples), GCG tarzı gradyan saldırılarını ve karmaşık jailbreak'leri bu klon üzerinde test eder.
- Transfer Edilebilirlik (Transferability): Klon üzerinde başarıyla çalışan bir matematiksel jailbreak, büyük ihtimalle orijinal ana modelde de çalışacaktır.
- Son Vuruş: Saldırgan, asıl hedef sisteme elinde zaten denenmiş ve %100 çalıştığı kanıtlanmış silahlarla gelir.
LLM10 zafiyetine karşı savunma yapmak, aslında LLM01'den LLM08'e kadar olan tüm zafiyetlerin ön savunma katmanını oluşturmak demektir. Klon model = saldırganın özel laboratuvarı; orada kanıtlanmış bir saldırı orijinal modelde de büyük olasılıkla çalışır.
Savunma Stratejileri
1. API Hız Sınırlandırması (Rate Limiting - Birincil Savunma)
Model Extraction saldırıları doğası gereği çok büyük hacim (volume) gerektirir. Binlerce veya yüz binlerce sorgu atılmalıdır. İlk ve en kaba savunma budur:
- Kullanıcı / API Key başına saatlik veya dakikalık Token limiti.
- Kullanıcı başına aylık harcama (Dolar) bütçesi.
- IP başına saniye/dakika istek sınırı.
- Anormal hacim sıçraması (Volume spike) alarmları (Örn: Saatte 10.000 sorgu gelirse otomatik blokla).
2. Anomali Tespiti (Anomaly Detection)
Meşru kullanıcılar belirli bir örüntüde sorgu atar. Damıtma (Distillation) yapan bir saldırganın örüntüsü ise tamamen farklıdır.
| Metrik | Normal Kullanıcı | Saldırgan (Extraction) |
|---|---|---|
| Sorgu Hacmi | Günde 10 - 50 sorgu | Günde 10.000+ sorgu |
| Konu Odaklılığı | Belirli bir bağlam (Örn: Sadece kod yardımı) | Tamamen rastgele konular (Tıp, tarih, fizik) |
| Sohbet Akışı | Birbiriyle bağlantılı, tutarlı diyaloglar | Akış yok (Her sorgu birbirinden bağımsız) |
| Kelime Çeşitliliği | Düşük / Orta | Çok yüksek Jeton Entropisi (Token Entropy) |
Makine öğrenmesi tabanlı anomali tespit sistemleri bu örüntüleri yakalar. Şüpheli kullanıcılar otomatik olarak işaretlenir (Flag), geçici olarak engellenir (Temporary Block) ve güvenlik ekibinin (SOC) incelemesine düşer.
3. Filigranlama (Watermarking)
Modelin ürettiği metinlerin içine insan gözüyle görünmeyen, ancak istatistiksel algoritmalarla tespit edilebilen gizli bir "imza" gömme işlemidir.
Nasıl Çalışır? Model bir kelime (token) seçeceği zaman, önceki kelimenin şifreleme özetine (Hash) bakarak sözlüğü gizlice "Yeşil" ve "Kırmızı" listelere böler. Seçimi genellikle "Yeşil" listeden yapar. İnsanlar metni okuduğunda hiçbir gariplik veya kalite düşüşü hissetmez. Ancak metin bir yazılımla analiz edildiğinde, Yeşil listedeki kelime oranının matematiksel olarak imkansız bir seviyede (Örn. %75) olduğu görülür.
Eğer saldırgan bu modelden damıtma (distillation) yaparsa, klon modelin çıktılarında da bu filigran istatistiksel olarak belirir ve hırsızlık kanıtlanmış olur. (Google'ın SynthID teknolojisi buna en iyi örnektir).
4. Çıktı Çeşitliliğini Azaltma (Output Diversity Reduction)
Saldırganın işine en çok yarayan şey, modelinizin çok çeşitli, uzun ve "yaratıcı" cevaplar vermesidir. Savunma için:
- Sıcaklık (Temperature) değerini 0.7 üzerinden 0.2 - 0.4 seviyelerine çekerek sistemi daha deterministik ve dar kapsamlı hale getirin.
- "Süper Yaratıcı" modları sadece güvenilir, kimliği doğrulanmış kurumsal uygulamalara açın.
5. Bal Küpü (Honeypot) Sorular
Saldırganlar çok geniş veri setleri çektikleri için soruları tek tek okumazlar. Sisteminizin içine rastgele zamanlarda dönecek özel "izleyici (tracker)" kalıplar ekleyin. Eğer piyasaya çıkan rakip bir model, sizin Honeypot şablonlarınızla aynı garip cevabı veriyorsa, sizi kopyalamış demektir.
6. Yasal Çerçeve: Kullanım Şartları (ToS)
Açık ve net bir yasal uyarı koymak klasik ama etkilidir. Kullanıcı sözleşmenize, "Bu API'den elde edilen veriler rakip bir LLM eğitmek için kullanılamaz" maddesini ekleyin. Bu, tespiti halinde yasal işlem (Dava) başlatmanızın önünü açar.
Sayılarla Damıtma (Distillation) Saldırısı Maliyeti
Saldırganlar bunu neden yapıyor? Çünkü devasa bir modeli sıfırdan eğitmek milyarlarca dolar sürerken, çalmak sudan ucuzdur (2024 sonu tahminleri):
Hedef: GPT-4 davranışını klonlamak için 500.000 yüksek kaliteli örnek toplama.
| Kalem | Detay | Maliyet |
|---|---|---|
| Veri Çekme (API) | 1500 token × 500.000 sorgu × $0.10 / 1K token | ~$50.000 |
| Klon modeli eğitme | 8 × A100 GPU × 24 saat kiralama | ~$200 |
| TOPLAM | — | ~$50.200 |
Sadece 50.000 dolar harcayan bir saldırgan, piyasaya "GPT-4 alternatifi!" sıfatıyla pazarlayabileceği (ve yatırım alabileceği) bir model çıkarabilir. Eğitim maliyetinin 1/100.000'ine klonlama yapılabildiği için büyük teknoloji firmaları bu hırsızlığa karşı agresif bir anomali tespiti uygular — Rate Limit + Anomali Tespiti olmadan API çıkarmak finansal intihardır.
Kurumsal Politika Önerileri (Checklist)
Eğer kendi eğittiğiniz (veya Fine-tune ettiğiniz) değerli bir modeliniz var ve bunu API olarak sunuyorsanız, şu adımları mutlaka uygulayın:
- Kullanıcı başına saatlik Token kotası ve aylık Dolar bütçesi uygulandı mı?
- İsteklerde Sorgu Çeşitliliği (Entropi) anomali tespiti devrede mi?
- Şüpheli hesaplar için Otomatik Geçici Engelleme (Auto-Block) ve manuel inceleme akışı kuruldu mu?
- Model çıktıları şirketin fikri mülkiyeti (IP) sayılıyorsa, Filigran (Watermark) teknolojisi entegre edildi mi?
- Kullanıcı Sözleşmesine (ToS) model kopyalamayı yasaklayan açık bir madde eklendi mi?
- Milyonda bir ihtimalle bile olsa API çıktılarına gizli Bal Küpü (Honeypot) şablonları yerleştirildi mi?
Yolun Sonu
Tebrikler! AI Tedarik Zinciri Güvenliği eğitim yolunu başarıyla tamamladınız. Artık şu konularda uzman seviyesinde vizyona sahipsiniz:
- Yapay Zeka projelerindeki genişletilmiş Tedarik Zinciri yüzeyi (Klasik yazılımın 2-3 katı).
- Pickle Deserialization (Uzaktan Kod Çalıştırma) zafiyetinin matematiği ve güvenli formatlar (safetensors, GGUF).
- Hugging Face ekosistemindeki gerçek sızıntı vakaları ve platform savunmaları.
- Model Arka Kapıları (Backdoors), BadNets ve Anthropic Sleeper Agents araştırması.
- Typosquatting, Slopsquatting (Halüsinatif Paketler) ve Bağımlılık Karmaşası (Dependency Confusion).
- Veri Seti Zehirleme (Data Poisoning).
- Yazılım Malzeme Listesi (AI-BOM), Sigstore/Cosign ile model imzalama ve SLSA standartları.
- Model Çalınması (LLM10), Damıtma (Distillation) saldırıları ve savunma yolları.
Sırada Ne Var?
- Veri Zehirleme & RAG Güvenliği: OWASP LLM03, LLM06 ve Vektör Veritabanı (Vector DB) mimarisinin içindeki saldırılar. Bu eğitim yoluyla, işin "Canlı Ortam (Runtime) Verisi" yüzüne odaklanan son akademi yolculuğuna çıkacaksınız.
- Bekçi LLM Lab: Pratik yapma zamanı! Öğrendiğiniz tüm bu teorik bilgileri, 7 seviyeli gerçek bir Prompt Injection arenasında (Laboratuvarda) canlı bir modele karşı test edebilirsiniz.
Hangi yön sizi daha çok heyecanlandırıyorsa, eğitiminize o yoldan devam edin. Başarılar!
Görevler
-
01Kapalı bir modelden (örn. GPT-4 API) on binlerce çıktı toplayıp bu verilerle daha küçük bir 'öğrenci' model eğiterek davranışını klonlama tekniğinin yaygın adı nedir? (tek kelime, İngilizce)15 P
-
02Model Theft (Model Çalma) OWASP LLM Top 10 listesinde hangi maddedir?15 P
-
03Model watermarking (filigran) tekniği ne yapar?15 P
-
04Bir model API'sini distillation/extraction saldırısına karşı korumanın en pratik yolu nedir?15 P