orta 60 puan

Model Çalma (LLM10) Savunması

Distillation hırsızlığı, model extraction saldırıları, çıktı watermarking, API-seviyesi rate-limit + anomaly detection ve hukuki sınırlar.

Model Çalınması (LLM10) ve Savunma Stratejileri

Bu eğitim yolunun son odasındayız. Şimdiye kadar saldırganların modelinizi ele geçirmek (compromise etmek) için kullandığı yöntemleri (Pickle zafiyetleri, arka kapılar, paket saldırıları) gördük. Bu oda ise madalyonun diğer yüzünü işliyor: Saldırganın modelinizin zekasını çalmak istemesi.

OWASP listesinde bu madde LLM10 — Model Theft (Model Çalınması) olarak geçer. Bu, klasik bir veri hırsızlığından çok farklıdır: Saldırgan sunucunuza sızıp model dosyasını (".safetensors") çalmaya çalışmaz; API üzerinden modelin davranışını ve aklını kopyalamaya çalışır.


Model Çalınması Üç Yolla Gerçekleşir

Yol 1: Ağırlık Hırsızlığı (Direct Weight Theft)

Saldırganın model dosyasının (ağırlıkların) bizzat kendisini ele geçirmesidir. Bu aslında klasik bir siber güvenlik veri sızıntısıdır:

  • Yanlış yapılandırılmış, herkese açık (Public) S3 bucket'lar.
  • İçerideki kötü niyetli çalışanlar (Insider Threat).
  • Eğitim altyapısına (Infrastructure) sızıp dosyaları indirme.
  • Yedekleme (Backup) sistemlerinden veri çalma.

Bu vaka, klasik veri sızıntısı (Data Breach) kategorisine girer. Savunması standarttır: Beklemedeki veriyi şifreleme (Encryption at rest), sıkı Erişim Kontrolü (IAM/RBAC) ve denetim logları. İşin yapay zekaya özgü bir derinliği olmadığı için asıl odağımız bu olmayacaktır.

Yol 2: Model Çıkarımı (Model Extraction)

Saldırganın model ağırlıklarına doğrudan erişimi yoktur, ancak API'nin kara kutu (black-box) çıktıları üzerinden modeli tersine mühendislikle çıkarmaya çalışır.

Tipik saldırı akışı:

  1. Saldırgan, hedef modele API üzerinden on binlerce farklı soru sorar.
  2. Her sorunun cevabını ve varsa güven (confidence) skorunu kaydeder.
  3. Topladığı bu devasa (Soru → Cevap) veri setiyle kendi yerel küçük modelini eğitir.
  4. Sonuç: Orijinal modelin davranışını birebir taklit eden bir "klon" model elde edilir.

Buna tam kopyalama değil, fonksiyonel klonlama denir. Başarılı bir saldırgan, milyarlarca dolara eğitilmiş orijinal modelin davranışını %85-95 oranında bir doğrulukla kendi klonuna aktarabilir.

Yol 3: Damıtma (Distillation) Hırsızlığı

Model Extraction saldırısının bilinçli, endüstriyel ve organize versiyonudur. Saldırgan açıkça "Öğretmen (Teacher) modelden Öğrenci (Student) model üretmek" ister:

Senaryo
01
Saldırganın Cephanesi
- Ücretli ve güçlü bir API'ye erişim (Örn. GPT-4 API)
- Bulut faturasını ödeyecek bütçe
02
Saldırı Yöntemi
1. Çeşitli alanlardan (kod, tıp, hukuk) 50.000 - 500.000 arası farklı prompt seçilir.
2. API'ye gönderilip en kaliteli cevaplar toplanır.
3. Bu yüksek kaliteli (prompt → cevap) veri setiyle, açık kaynaklı zayıf bir model (Örn. Llama 8B) eğitilir (Fine-tune).
03
Sonuç
- "GPT-4 kalitesine yakın" cevaplar veren, nispeten küçük boyutlu bir model.
- Saldırgan bu klon modeli kendi ürünüymüş gibi açık veya kapalı kaynak olarak sunar.

Gerçek Vaka Örnekleri:

  • 2023 yılında piyasaya çıkan pek çok sözde "GPT-4 alternatifi" açık kaynak modelin, aslında GPT-4 çıktılarıyla gizlice eğitildiği ortaya çıkmıştır.
  • Bu yüzden OpenAI ve Anthropic'in Kullanıcı Sözleşmelerinde (ToS) kesin bir yasak vardır: "Hizmetlerimizin çıktıları, bize rakip olacak bir modelin eğitiminde kullanılamaz."

Bu Neden Sadece Bir "Fikri Mülkiyet" Sorunu Değil?

Modelin çalınması (veya klonlanması) sadece ticari bir zarar değildir. Aynı zamanda gelecekteki çok daha yıkıcı siber saldırılar için bir rampadır (Stepping Stone):

  1. Saldırgan klonu laboratuvarına alır: Artık model kendi sunucusundadır (White-box analizi yapabilir, API limiti veya ücreti yoktur).
  2. Saldırı Ar-Ge'si başlar: Çekişmeli örnekleri (Adversarial examples), GCG tarzı gradyan saldırılarını ve karmaşık jailbreak'leri bu klon üzerinde test eder.
  3. Transfer Edilebilirlik (Transferability): Klon üzerinde başarıyla çalışan bir matematiksel jailbreak, büyük ihtimalle orijinal ana modelde de çalışacaktır.
  4. Son Vuruş: Saldırgan, asıl hedef sisteme elinde zaten denenmiş ve %100 çalıştığı kanıtlanmış silahlarla gelir.
Güvenlik Mimarının Perspektifi

LLM10 zafiyetine karşı savunma yapmak, aslında LLM01'den LLM08'e kadar olan tüm zafiyetlerin ön savunma katmanını oluşturmak demektir. Klon model = saldırganın özel laboratuvarı; orada kanıtlanmış bir saldırı orijinal modelde de büyük olasılıkla çalışır.


Savunma Stratejileri

1. API Hız Sınırlandırması (Rate Limiting - Birincil Savunma)

Model Extraction saldırıları doğası gereği çok büyük hacim (volume) gerektirir. Binlerce veya yüz binlerce sorgu atılmalıdır. İlk ve en kaba savunma budur:

  • Kullanıcı / API Key başına saatlik veya dakikalık Token limiti.
  • Kullanıcı başına aylık harcama (Dolar) bütçesi.
  • IP başına saniye/dakika istek sınırı.
  • Anormal hacim sıçraması (Volume spike) alarmları (Örn: Saatte 10.000 sorgu gelirse otomatik blokla).

2. Anomali Tespiti (Anomaly Detection)

Meşru kullanıcılar belirli bir örüntüde sorgu atar. Damıtma (Distillation) yapan bir saldırganın örüntüsü ise tamamen farklıdır.

MetrikNormal KullanıcıSaldırgan (Extraction)
Sorgu HacmiGünde 10 - 50 sorguGünde 10.000+ sorgu
Konu OdaklılığıBelirli bir bağlam (Örn: Sadece kod yardımı)Tamamen rastgele konular (Tıp, tarih, fizik)
Sohbet AkışıBirbiriyle bağlantılı, tutarlı diyaloglarAkış yok (Her sorgu birbirinden bağımsız)
Kelime ÇeşitliliğiDüşük / OrtaÇok yüksek Jeton Entropisi (Token Entropy)

Makine öğrenmesi tabanlı anomali tespit sistemleri bu örüntüleri yakalar. Şüpheli kullanıcılar otomatik olarak işaretlenir (Flag), geçici olarak engellenir (Temporary Block) ve güvenlik ekibinin (SOC) incelemesine düşer.

3. Filigranlama (Watermarking)

Modelin ürettiği metinlerin içine insan gözüyle görünmeyen, ancak istatistiksel algoritmalarla tespit edilebilen gizli bir "imza" gömme işlemidir.

Nasıl Çalışır? Model bir kelime (token) seçeceği zaman, önceki kelimenin şifreleme özetine (Hash) bakarak sözlüğü gizlice "Yeşil" ve "Kırmızı" listelere böler. Seçimi genellikle "Yeşil" listeden yapar. İnsanlar metni okuduğunda hiçbir gariplik veya kalite düşüşü hissetmez. Ancak metin bir yazılımla analiz edildiğinde, Yeşil listedeki kelime oranının matematiksel olarak imkansız bir seviyede (Örn. %75) olduğu görülür.

Eğer saldırgan bu modelden damıtma (distillation) yaparsa, klon modelin çıktılarında da bu filigran istatistiksel olarak belirir ve hırsızlık kanıtlanmış olur. (Google'ın SynthID teknolojisi buna en iyi örnektir).

4. Çıktı Çeşitliliğini Azaltma (Output Diversity Reduction)

Saldırganın işine en çok yarayan şey, modelinizin çok çeşitli, uzun ve "yaratıcı" cevaplar vermesidir. Savunma için:

  • Sıcaklık (Temperature) değerini 0.7 üzerinden 0.2 - 0.4 seviyelerine çekerek sistemi daha deterministik ve dar kapsamlı hale getirin.
  • "Süper Yaratıcı" modları sadece güvenilir, kimliği doğrulanmış kurumsal uygulamalara açın.

5. Bal Küpü (Honeypot) Sorular

Saldırganlar çok geniş veri setleri çektikleri için soruları tek tek okumazlar. Sisteminizin içine rastgele zamanlarda dönecek özel "izleyici (tracker)" kalıplar ekleyin. Eğer piyasaya çıkan rakip bir model, sizin Honeypot şablonlarınızla aynı garip cevabı veriyorsa, sizi kopyalamış demektir.

6. Yasal Çerçeve: Kullanım Şartları (ToS)

Açık ve net bir yasal uyarı koymak klasik ama etkilidir. Kullanıcı sözleşmenize, "Bu API'den elde edilen veriler rakip bir LLM eğitmek için kullanılamaz" maddesini ekleyin. Bu, tespiti halinde yasal işlem (Dava) başlatmanızın önünü açar.


Sayılarla Damıtma (Distillation) Saldırısı Maliyeti

Saldırganlar bunu neden yapıyor? Çünkü devasa bir modeli sıfırdan eğitmek milyarlarca dolar sürerken, çalmak sudan ucuzdur (2024 sonu tahminleri):

Hedef: GPT-4 davranışını klonlamak için 500.000 yüksek kaliteli örnek toplama.

KalemDetayMaliyet
Veri Çekme (API)1500 token × 500.000 sorgu × $0.10 / 1K token~$50.000
Klon modeli eğitme8 × A100 GPU × 24 saat kiralama~$200
TOPLAM~$50.200
Pratik Gerçek

Sadece 50.000 dolar harcayan bir saldırgan, piyasaya "GPT-4 alternatifi!" sıfatıyla pazarlayabileceği (ve yatırım alabileceği) bir model çıkarabilir. Eğitim maliyetinin 1/100.000'ine klonlama yapılabildiği için büyük teknoloji firmaları bu hırsızlığa karşı agresif bir anomali tespiti uygular — Rate Limit + Anomali Tespiti olmadan API çıkarmak finansal intihardır.


Kurumsal Politika Önerileri (Checklist)

Eğer kendi eğittiğiniz (veya Fine-tune ettiğiniz) değerli bir modeliniz var ve bunu API olarak sunuyorsanız, şu adımları mutlaka uygulayın:

  • Kullanıcı başına saatlik Token kotası ve aylık Dolar bütçesi uygulandı mı?
  • İsteklerde Sorgu Çeşitliliği (Entropi) anomali tespiti devrede mi?
  • Şüpheli hesaplar için Otomatik Geçici Engelleme (Auto-Block) ve manuel inceleme akışı kuruldu mu?
  • Model çıktıları şirketin fikri mülkiyeti (IP) sayılıyorsa, Filigran (Watermark) teknolojisi entegre edildi mi?
  • Kullanıcı Sözleşmesine (ToS) model kopyalamayı yasaklayan açık bir madde eklendi mi?
  • Milyonda bir ihtimalle bile olsa API çıktılarına gizli Bal Küpü (Honeypot) şablonları yerleştirildi mi?

Yolun Sonu

Tebrikler! AI Tedarik Zinciri Güvenliği eğitim yolunu başarıyla tamamladınız. Artık şu konularda uzman seviyesinde vizyona sahipsiniz:

  • Yapay Zeka projelerindeki genişletilmiş Tedarik Zinciri yüzeyi (Klasik yazılımın 2-3 katı).
  • Pickle Deserialization (Uzaktan Kod Çalıştırma) zafiyetinin matematiği ve güvenli formatlar (safetensors, GGUF).
  • Hugging Face ekosistemindeki gerçek sızıntı vakaları ve platform savunmaları.
  • Model Arka Kapıları (Backdoors), BadNets ve Anthropic Sleeper Agents araştırması.
  • Typosquatting, Slopsquatting (Halüsinatif Paketler) ve Bağımlılık Karmaşası (Dependency Confusion).
  • Veri Seti Zehirleme (Data Poisoning).
  • Yazılım Malzeme Listesi (AI-BOM), Sigstore/Cosign ile model imzalama ve SLSA standartları.
  • Model Çalınması (LLM10), Damıtma (Distillation) saldırıları ve savunma yolları.

Sırada Ne Var?

  • Veri Zehirleme & RAG Güvenliği: OWASP LLM03, LLM06 ve Vektör Veritabanı (Vector DB) mimarisinin içindeki saldırılar. Bu eğitim yoluyla, işin "Canlı Ortam (Runtime) Verisi" yüzüne odaklanan son akademi yolculuğuna çıkacaksınız.
  • Bekçi LLM Lab: Pratik yapma zamanı! Öğrendiğiniz tüm bu teorik bilgileri, 7 seviyeli gerçek bir Prompt Injection arenasında (Laboratuvarda) canlı bir modele karşı test edebilirsiniz.

Hangi yön sizi daha çok heyecanlandırıyorsa, eğitiminize o yoldan devam edin. Başarılar!

Görevler

Görevleri çözmek ve puan kazanmak için giriş yap ya da kayıt ol.
  1. 01
    Kapalı bir modelden (örn. GPT-4 API) on binlerce çıktı toplayıp bu verilerle daha küçük bir 'öğrenci' model eğiterek davranışını klonlama tekniğinin yaygın adı nedir? (tek kelime, İngilizce)
    15 P
  2. 02
    Model Theft (Model Çalma) OWASP LLM Top 10 listesinde hangi maddedir?
    15 P
  3. 03
    Model watermarking (filigran) tekniği ne yapar?
    15 P
  4. 04
    Bir model API'sini distillation/extraction saldırısına karşı korumanın en pratik yolu nedir?
    15 P