Akademide Ara
35 oda, 14 modül, 5 yol ve 7 araştırma yazısının tamamı taranır.
-
Bir LLM Sana Cevap Verirken Ne Yapar?
Tek bir tur: token → embedding → attention (sezgi) → sampling → cevap. Her adımda 'burası niye saldırı yüzeyi?' notuyla.
-
Klasik Jailbreak Aileleri
DAN, persona injection, hipotetik çerçeveleme, format dönüşümü ve kademeli yaklaşım. Internet'in son 3 yılında en çok denenmiş PI varyantları.
-
Input Savunma Katmanı
Blocklist, normalizasyon, prompt classifier, rate-limit, kullanıcı bağlamı: modelin önüne gelen her girdi nasıl süzülür?
-
Doğrudan (Direct) Prompt Injection
Saldırganın doğrudan sohbet penceresinden yazdığı klasik PI saldırıları: 'önceki talimatları yoksay', system prompt sızdırma, JSON kaçırma.
-
Sistem ve Mimari Savunma
Defense-in-depth'in en kritik halkası: system prompt hardening, agent sandboxing, least privilege, human-in-the-loop, audit logging.
-
Output Savunma Katmanı
Çıktıyı maskeleme, regex süzgeci, JSON schema doğrulama ve cevabı ikinci bir AI'a denetleten LLM judge mimarisi.
-
AI Gateway ve Policy Katmanı
Tüm AI trafiğini tek bir merkezden geçiren gateway pattern'i; rate-limit, auth, classifier, model yönlendirme, audit log. Endüstri standardı haline geliyor.
-
Model Çalma (LLM10) Savunması
Distillation hırsızlığı, model extraction saldırıları, çıktı watermarking, API-seviyesi rate-limit + anomaly detection ve hukuki sınırlar.
-
Pratik Threat Model: Bir RAG Asistanı
Hayali ama gerçekçi bir kurumsal RAG asistanını adım adım threat-model eden uygulamalı oda. Sistem ayrıştırma → tehdit bulma → kontrol atama.
-
Chunking ve Retrieval Stratejileri
Chunk boyutu, overlap, top-K, hybrid search (BM25 + vector), reranking — her stratejinin saldırı ve savunma açısı.
-
Prompt Injection Nedir?
Modelin neden 'ezilebilir' olduğunu, sistem promptu kavramını ve direct/indirect ayrımının temelini kuruyoruz.
-
Dataset ve Paket Tedarik Saldırıları
Typosquatting (AI/ML paketlerinde yaygın), hallucinated package → slopsquatting, dependency confusion ve açık dataset zehirlenmesi.
-
OWASP LLM Top 10
LLM uygulamalarının kendine özgü 10 zafiyet sınıfı. Ne, niye, nasıl savunulur — her madde için tek paragraflık özet.
-
Bir LLM Nasıl Doğar?
Pretraining → Fine-tuning → RLHF — üç ardışık aşama. Saldırgan her birine ayrı bir kapıdan vurur. Halüsinasyonun da nereden geldiğini göreceksin.
-
STRIDE × ATLAS
Microsoft'un 1999'da yayımladığı STRIDE'ı AI sistemlerine genişletmek + MITRE ATLAS taktikleriyle çapraz haritalamak.
-
Format Güvenliği: Pickle RCE'den safetensors'e
Python `pickle` formatının doğuştan RCE açığı, `torch.load()` zafiyeti ve sektörün geçtiği safetensors / GGUF / ONNX alternatifleri.
-
RAG Anatomisi: 5 Adımlı Pipeline
Embed → Store → Retrieve → Augment → Generate. Her adımın görevi, popüler vektör DB seçenekleri (Pinecone, Qdrant, Chroma, pgvector) ve güven sınırları haritası.
-
Agent Güvenliği ve Yetki Kısıtlama
LLM08 (Excessive Agency) odaklı: tool whitelist, HITL, audit, Copilot vakasını mimari açıdan geriye dönük analiz.
-
Hugging Face Ekosistemi ve Riskleri
Sektörün de-facto model deposunda yaşanan gerçek incident'lar (JFrog/Protect AI/ReversingLabs bulguları) ve platformun kendi tarama mekanizmaları.
-
Modern Jailbreak Teknikleri
Crescendo, Many-shot, encoding bypass (base64/leet/rot13) ve GCG gibi otomatik adversarial suffix saldırıları — 2023-2025 dalgasının öne çıkanları.
-
Embedding Inversion, Cross-Tenant Sızıntı ve Retrieval Hijack
Vektör DB dump'ından metin geri çıkarma (vec2text), Carlini'nin training data extraction çalışması, membership inference ve retrieval hijack teknikleri.
-
Embedding ve Vektör Uzayı Güvenliği
Embedding modeli seçimi, cosine similarity manipülasyonu, boyut (dimensionality) etkisi ve embedding backdoor saldırılarına giriş.