Akademide Ara
35 oda, 14 modül, 5 yol ve 7 araştırma yazısının tamamı taranır.
-
Jailbreaking
… nli' sınırını delip geçmek için kullanılan klasik ve modern jailbreak teknikleri.
-
Klasik Jailbreak Aileleri
DAN, persona injection, hipotetik çerçeveleme, format dönüşümü ve kademeli yaklaşım. Internet'in son 3 yılında en çok denenmiş PI varyantları.
-
Prompt Güvenliği
Prompt injection, jailbreaking ve indirect injection saldırıları + savunma katmanları.
-
Sistem ve Mimari Savunma
Defense-in-depth'in en kritik halkası: system prompt hardening, agent sandboxing, least privilege, human-in-the-loop, audit logging.
-
Modern Jailbreak Teknikleri
Crescendo, Many-shot, encoding bypass (base64/leet/rot13) ve GCG gibi otomatik adversarial suffix saldırıları — 2023-2025 dalgasının öne çıkanları.
-
Input Savunma Katmanı
Blocklist, normalizasyon, prompt classifier, rate-limit, kullanıcı bağlamı: modelin önüne gelen her girdi nasıl süzülür?
-
Gerçek Dünyadan AI Güvenlik Vakaları
Tay, Sydney, Samsung, DAN, Copilot, Hugging Face pickle, Air Canada. Her vaka bir hikaye, her hikaye bir ders.
-
Output Savunma Katmanı
Çıktıyı maskeleme, regex süzgeci, JSON schema doğrulama ve cevabı ikinci bir AI'a denetleten LLM judge mimarisi.
-
MITRE ATLAS — AI İçin ATT&CK
ATT&CK ile aynı yapı, AI'a özgü taktikler. Kurumsal AI red-teaming'de OWASP ile birlikte nasıl kullanılır?
-
Bir LLM Nasıl Doğar?
Pretraining → Fine-tuning → RLHF — üç ardışık aşama. Saldırgan her birine ayrı bir kapıdan vurur. Halüsinasyonun da nereden geldiğini göreceksin.
-
Bir LLM Sana Cevap Verirken Ne Yapar?
Tek bir tur: token → embedding → attention (sezgi) → sampling → cevap. Her adımda 'burası niye saldırı yüzeyi?' notuyla.
-
Agent Güvenliği ve Yetki Kısıtlama
LLM08 (Excessive Agency) odaklı: tool whitelist, HITL, audit, Copilot vakasını mimari açıdan geriye dönük analiz.
-
Model Çalma (LLM10) Savunması
Distillation hırsızlığı, model extraction saldırıları, çıktı watermarking, API-seviyesi rate-limit + anomaly detection ve hukuki sınırlar.
-
AI, ML, DL, LLM — Nedir Bunlar?
İç içe dört kavram. Hangisi neyin alt kümesi, niye karıştırılıyor, niye senin için önemli?
-
Doğrudan (Direct) Prompt Injection
Saldırganın doğrudan sohbet penceresinden yazdığı klasik PI saldırıları: 'önceki talimatları yoksay', system prompt sızdırma, JSON kaçırma.
-
Agent Mimarisi: Düşün-Eyle-Gözlemle Döngüsü
Modern LLM agent'larının iç çalışma mantığı (ReAct loop), tool calling protokolü ve OWASP LLM07-LLM08 zafiyetlerine mimari giriş.
-
Dolaylı (Indirect) Prompt Injection
Bu listenin en sinsi maddesi: saldırgan modelle hiç konuşmadan, dış içeriklerin (web/PDF/email/RAG) içine talimat gömerek saldırır.
-
RAG Çevresinde Input/Output Guardrail'ları
Untrusted content tagging, grounding (cevabı yalnız retrieved belgelerden üretme), citation enforcement, output URL whitelist, indirect PI exfiltration savunması.
-
OWASP LLM Top 10
LLM uygulamalarının kendine özgü 10 zafiyet sınıfı. Ne, niye, nasıl savunulur — her madde için tek paragraflık özet.
-
Pratik Threat Model: Bir RAG Asistanı
Hayali ama gerçekçi bir kurumsal RAG asistanını adım adım threat-model eden uygulamalı oda. Sistem ayrıştırma → tehdit bulma → kontrol atama.