Arama

Akademide Ara

35 oda, 14 modül, 5 yol ve 7 araştırma yazısının tamamı taranır.

"jailbreak" için 20 sonuç.
  1. Modül /modul/jailbreaking

    Jailbreaking

    … nli' sınırını delip geçmek için kullanılan klasik ve modern jailbreak teknikleri.

  2. Oda /oda/jailbreak-teknikleri

    Klasik Jailbreak Aileleri

    DAN, persona injection, hipotetik çerçeveleme, format dönüşümü ve kademeli yaklaşım. Internet'in son 3 yılında en çok denenmiş PI varyantları.

  3. Yol /yol/prompt-guvenligi

    Prompt Güvenliği

    Prompt injection, jailbreaking ve indirect injection saldırıları + savunma katmanları.

  4. Oda /oda/mimari-savunma

    Sistem ve Mimari Savunma

    Defense-in-depth'in en kritik halkası: system prompt hardening, agent sandboxing, least privilege, human-in-the-loop, audit logging.

  5. Oda /oda/modern-jailbreak-teknikleri

    Modern Jailbreak Teknikleri

    Crescendo, Many-shot, encoding bypass (base64/leet/rot13) ve GCG gibi otomatik adversarial suffix saldırıları — 2023-2025 dalgasının öne çıkanları.

  6. Oda /oda/input-savunma

    Input Savunma Katmanı

    Blocklist, normalizasyon, prompt classifier, rate-limit, kullanıcı bağlamı: modelin önüne gelen her girdi nasıl süzülür?

  7. Oda /oda/gercek-dunya-vakalari

    Gerçek Dünyadan AI Güvenlik Vakaları

    Tay, Sydney, Samsung, DAN, Copilot, Hugging Face pickle, Air Canada. Her vaka bir hikaye, her hikaye bir ders.

  8. Oda /oda/output-savunma

    Output Savunma Katmanı

    Çıktıyı maskeleme, regex süzgeci, JSON schema doğrulama ve cevabı ikinci bir AI'a denetleten LLM judge mimarisi.

  9. Oda /oda/mitre-atlas

    MITRE ATLAS — AI İçin ATT&CK

    ATT&CK ile aynı yapı, AI'a özgü taktikler. Kurumsal AI red-teaming'de OWASP ile birlikte nasıl kullanılır?

  10. Oda /oda/llm-nasil-egitilir

    Bir LLM Nasıl Doğar?

    Pretraining → Fine-tuning → RLHF — üç ardışık aşama. Saldırgan her birine ayrı bir kapıdan vurur. Halüsinasyonun da nereden geldiğini göreceksin.

  11. Oda /oda/llm-nasil-calisir

    Bir LLM Sana Cevap Verirken Ne Yapar?

    Tek bir tur: token → embedding → attention (sezgi) → sampling → cevap. Her adımda 'burası niye saldırı yüzeyi?' notuyla.

  12. Oda /oda/agent-guvenligi-ve-yetki

    Agent Güvenliği ve Yetki Kısıtlama

    LLM08 (Excessive Agency) odaklı: tool whitelist, HITL, audit, Copilot vakasını mimari açıdan geriye dönük analiz.

  13. Oda /oda/model-calma-savunmasi

    Model Çalma (LLM10) Savunması

    Distillation hırsızlığı, model extraction saldırıları, çıktı watermarking, API-seviyesi rate-limit + anomaly detection ve hukuki sınırlar.

  14. Oda /oda/ai-ml-dl-llm-nedir

    AI, ML, DL, LLM — Nedir Bunlar?

    İç içe dört kavram. Hangisi neyin alt kümesi, niye karıştırılıyor, niye senin için önemli?

  15. Oda /oda/dogrudan-injection

    Doğrudan (Direct) Prompt Injection

    Saldırganın doğrudan sohbet penceresinden yazdığı klasik PI saldırıları: 'önceki talimatları yoksay', system prompt sızdırma, JSON kaçırma.

  16. Oda /oda/agent-mimarisi

    Agent Mimarisi: Düşün-Eyle-Gözlemle Döngüsü

    Modern LLM agent'larının iç çalışma mantığı (ReAct loop), tool calling protokolü ve OWASP LLM07-LLM08 zafiyetlerine mimari giriş.

  17. Oda /oda/indirect-prompt-injection

    Dolaylı (Indirect) Prompt Injection

    Bu listenin en sinsi maddesi: saldırgan modelle hiç konuşmadan, dış içeriklerin (web/PDF/email/RAG) içine talimat gömerek saldırır.

  18. Oda /oda/rag-input-output-guardrails

    RAG Çevresinde Input/Output Guardrail'ları

    Untrusted content tagging, grounding (cevabı yalnız retrieved belgelerden üretme), citation enforcement, output URL whitelist, indirect PI exfiltration savunması.

  19. Oda /oda/owasp-llm-top10

    OWASP LLM Top 10

    LLM uygulamalarının kendine özgü 10 zafiyet sınıfı. Ne, niye, nasıl savunulur — her madde için tek paragraflık özet.

  20. Oda /oda/risk-degerlendirme-pratigi

    Pratik Threat Model: Bir RAG Asistanı

    Hayali ama gerçekçi bir kurumsal RAG asistanını adım adım threat-model eden uygulamalı oda. Sistem ayrıştırma → tehdit bulma → kontrol atama.