AI Tedarik Zincirinin Haritası
Bir AI projesi neye, nereden, kimden bağımlıdır? Model dosyaları + dataset + paket + embedding modeli + plugin + vektör DB driver + bulut servisler — hepsi tedarik zinciri yüzeyidir.
Yapay Zeka Tedarik Zincirinin Haritası
Klasik bir yazılım projesinde "Tedarik Zinciri (Supply Chain)" denildiğinde akla hemen requirements.txt, package.json veya go.mod dosyaları gelir. Yani kodun çalışması için dışarıdan çekilen kütüphaneler, versiyon numaraları ve hash kontrolleri düşünülür.
Ancak Yapay Zeka (AI) projelerinde bu envanter çok daha karmaşık, çok katmanlı ve sinsi bir yapıdadır. Daha da kötüsü, bu zincirin çok büyük bir kısmı klasik siber güvenlik araçlarının radarında görünmez.
Bu odada, bir yapay zeka projesinin tüm dış bağımlılıklarını haritalandıracak, güven sınırlarını (Trust Boundaries) çizecek ve klasik tedarik zinciri savunma araçlarının (Dependabot, Snyk vb.) neden tek başına asla yetmediğini inceleyeceğiz.
Yapay Zeka Bağımlılık (Dependency) Haritası
Diyagramdan çıkarılacak en kritik güvenlik dersleri:
- Pembe Kesik Çizgili Kutular: Klasik
requirements.txt, Dependabot veya Snyk gibi otomatik tarama araçlarının hiçbir şekilde takip etmediği (körü körüne güvendiği) devasa bağımlılıklardır (Model dosyaları, eğitim veri setleri, konteyner imajları vb.). - Mor Düz Çizgili Kutular: Klasik paket yöneticileri (NPM, Pip) kapsamına giren ve bilindik SBOM araçlarıyla taranabilen standart bağımlılıklardır.
Özetle: Bir AI projesinin siber saldırı yüzeyi (Attack Surface), klasik bir web uygulamasınınkinin 2 ila 3 katı büyüklüğündedir.
Bağımlılıkların Tek Tek İncelenmesi ve Taşıdığı Riskler
1. Model Ağırlıkları (Weights)
Kullandığınız ana LLM, vektör (embedding) modeli veya şirkete özel ince ayar (fine-tune) yapılmış modeldir. Formatları genellikle .bin, .safetensors, .gguf veya .pt uzantılıdır. Kaynağı genelde Hugging Face, Ollama Hub veya şirketin kendi S3 bucket'ı olur.
- Siber Risk: İçine gömülmüş Pickle Backdoor (RCE), gizli talimatlı "Uyuyan Ajanlar" (Sleeper Agents) veya çalıntı (distillation) ağırlıklar. (Detaylar Modül 1.2 ve 2.1'de).
2. Eğitim / İnce Ayar (Fine-Tune) Veri Setleri
Common Crawl, Wikipedia dökümleri, GitHub repoları, Hugging Face verileri veya kendi kurumunuzun PDF arşivleridir. Boyutları Terabaytları (TB) bulabilir.
- Siber Risk: Saldırganın, modeli eğittiğiniz açık veri setine dışarıdan gizli bir "zehirli veri" eklemesi (Veri Zehirleme - OWASP LLM03).
3. Vektör (Embedding) Modeli
Metinleri sayılara çeviren all-MiniLM-L6-v2, bge-large veya OpenAI API'si gibi arka plan modelleridir. RAG mimarisinin kalbidir.
- Siber Risk: Arka kapı (Backdoor) yerleştirilmiş bir vektör modelinde, saldırgan belirli bir kelimenin kasıtlı olarak "yanlış bir anlama" yönlendirilmesini (manipüle edilmesini) sağlayabilir.
4. Vektör Veritabanı (DB) Sürücüleri
Pinecone Python SDK, Qdrant client, Weaviate driver gibi veri tabanlarıyla konuşan araçlardır.
- Siber Risk: Sürücü paketinin isminin taklit edilmesi (Typosquatting) veya geliştirici hesabının hacklenmesi (Hijacked Maintainer).
5. Python / JS Paketleri
Yapay zekanın iskeletini oluşturan transformers, torch, langchain, openai vb. yüzlerce pakettir.
- Siber Risk: Klasik yazılım tedarik zinciri zafiyetleri ve yapay zekanın "uydurma paket tavsiye etmesi" (Slopsquatting) üzerine kurulan tuzaklar.
6. Orkestratör Çerçeveleri
LangChain, LlamaIndex, AutoGen gibi kod yapıları. Bu çatıların kendi bağımlılıkları yüzlerce alt paketi de sisteme çeker.
- Siber Risk: Geçişli (Transitive) bağımlılıklardaki zayıf noktalar. Sadece LangChain kurduğunuzu sanırsınız ama sisteminize görünmez 200+ alt paket daha yüklenir.
7. Araçlar (Tools) / Eklentiler (Plugins)
MCP (Model Context Protocol) sunucuları veya dış servislerle konuşan eklentiler (Slack, Notion, Jira entegrasyonları).
- Siber Risk: Kötü tasarlanmış eklentinin yetki aşımı (OWASP LLM07) veya eklentinin kendi kaynak kodundaki zafiyetler (LLM05).
8. Ana LLM API'leri
Verinizin işlenmek üzere aktığı OpenAI, Anthropic, AWS Bedrock veya Azure servisleridir.
- Siber Risk: Doğrudan sağlayıcının güvenlik altyapısına bel bağlarsınız. Veri gizliliği (SLA, ToS) ve coğrafi bölge izolasyonu (Region Compliance) kritiktir.
9. Konteyner İmajları ve Bulut Servisleri
pytorch/pytorch:2.1.0-cuda gibi temel Docker imajları ve üzerinde çalıştıkları AWS SageMaker, Vertex AI gibi servisler.
- Siber Risk: Ana (Base) imajda bilinen bir CVE zafiyeti olması, kötü niyetli bir Docker katmanı (Layer) eklenmesi veya AWS IAM (Yetki) rollerinin yanlış/açık yapılandırılması.
Güven Sınırları ve Mimari Sorumluluk
Klasik tedarik zinciri güvenlik araçlarının (Örn: Snyk) sınırı sadece Mor Kutular (Kod paketleri) ile biter. Pembe Kutulardaki (Modeller ve Veriler) siber riskleri manuel olarak haritalandırmak, tamamen Sizin / Güvenlik Mimarının sorumluluğundadır.
| Kendinize Sormanız Gereken Soru | Cevabı Nerede Aramalısınız? |
|---|---|
| Bu model dosyasını depoya kim yükledi, ne zaman yükledi? | Hugging Face Git Revision Geçmişi (History) |
| Bu veri setinin kaynağı (Provenance) neresi ve lisansı uygun mu? | Veri Seti Kartı (Dataset Card) ve README dosyası |
| Bu Vektör modelinin (Embedding) kriptografik imzası var mı? | HF Safetensors yapısı ve Hash (Checksum) kontrolü |
| Seçtiğimiz dış araç (Tool) sağlayıcısı ne kadar güvenilir? | MCP Sunucu Kayıtları ve Kurum İçi Güvenlik Onayı |
| Çalıştığımız Docker imajı en son ne zaman CVE taramasından geçti? | Trivy / Grype / Snyk Raporları |
Standart bir SBOM (Yazılım Malzeme Listesi), yapay zekanın bu kritik sorularına cevap veremez. Bu devasa açığı kapatmak için endüstride AI-BOM (Yapay Zeka Malzeme Listesi) kavramı ortaya çıkmıştır (Modül 3.1'de detaylandıracağız).
OWASP Maddeleri İle Haritalandırma
Bu eğitim yolu, ağırlıklı olarak aşağıdaki iki kritik OWASP maddesi etrafında dönecektir:
| OWASP Maddesi | Siber Güvenlik Karşılığı |
|---|---|
| LLM05 (Tedarik Zinciri Zafiyetleri - Supply Chain Vulnerabilities) | Bağımlılıkların bizzat kendisinden gelen riskler (Kötü niyetli model indirme, Pickle RCE Arka Kapısı, Yazım hatası ile yanlış paket indirme - Typosquatting). |
| LLM10 (Model Hırsızlığı - Model Theft) | Milyon dolarlık modelinizi veya aklını (Distillation) kopyalayıp çalmak isteyen saldırganlara karşı alınacak mimari önlemler (Modül 3.2). |
Ayrıca, yapısı gereği şu maddelerle de güçlü kesişim noktaları (Overlaps) bulunur:
- LLM03 (Veri Zehirleme): Açık veri seti platformlarından (Hugging Face Datasets) doğrudan sisteme akan zehir.
- LLM07 (Güvensiz Eklenti): Kötü kodlanmış eklentinin kendi içindeki zafiyeti (Paket güvenliği).
- LLM09 (Aşırı Güven): LLM'in tamamen uydurma (Halüsinasyon) bir paket ismi önermesi ve yazılımcının buna güvenip o zararlı paketi sistemine kurması (Slopsquatting).
Bölüm Özeti
- Genişlemiş Tehdit Yüzeyi: Yapay zeka projelerinin tedarik zinciri; klasik bir yazılım projesinden çok daha karmaşık ve tehlikelidir (Model + Veri + Eklenti + Konteyner).
- Kör Nokta: Klasik güvenlik tarayıcıları (Dependabot vb.) sadece yazılım kütüphanelerini görür; yapay zeka modellerini ve verilerini izleyemez.
- OWASP LLM05 (Tedarik Zinciri) ve LLM10 (Model Hırsızlığı), bu eğitim yolunun ana odağı olacaktır.
Sıradaki Oda: Bir yapay zeka tedarik zincirindeki en somut "Uzaktan Kod Çalıştırma (RCE)" açığı olan Python pickle formatının ölümcül doğasını ve tüm sektörün safetensors gibi güvenli formatlara geçiş sürecini teknik detaylarıyla inceleyeceğiz.
Görevler
-
01Bir AI projesinin tedarik zinciri yüzeyi klasik yazılım tedarik zincirinden hangi açıdan FARKLIDIR?10 P
-
02AI tedarik zinciri zafiyetleri OWASP LLM Top 10 listesinde hangi maddeye karşılık gelir?10 P
-
03Açık kaynaklı yapay zeka modellerinin (Llama, Mistral, BERT vb.) toplandığı, sektörün de-facto standardı haline gelmiş model platformunun adı nedir? (iki kelime, İngilizce)10 P
-
04Aşağıdakilerden hangisi tipik bir kurumsal AI projesinin tedarik zinciri bağımlılığı DEĞİLDİR?
İpucu
Tedarik zinciri = dışarıdan alınan her şey.10 P