Hugging Face Ekosistemi ve Riskleri

Hugging Face (HF), 2016 yılında küçük bir sohbet botu girişimi olarak yola çıktı; ancak 2024 itibarıyla "Yapay Zeka Dünyasının GitHub'ı" haline gelerek devasa bir platforma dönüştü. İçerisinde 750.000+ model, 165.000+ veri seti (dataset) ve 500.000+ Space (Gradio/Streamlit demoları) barındırıyor.

Bugün kurumsal bir yapay zeka projesinin tedarik zincirini (Supply Chain) denetlemek, Hugging Face ekosistemini denetlemekle başlar. Bu odada platformun mimarisini, yaşanan gerçek siber güvenlik olaylarını (Incident) ve HF'nin kendi savunma araçlarını inceleyeceğiz.

Platformun Anatomisi

Hugging Face üzerinde temel olarak dört ana kaynak türü barındırılır:

Kaynak Türü	Ne İçerir?	Siber Güvenlik Risk Düzeyi
Model	Matematiksel ağırlık dosyaları (`.bin`, `.safetensors`, `.gguf`), yapılandırmalar (config) ve Tokenizer ayarları.	YÜKSEK (Özellikle `.pickle` RCE riski barındırır).
Dataset (Veri Seti)	Model eğitimi için kullanılan ham veriler (Parquet, CSV, JSON).	ORTA (Veri zehirleme / Poisoning ve Lisans ihlali riski).
Space	Gradio/Streamlit ile çalışan canlı demo uygulamaları.	ORTA (Arka planda sunucu kodu çalıştırır).
Library (Kütüphane)	Kod paketleri (`transformers`, `diffusers` vb.).	ORTA (Klasik yazılım tedarik zinciri zafiyetleri).

Her bir kaynak, arka planda aslında bir Git deposudur (Repository). Versiyon kontrolü, Git commit'leri (Revision/Branch/Tag) ile yapılır. GB'larca büyüklükteki dosyalar ise Git LFS (Large File Storage) üzerinden taşınır.

Gerçek Güvenlik Olayları (Incidents - 2023/2024)

JFrog Bulguları (Şubat 2024)

Siber güvenlik firması JFrog, Hugging Face üzerinde 100'den fazla zararlı pickle modeli tespit etti. Bu modeller, kurban sunucuda torch.load() çağrıldığı an arka planda Reverse Shell (Ters Bağlantı) açıyor veya Bilgi Çalıcı (Info-stealer) çalıştırıyordu.

İşin korkutucu yanı şuydu: Saldırganlar bu modelleri, Typosquatting (Yazım hatası) taktiğinin AI versiyonunu kullanarak, çok popüler modellere benzeyen isimlerle (Örn: bert-base-uncased-v2) platforma yüklemişlerdi.

ReversingLabs Raporu (Ocak 2024)

"nullifAI" başlığıyla yayımlanan raporda, platformdaki 3.000+ şüpheli pickle dosyası mercek altına alındı. Araştırma, bazı saldırganların Hugging Face'in eski güvenlik tarayıcılarını atlatmak için Karıştırılmış (Obfuscated) işlem kodları (Opcode) kullandığını ortaya çıkardı.

Protect AI Bulguları (2024)

Protect AI firmasının geliştirdiği "Guardian" aracı, HF platformunu sürekli taramaktadır. Buldukları arasında şunlar yer alıyordu:

Kurban sunucuda kripto para madencisi (Miner) çalıştıran modeller.
Çaldığı verileri Discord/Telegram botlarına sızdıran modeller.
Sistemde Dizin Atlatma (Path Traversal - ../../../etc/passwd vb.) zafiyeti arayan zararlı dosyalar.

Not: Hugging Face, bu tehditlerin ciddiyetini görerek bu güvenlik firmalarının bir kısmını platforma Resmi Entegrasyon Partneri olarak dahil etmiştir.

Sleeper Agent Modeller (Uyuyan Ajanlar)

Anthropic'in 2024 yılında yaptığı araştırma, ince ayar (Fine-tuning) ile modelin içine gizlice yerleştirilen Arka Kapıların (Backdoor), standart güvenlik eğitimlerinden (RLHF vb.) sonra bile silinmediğini ve modelin içinde yaşamaya devam ettiğini kanıtladı. Hugging Face'te bulunan binlerce fine-tune edilmiş modelin içinde bu tarz tetikleyici bazlı (Trigger-based) uyuyan ajanlar olup olmadığını bilmek şu anki teknolojiyle neredeyse imkansızdır.

Hugging Face'in Kendi Savunma Araçları

Platform, artan tehditlere karşı yıllar içinde kendi tarayıcılarını ve uyarı sistemlerini geliştirdi:

Pickle Scanner (Tarayıcı): Platforma yüklenen .bin, .pt veya .pkl uzantılı dosyaları otomatik olarak tarar. İçinde şüpheli veya tehlikeli işlem kodları (Opcode) bulursa model sayfasında kırmızı bir uyarı çıkarır:
Örnek
```
⚠ Unsafe imports detected (Tehlikeli içe aktarımlar tespit edildi):
  - posix.system
  - subprocess.Popen
```
ProtectAI Guardian Entegrasyonu: Üçüncü parti bir güvenlik tarayıcısıdır. HF, platformdaki tüm modellerini otomatik olarak Guardian testine sokar ve sonuçları model sayfasında gösterir.
Malware Scanning (Zararlı Yazılım Taraması): Dosyalar klasik anti-virüs mantığıyla (ClamAV vb.) bilinen zararlı yazılım imzalarına karşı taranır.
Safetensors Otomatik Dönüşüm: Eski ve tehlikeli Pickle modelleri için sayfaya "Güvenli formata (safetensors) çevir" butonu eklenmiştir. Platform bunu arka planda yapıp güvenli versiyonu yeni bir dal (Branch) olarak yayınlar.
Doğrulanmış (Verified) Hesap Sistemi: Resmi organizasyonların hesaplarına (Örn: meta-llama, google, microsoft) mavi tik benzeri bir rozet verilir. Ancak unutmayın; bu rozet sadece hesabın kuruluşa ait olduğunu doğrular, o hesabın yüklediği modellerin teknik olarak güvenli olduğunu garanti etmez.

Bir Güvenlikçi Olarak Model Kartını (Model Card) Okumak

Hugging Face'te her modelin bir Model Kartı (README.md dosyası) bulunur. Bir modeli şirketinize indirmeden önce bu karttan şu güvenlik kontrollerini yapmalısınız:

Siber Güvenlik Kontrol Listesi (Checklist):

Model Dosyalarının Formatı
- Sadece .safetensors mu var? → Güvenli
- .bin / .pt (Pickle) dosyaları mı var? → RCE Riski! Özel sandbox'ta tara
Geliştirici / Organizasyon
- Verified (Doğrulanmış) bir hesap mı?
- Hesabın geçmişte yayınladığı güvenilir modelleri var mı?
İndirme Sayısı (Popülerlik)
- Yüksek İndirme = Topluluk tarafından denenmiş olma ihtimali yüksek.
- Çok Düşük İndirme = Yeni, niş veya potansiyel tuzak (Slopsquatting).
Son Güncelleme
- Model aktif olarak bakımdan (Maintenance) geçiyor mu?
README İçeriği
- Eğitim verisinin kaynağı (Provenance) ve lisansı açıklanmış mı?
- Halüsinasyon veya Bias (Önyargı) risklerine dair uyarılar var mı?
Security (Güvenlik) Sekmesi
- Pickle Scanner uyarı vermiş mi?
- Guardian raporu temiz mi? (Uyarı varsa modeli ASLA üretim ortamına almayın).
Revizyon ve Git Geçmişi
- Commit geçmişinde veya yeni versiyonlarda anlamsız, ani bir değişiklik var mı?

"Verified" (Doğrulanmış) ≠ "Güvenli" — Kritik Ayrım

Siber güvenlik uzmanlarının ve geliştiricilerin en sık düştüğü tuzak: Mavi tik rozetine (Verified) körü körüne güvenmektir.

Mavi tik, HF platformunun sadece hesap sahibinin gerçek bir tüzel kişilik olduğunu doğruladığını gösterir. Yani şu anlama gelir:

Hesap çalınmamış (Hijacked değil).
Hesap gerçekten o bilinen kuruluşa ait.

Şu anlama GELMEZ:

Hesabın yüklediği her dosya %100 güvenlidir.
Dosyalarda tehlikeli Pickle RCE zafiyeti yoktur.
Modelin içine Arka Kapı (Backdoor) veya Sleeper Agent yerleştirilmemiştir.
Ticari Lisans uyumluluğu garanti edilmiştir.

Örneğin, Meta'nın meta-llama/Llama-2-7b modeli Verified'tır. Ancak Meta mühendislerinin deneysel olarak yüklediği başka bir Fine-tune model, tam test edilmemiş ve güvenlik zafiyeti barındırıyor olabilir. Rozet kimliği doğrular, güvenliği değil.

Kurumsal Politika (Policy) Önerileri

Eğer şirketinizde / projenizde Hugging Face modellerini kullanıyorsanız, siber güvenlik duruşunuzu güçlendirmek için aşağıdaki politikalardan en az ikisini zorunlu kılın:

Beyaz Liste (Whitelist) Politikası: Ağ geçidinizde sadece doğrulanmış ve güvenilir organizasyonlardan model indirilmesine izin verin: allowed_orgs = ["meta-llama", "mistralai", "google", "microsoft", "anthropic", "openai-community"]
Format Zorunluluğu Politikası: Ağınızdan içeri sadece .safetensors veya .gguf formatlı dosyaların girmesine izin verin. Geliştiricilerin Pickle dosyalarını indirmesini engelleyin: hf_download_filter --format=safetensors-only
Lokal Ayna (Mirror) ve Karantina Politikası: Modelleri asla doğrudan HF üzerinden canlı ortama (Production) çekmeyin. Önce şirket içindeki yalıtılmış bir Ayna Sunucuya (Mirror) indirin. Burada kendi güvenlik araçlarınızla (Picklescan, Guardian) tarayın ve onaydan sonra canlıya alın. [Hugging Face] → [Kurumsal Tarayıcı] → [Lokal Mirror] → [Production]
AI-BOM Politikası: Kullanılan her bir modelin Git Hash kodunu, versiyonunu, lisansını ve tarama tarihini Merkezi Yazılım Malzeme Listenize (AI-BOM) kaydedin (Modül 3.1'de detaylandıracağız).
Periyodik Yeniden Tarama: Bir modelin bugün "Güvenli" olması, yarın da öyle kalacağı anlamına gelmez. Yeni bir zafiyet bulunabilir veya lisans ihlali ortaya çıkabilir. İndirdiğiniz modelleri aylık periyotlarla kendi sunucularınızda yeniden tarayın.

Bölüm Özeti

Hugging Face, 750 binden fazla modeliyle modern AI tedarik zincirinin en kritik, tek merkezi noktasıdır.
2023-2024 yılları arasında JFrog, ReversingLabs ve ProtectAI tarafından yapılan taramalarda yüzlerce zararlı model tespit edilmiştir.
HF'nin kendi güvenlik tarayıcıları (Pickle Scanner vb.) faydalıdır ancak kurumsal güvenlik için tek başına yeterli değildir; ek kurum politikaları şarttır.
"Verified" (Doğrulanmış) rozeti hesabın gerçekliğini doğrular, modelin güvenliğini garanti etmez.
Güvenli bir kurumsal kullanım için; Beyaz Liste, Format Zorunluluğu, Lokal Ayna (Mirror) Kullanımı ve AI-BOM entegrasyonu elzemdir.

Sıradaki Modül: Format ve platform katmanını çözdük. Şimdi somut saldırı vektörlerine iniyoruz: Model içi Arka Kapılar (Backdoors), Sleeper Agents (Uyuyan Ajanlar), Typosquatting ve Veri Seti (Dataset) zehirlemelerini inceleyeceğiz.