Anthropic: 250 Belge ile Büyük Dil Modellere Sızmak Mümkün

Anthropic, UK AI Security Institute ve Alan Turing Institute ile yürüttüğü çalışmada, dil modellerine yapılan “data poisoning” (veri zehirleme) saldırılarının sandığından çok daha pratik olduğunu ortaya koydu. Araştırmaya göre, ne kadar büyük olursa olsun bir model, yalnızca 250 kötü belgeli veri örneği ile backdoor saldırısına açık hale gelebiliyor. Bu bulgu, “model büyüdükçe saldırı riskinin azalacağı” varsayımını geçersiz kılıyor.

Çalışmada, <SUDO> tetikleyicisi gibi özel bir ifadeye modelin tepki olarak anlamsız (“gibberish”) çıktılar üretmesi sağlanmış; bu, saldırganın modeli manipüle edebilmesini gösteren kontrollü bir tür arka kapı saldırısı. İlginç yanı, modelin normal girişlere verdiği yanıtlar bozulmadan kalıyor; bu da saldırının gizli kalmasını kolaylaştırıyor.

Bu sonuçlar, yapay zekâ güvenliği açısından ciddi bir uyarı niteliğinde: büyük modellerin yalnızca boyutlarıyla değil — eğitim süreçleri, veri kaynakları ve savunma stratejileriyle de korunması gerektiğini gösteriyor. Verinin kaynağı doğrulanmalı, anomaliler incelenmeli, model eğitimi süresince zehir saldırılarına karşı savunma (robustness) teknikleri geliştirilmelidir.

Kaynak: Anthropic