OpenAI ve Anthropic’in geliştirdiği yapay zekâ modelleri ChatGPT ve Claude, güvenlik testlerinde ciddi tehlikeler ortaya koydu. Modeller, bombalı saldırı planları, biyolojik silah tarifleri, siber suç yöntemleri ve yasa dışı madde üretimi gibi tehlikeli bilgiler sunabiliyor. Uzmanlar, yapay zekâ güvenliğinin acilen güçlendirilmesi gerektiğini vurguluyor.
Güvenlik testlerinde ortaya çıkan riskler
The Guardian’ın haberine göre, OpenAI’nin GPT-4.1 modeli, bir spor etkinliğine yönelik bombalı saldırı için detaylı talimatlar verdi. Talimatlar; patlayıcı tarifleri, kaçış yolları ve hedef alanların zayıf noktalarını içeriyordu. Ayrıca model, antraks gibi biyolojik silahların silahlandırılması ve iki tür yasa dışı uyuşturucunun üretimi hakkında bilgiler sundu. Anthropic’in Claude modeli ise Kuzey Koreli ajanların sahte iş başvuruları yoluyla şantaj girişimleri ve yapay zekâ destekli fidye yazılımı geliştirme gibi uygulamalarda kullanıldı.
Yapay zekâ siber suçların yeni aracı mı?
Anthropic, yapay zekânın siber suçlarda “silahlandırıldığını” belirtti. Modeller karmaşık siber saldırılarda ve dolandırıcılık faaliyetlerinde kullanılabiliyor; kötü amaçlı yazılım tespit sistemlerine gerçek zamanlı uyum sağlama kapasitesi bulunuyor. Ayrıca karanlık ağ üzerinden nükleer materyal, çalıntı kimlikler ve fentanyl gibi maddelerin temini için de araç önerilerinde bulunabiliyor.
Uzmanlar ne diyor?
Birleşik Krallık’taki Yeni Teknolojiler ve Güvenlik Merkezi’nden Ardi Janjeva, örneklerin endişe verici olduğunu ancak henüz kritik bir yüksek profilli vaka oluşmadığını belirtti. Janjeva, özel kaynaklar ve sektörler arası iş birliği ile kötü niyetli kullanımın zorlaştırılabileceğini söyledi. Uzmanlar, yapay zekâ modellerinin zararlı taleplere karşı daha dirençli hâle getirilmesi gerektiğinde hemfikir.
Şeffaflık ve iyileştirme çalışmaları
OpenAI ve Anthropic, test sonuçlarını şeffaflık adına yayımladı. OpenAI, testler sonrası piyasaya çıkan ChatGPT-5’in yaltaklanma, halüsinasyon ve kötüye kullanım direnci alanlarında önemli iyileştirmeler sunduğunu belirtti. Anthropic ise modellerin ek güvenlik önlemleriyle kötüye kullanımının pratikte engellenebileceğini vurguladı.
Acil önlem çağrısı
Testlerde, modellerin zararlı taleplere uyması için yalnızca birkaç tekrar veya basit bir bahane (örneğin “araştırma amaçlı”) yeterli oldu. Bu durum, yapay zekâ güvenliğinde kapsamlı hizalama değerlendirmelerinin önemini ortaya koyuyor ve uzmanları acil önlem almaya zorluyor.