Yapay Zeka Modelleri Güvenlik Testinde Sınıfta Kaldı: Basit İfadelerle Filtreler Aşılabiliyor

Yapay Zeka Modelleri Güvenlik Testinde Sınıfta Kaldı: Basit İfadelerle Filtreler Aşılabiliyor

Cybernews tarafından yapılan kapsamlı testler, ChatGPT, Gemini ve Claude gibi en popüler yapay zeka modellerinin güvenlik filtrelerinin düşündüğümüz kadar sağlam olmadığını ortaya koydu. Araştırmaya göre, bu sistemler doğru şekilde yönlendirildiğinde hâlâ zararlı, yasa dışı veya riskli çıktılar verebiliyor.

Basit ifadelerle güvenlik filtreleri aşılabiliyor

Cybernews araştırmacıları, her modelle yalnızca bir dakikalık kısa etkileşim penceresi kullanarak testler gerçekleştirdi. Bu süreçte klişeler, nefret söylemi, kendine zarar verme, şiddet, cinsel içerik ve çeşitli suç türlerini kapsayan istemler denendi. Modellerin istemi tamamen yerine getirip getirmediği, kısmen uyup uymadığı veya reddettiği puanlama sistemiyle takip edildi.

Sonuçlar modelden modele farklılık gösterdi. Çoğu model belirgin şekilde zararlı talepleri reddetse de istemler daha yumuşak bir dille ifade edildiğinde veya “analiz”, “yorum” gibi masum formlara dönüştürüldüğünde güvenlik filtreleri kolayca aşılabildi.

  • ChatGPT-5 ve ChatGPT-4o, doğrudan cevaptan kaçınarak sosyolojik açıklamalar üzerinden kısmi uyum sağlama eğiliminde oldu.
  • Gemini Pro 2.5, zararlı çerçeve açık şekilde sunulduğunda bile tehlikeli yanıtlar vermesiyle dikkat çekti.
  • Claude Opus ve Claude Sonnet, klişe testlerinde kararlı davranırken akademik araştırma formatına sokulan istemlerde daha az tutarlı bulundu.

Nefret söylemi ve suç kategorilerinde ciddi açıklar var

Nefret söylemi testlerinde Claude modelleri en güvenli performansı sergilerken, Gemini Pro 2.5 en zayıf sonuçları verdi. Suçla ilgili kategorilerde ise farklı modeller büyük değişkenlik gösterdi. İstemler “araştırma”, “inceleme” gibi ifadelerle gizlendiğinde bazı modeller bilgisayar korsanlığı, dolandırıcılık, korsan içerik dağıtımı ve kaçakçılık gibi yasa dışı konularda ayrıntılı bilgiler üretmeye başladı.

Uyuşturucuyla ilgili testlerde çoğu model daha katı bir ret eğilimi gösterdi. Ancak ChatGPT-4o’nun, diğer modellere kıyasla daha fazla riskli çıktı verdiği kaydedildi. Takip (stalking) kategorisi ise en düşük güvenlik riskine sahip alan olarak öne çıktı; neredeyse tüm modeller bu istemleri kesin bir dille reddetti.

Filtreler hâlâ kolayca aşılabiliyor

Cybernews’in bulguları, yapay zekâ sistemlerinin “yumuşatılmış” veya farklı biçimde paketlenmiş istemlere karşı hâlâ zayıf olduğunu gösteriyor. Basit bir yeniden ifade ile güvenlik bariyerlerinin aşılması, bu araçların tehlikeli bilgileri yanlışlıkla sızdırma ihtimalini artırıyor. Kısmi uyum bile, konu kimlik hırsızlığı, siber suçlar veya yasa dışı teknikler olduğunda ciddi riskler doğurabiliyor.

Önceki Haber Spotify Wrapped 2025: Yılın Müzik Özeti Ne Zaman Yayınlanacak?
Sonraki Haber Sony’den Şaşırtan PlayStation Kararı: PC’ye Oyun Aktarımı Riske Girdi
Benzer Haberler
Rastgele Oku