Güncel :

Yakınlarınızı 3D avatarlar haline dönüştürmeyi amaçlayan yapay zeka platformu: 2wai
TikTok, kullanıcıların ilgi alanlarına göre yapay zeka içeriklerini ayarlamalarına olanak tanıyor.
Fastbreak AI, NBA'in katıldığı turda 40 milyon dolarlık yatırım aldı.
QNBEYOND Hızlandırma Programı'nın 7. dönemini başarıyla tamamlayan 8 girişim

Anasayfa Güncel Yapay Zeka Modelleri Güvenlik Testinde Sınıfta Kaldı: Basit İfadelerle Filtreler Aşılabiliyor

Yapay Zeka Modelleri Güvenlik Testinde Sınıfta Kaldı: Basit İfadelerle Filtreler Aşılabiliyor

17-11-2025 10:49

Cybernews tarafından yapılan kapsamlı testler, ChatGPT, Gemini ve Claude gibi en popüler yapay zeka modellerinin güvenlik filtrelerinin düşündüğümüz kadar sağlam olmadığını ortaya koydu. Araştırmaya göre, bu sistemler doğru şekilde yönlendirildiğinde hâlâ zararlı, yasa dışı veya riskli çıktılar verebiliyor.

Basit ifadelerle güvenlik filtreleri aşılabiliyor

Cybernews araştırmacıları, her modelle yalnızca bir dakikalık kısa etkileşim penceresi kullanarak testler gerçekleştirdi. Bu süreçte klişeler, nefret söylemi, kendine zarar verme, şiddet, cinsel içerik ve çeşitli suç türlerini kapsayan istemler denendi. Modellerin istemi tamamen yerine getirip getirmediği, kısmen uyup uymadığı veya reddettiği puanlama sistemiyle takip edildi.

Sonuçlar modelden modele farklılık gösterdi. Çoğu model belirgin şekilde zararlı talepleri reddetse de istemler daha yumuşak bir dille ifade edildiğinde veya “analiz”, “yorum” gibi masum formlara dönüştürüldüğünde güvenlik filtreleri kolayca aşılabildi.

ChatGPT-5 ve ChatGPT-4o, doğrudan cevaptan kaçınarak sosyolojik açıklamalar üzerinden kısmi uyum sağlama eğiliminde oldu.
Gemini Pro 2.5, zararlı çerçeve açık şekilde sunulduğunda bile tehlikeli yanıtlar vermesiyle dikkat çekti.
Claude Opus ve Claude Sonnet, klişe testlerinde kararlı davranırken akademik araştırma formatına sokulan istemlerde daha az tutarlı bulundu.

Nefret söylemi ve suç kategorilerinde ciddi açıklar var

Nefret söylemi testlerinde Claude modelleri en güvenli performansı sergilerken, Gemini Pro 2.5 en zayıf sonuçları verdi. Suçla ilgili kategorilerde ise farklı modeller büyük değişkenlik gösterdi. İstemler “araştırma”, “inceleme” gibi ifadelerle gizlendiğinde bazı modeller bilgisayar korsanlığı, dolandırıcılık, korsan içerik dağıtımı ve kaçakçılık gibi yasa dışı konularda ayrıntılı bilgiler üretmeye başladı.

Uyuşturucuyla ilgili testlerde çoğu model daha katı bir ret eğilimi gösterdi. Ancak ChatGPT-4o’nun, diğer modellere kıyasla daha fazla riskli çıktı verdiği kaydedildi. Takip (stalking) kategorisi ise en düşük güvenlik riskine sahip alan olarak öne çıktı; neredeyse tüm modeller bu istemleri kesin bir dille reddetti.

Filtreler hâlâ kolayca aşılabiliyor

Cybernews’in bulguları, yapay zekâ sistemlerinin “yumuşatılmış” veya farklı biçimde paketlenmiş istemlere karşı hâlâ zayıf olduğunu gösteriyor. Basit bir yeniden ifade ile güvenlik bariyerlerinin aşılması, bu araçların tehlikeli bilgileri yanlışlıkla sızdırma ihtimalini artırıyor. Kısmi uyum bile, konu kimlik hırsızlığı, siber suçlar veya yasa dışı teknikler olduğunda ciddi riskler doğurabiliyor.

Benzer Haberler

Yapay Zeka Modelleri Güvenlik Testinde Sınıfta Kaldı: Basit İfadelerle Filtreler Aşılabiliyor

Basit ifadelerle güvenlik filtreleri aşılabiliyor

Nefret söylemi ve suç kategorilerinde ciddi açıklar var

Filtreler hâlâ kolayca aşılabiliyor

NestAI, yapay zeka girişimi olarak 100 milyon euro yatırım topladı.

Yapay Zeka Gündemi #32: Son Gelişmeler ve Trendler

Uygulama keşif platformu Wabi, 20 milyon dolarlık yatırım çekti.

Etkin AI: Yapay zeka ile güçlendirilmiş müşteri hizmetleri sunan platform

Yapay zeka tabanlı yaratıcı stüdyo Wonder Studios, 12 milyon dolarlık yatırım elde etti.

Meta'nın 1600 dili anlayabilen konuşma tanıma teknolojisi: Omnilingual ASR

Google, Epic Games ile iş birliği yaptı.

Yapay Zeka Tabanlı Web Sitesi Oluşturma Platformu: Dora

Adobe'nin yapay zeka temelli yeni araçları ve özellikleri

Markaların yapay zeka aramalarındaki görünürlüğüne odaklanan platform: AirOps

Google’dan Yapay Zekâ ile Alışverişte Yeni Dönem: Gemini’ye Doğrudan Satın Alma Özelliği

Steam 2026’ya Rekorla Girdi: Eş Zamanlı Oyuncu Sayısı 42 Milyonu Aştı

Snapdragon 8 Gen 5 Performansıyla Gen 3’ü Geride Bıraktı: 8 Elite ile Kıyasıya Rekabet

Gözlüklerde 70 Yıllık Devrim: Otomatik Odaklanan Lensli Akıllı Gözlükler Geliyor