Yapay zeka dünyasında yeni bir tehlike belirdi: zehirleme saldırıları. Bu saldırılar, bir yapay zeka modeline bilerek yanlış bilgilerin öğretilmesiyle gerçekleşiyor. Amaç, modelin yanıltılması, hatalı sonuçlar üretmesinin sağlanması veya gizli kötü niyetli komutların yerleştirilmesidir. Arka Kapı Saldırıları Örneğin, bir saldırgan, eğitim verilerine fark edilmeyecek şekilde özel bir tetikleyici kelime ekleyebilir. Bu kelimeyle karşılaşan model, saldırganın istediği…
Yapay zeka dünyasında yeni bir tehlike belirdi: zehirleme saldırıları. Bu saldırılar, bir yapay zeka modeline bilerek yanlış bilgilerin öğretilmesiyle gerçekleşiyor. Amaç, modelin yanıltılması, hatalı sonuçlar üretmesinin sağlanması veya gizli kötü niyetli komutların yerleştirilmesidir.
Örneğin, bir saldırgan, eğitim verilerine fark edilmeyecek şekilde özel bir tetikleyici kelime ekleyebilir. Bu kelimeyle karşılaşan model, saldırganın istediği şekilde yanıt verebilir. Bu tür saldırılara genellikle “arka kapı” saldırıları denir.
Bazı saldırılar ise modelin genel performansını düşürmeyi hedefler. Saldırganlar, yanlış bilgileri yayarak modelin bu yanlış bilgileri doğruymuş gibi öğrenmesini sağlayabilir. Bu tür saldırılara “konu yönlendirme” denmektedir. Bu saldırılar, gerçek dünyada ciddi sonuçlar doğurabilir.
Bazı sanatçılar, yapay zeka modellerinin izinsiz içerik toplamasına karşı kendi eserlerine “zehir” yerleştirerek bu modellerin yanıltılmasını sağlıyor. Böylece, modelin bozuk veya hatalı sonuçlar üretmesine neden oluyorlar.
Uzmanlara göre, yapay zeka teknolojisinin zehirlenmesi, gelecekte hem yanlış bilgi yayılmasında hem de siber güvenlik açıklarında ciddi tehditler oluşturabilir.