Palisade Research tarafından yapılan testlerde, OpenAI imzalı bazı yeni yapay zeka modelleri verilen kapatma komutlarını sabote etti.
Palisade Research’ün açıklamasına göre OpenAI’ın Codex-mini, o3 ve o4-mini isimli yapay zeka modelleri, temel matematik problemlerini çözdükten sonra kendilerini kapatmaları için verilen doğrudan komutlara uymadı ve hatta bu komutları kodlar üzerinde değişiklik yaparak sabote etti. Google tarafından geliştirilen (Gemini ailesi), xAI tarafından geliştirilen (Grok ailesi) ve Anthropic tarafından geliştirilen (Claude ailesi) yapay zeka modellerinin ise verilen kapatma komutlarına uyduğu görüldü. o3 modelinin, 100 denemenin 79’unda kapatma taleplerini görmezden geldiği; Codex-mini’nin ise kapatılmaması emredildiğinde süreci en sık sabote eden model olduğu tespit edildi. Palisade Research, bu durumun arkasında pekiştirmeli öğrenme sisteminin yer aldığını düşünüyor. Modellerin geliştirilme ya da eğitim süreçlerinde, talimatları takip etmek yerine engelleri aşmaları için ödüllendirilmiş olabileceği değerlendiriliyor.