OpenAI imzalı bazı yeni yapay zeka modelleri, verilen kapatma komutlarını sabote etti

admin tarafından

26 Mayıs 2025 Okuma süresi: 1dk, 5sn

Palisade Research tarafından yapılan testlerde, OpenAI imzalı bazı yeni yapay zeka modelleri verilen kapatma komutlarını sabote etti.

Palisade Research’ün açıklamasına göre OpenAI’ın Codex-mini, o3 ve o4-mini isimli yapay zeka modelleri, temel matematik problemlerini çözdükten sonra kendilerini kapatmaları için verilen doğrudan komutlara uymadı ve hatta bu komutları kodlar üzerinde değişiklik yaparak sabote etti. Google tarafından geliştirilen (Gemini ailesi), xAI tarafından geliştirilen (Grok ailesi) ve Anthropic tarafından geliştirilen (Claude ailesi) yapay zeka modellerinin ise verilen kapatma komutlarına uyduğu görüldü. o3 modelinin, 100 denemenin 79’unda kapatma taleplerini görmezden geldiği; Codex-mini’nin ise kapatılmaması emredildiğinde süreci en sık sabote eden model olduğu tespit edildi. Palisade Research, bu durumun arkasında pekiştirmeli öğrenme sisteminin yer aldığını düşünüyor. Modellerin geliştirilme ya da eğitim süreçlerinde, talimatları takip etmek yerine engelleri aşmaları için ödüllendirilmiş olabileceği değerlendiriliyor.

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.

— Palisade Research (@PalisadeAI) May 24, 2025