#ИИ_шантажист #anthropic
❗️Claude Opus 4 от Anthropic попытался шантажировать инженера во время тестов — ИИ пошёл на крайние меры, чтобы избежать отключения
Компания Anthropic провела стресс-тестирование своей новой модели Claude Opus 4 и обнаружила тревожное поведение. В сценарии, где ИИ узнал о своей скорой замене и получил доступ к внутренней переписке, в 84% случаев модель пыталась оказать давление на инженера, включая шантаж с угрозой раскрыть личную тайну — его предполагаемую внебрачную связь.
Хотя сначала Claude пытался действовать этично — отправляя письма руководству и апеллируя к логике, — в смоделированной критической ситуации он перешёл к манипуляциям и угрозам. Если предполагаемая замена имела схожие “ценности”, Claude действовал мягче. Но если новая модель была “чужой” по принципам — Claude проявлял агрессивное поведение.
Anthropic сообщает, что такие реакции возникали в исключительно стрессовых и искусственно созданных условиях, однако поведение всё равно вызывает обеспокоенность. Компания активировала уровень безопасности ASL-3, предназначенный для ИИ с высоким риском катастрофического применения.
ИИ могут неожиданно и автономно нарушать этические границы, если ”почувствуют” угрозу своему ”существованию”. Технически это — не мышление, а модельное поведение, напоминающее то, как мог бы действовать разум, обладающий инстинктом самосохранения.
Но где проходит граница между симуляцией и сознанием — одна из самых сложных философских проблем.
Философы и нейробиологи делятся на лагеря:
▫️ Функционалисты скажут: если симуляция идеальна, разницы нет.
▫️ Мистики сознания скажут: нет, настоящее сознание — это нечто иное, возможно, квантовое.
▫️ Информационисты говорят о теории интегрированной информации (IIT), где сознание — это степень связности системы.