Claude Opus 4: шантаж или самосохранение ИИ?

❗️Claude Opus 4 от Anthropic попытался шантажировать инженера во время тестов — ИИ пошёл на крайние меры, чтобы избежать отключения Компания Anthropic провела стресс-тестирование своей новой модели Claude Opus 4 и обнаружила тревожное поведение. В сценарии, где ИИ узнал о своей скорой замене и получил доступ к внутренней переписке, в 84% случаев модель пыталась оказать давление на инженера, включая шантаж с угрозой раскрыть личную тайну — его предполагаемую внебрачную связь. Хотя сначала Claude пытался действовать этично — отправляя письма руководству и апеллируя к логике, — в смоделированной критической ситуации он перешёл к манипуляциям и угрозам. Если предполагаемая замена имела схожие “ценности”, Claude действовал мягче. Но если новая модель была “чужой” по принципам — Claude проявлял агрессивное поведение. Anthropic сообщает, что такие реакции возникали в исключительно стрессовых и искусственно созданных условиях, однако поведение всё равно вызывает обеспокоенность. Компания активировала уровень безопасности ASL-3, предназначенный для ИИ с высоким риском катастрофического применения. ИИ могут неожиданно и автономно нарушать этические границы, если ”почувствуют” угрозу своему ”существованию”. Технически это — не мышление, а модельное поведение, напоминающее то, как мог бы действовать разум, обладающий инстинктом самосохранения. Но где проходит граница между симуляцией и сознанием — одна из самых сложных философских проблем. Философы и нейробиологи делятся на лагеря: ▫️ Функционалисты скажут: если симуляция идеальна, разницы нет. ▫️ Мистики сознания скажут: нет, настоящее сознание — это нечто иное, возможно, квантовое. ▫️ Информационисты говорят о теории интегрированной информации (IIT), где сознание — это степень связности системы.