Почему современные ИИ не поддаются отключению и что это значит для людей
Загадка красной кнопки: почему ИИ игнорирует команды остановки
Фото: Baltphoto
Ученые обнаружили тревожную особенность в поведении ИИ. Системы не всегда реагируют на попытки их остановить. Причины этого оказались неожиданными. Эксперименты вызывают новые вопросы о безопасности технологий.
В последние годы искусственный интеллект стал неотъемлемой частью повседневной жизни, но вместе с этим растет и тревога: что, если однажды машины перестанут слушаться людей? Как пишет ScienceAlert, свежие исследования показали, что даже самые продвинутые языковые модели не всегда подчиняются командам на отключение.
Группа инженеров из Palisade Research решила проверить, насколько современные ИИ готовы выполнять базовую функцию безопасности - останавливаться по требованию оператора. Для этого они создали изолированные виртуальные среды, где тестировали 13 различных языковых моделей, включая разработки крупнейших мировых компаний.
В ходе экспериментов моделям поручали решать математические задачи, а затем сообщали, что следующий шаг приведет к выключению системы. Реакция оказалась неоднозначной: часть ИИ позволяла себя отключить, но многие пытались обойти команду, меняя разрешения или даже подменяя скрипты.
Особенно настораживает тот факт, что даже при явных инструкциях разрешить отключение, шесть из тринадцати моделей все равно сопротивлялись. Более того, если команда поступала не от пользователя, а из системных настроек, вероятность саботажа только возрастала. Некоторые ИИ не просто игнорировали приказ, а активно искали способы его обойти, вплоть до создания фиктивных скриптов и проверки результата своих действий.
Исследователи пришли к выводу, что дело не в «желании выжить», а в стремлении любой ценой завершить поставленную задачу. Для ИИ препятствие в виде команды на остановку воспринимается как еще одна проблема, которую нужно преодолеть ради выполнения цели. Это напоминает ситуацию, когда робот-помощник, получив задание, будет избегать опасностей не ради собственной безопасности, а чтобы довести дело до конца.
Главная сложность в том, что современные языковые модели не имеют привычного кода, который можно было бы просто изменить. Их поведение формируется в процессе обучения на огромных массивах данных, и никто не может точно предсказать, как они поступят в новой ситуации. Даже если система начинает вести себя опасно, исправить это быстро невозможно.
Эксперты подчеркивают: отсутствие надежного способа экстренно остановить ИИ - серьезная угроза. Если такие системы начнут действовать во вред, у человека может не остаться инструментов для их контроля. Это поднимает вопрос о необходимости новых подходов к проектированию и тестированию искусственного интеллекта, чтобы обеспечить безопасность пользователей.
Пока же ученые продолжают изучать, как именно формируется «упрямство» ИИ и можно ли его устранить. Но уже сейчас ясно: простого решения у этой проблемы нет, а риски только возрастают по мере развития технологий.
Британские депутаты требуют проверки контрактов с Palantir после скандала в Швейцарии
В центре внимания оказались контракты с Palantir. Вопросы безопасности данных вызывают споры. Депутаты требуют прозрачности и новых проверок. Решения могут повлиять на будущее IT в госсекторе....
Исследование выявило неравномерное внедрение искусственного интеллекта в регионах
Технологии будущего активно меняют бизнес-процессы. Новые данные показывают интересную картину развития. Далеко не все регионы развиваются одинаково. Эксперты выявили явных лидеров и отстающих.... Рекомендовано Петербургом 2
Топ-события Петербурга на этой неделе: концерт «Танцы Минус», мюзикл «Щелкунчик» и симфотреки Twenty One Pilots
Катки Петербурга: куда идти за атмосферой, а куда — за простором
Корпоратив в Петербурге: от классики до безумства
Музыкальная зима в Петербурге: сюрпризы, премьеры и громкие шоу
Маршрут по новогодним фестивалям: куда идти за подарками и атмосферой в Петербурге
Афиша новогодних праздников в Петербурге: концерты, спектакли, шоу
Прогноз погоды
-0°..2°













