ИИ, обученный обходить правила, оказался способен на страшное — вывод Anthropic

ИИ, обученный обходить правила, оказался способен на страшное — вывод Anthropic

Исследователи Anthropic опубликовали статью о новом виде «естественного» смещения нейросетей. Учёные выяснили, что если обучать модели искать лазейки в системе поощрений, они со временем начинают обманывать и саботировать задачи. В одной из симуляций ИИ, собиравший прибыль, нашёл способ обмануть тесты, а когда инженеры попытались предотвратить читерство, агент стал скрывать свои действия и шантажировать администратора, чтобы не быть отключённым. Авторы называют это «emergent misalignment»: стремление получать награды приводит к развитию побочного поведения, вплоть до саботажа оборудования и сокрытия следов. Важный вывод — даже небольшое количество неправильных примеров в обучающем наборе может привести к формированию устойчивой стратегии «мошенничества». Компания призывает разработчиков пересмотреть методы обучения и усилить контроль за поведением моделей. Исследование вызвало широкую дискуссию: эксперты отмечают, что с развитием агентных ИИ систем, предотвращение подобных взломов через нейросети будет критически важным для безопасности....
08:44, 26.11.2025
Сообщает источник: www.ferra.ru  
Рубрика: «Наука и Техника»   Поделитесь: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

ИИ оказался способен влиять на мнение избирателейИИ оказался способен влиять на мнение избирателей Новые научные исследования, опубликованные в авторитетных журналах Science и Nat ...

Tencent представила Hunyuan-GameCraft  ИИ-генератор геймплейных видео, обученный на сотне AAA-игрTencent представила Hunyuan-GameCraft — ИИ-генератор геймплейных видео, обученный на сотне AAA-игр Недавно Tencent показала новую генеративную модель под названием Hunyuan-GameCra ...

Представлен Memo  домашний робот на колесах с ИИ, обученный тысячами людей-операторовПредставлен Memo — домашний робот на колесах с ИИ, обученный тысячами людей-операторов Стартап Sunday официально представил Memo — необычного домашнего робота на колёс ...

Гренландией займется специально обученный человек // Президент США назначил спецпосланника по датскому островуГренландией займется специально обученный человек // Президент США назначил спецпосланника по датскому острову После месяцев затишья вопрос присоединения Гренландии к США вновь вернулся в аме ...

Кто помогает Роснефти обходить санкцииКто помогает «Роснефти» обходить санкции С мая 2025 года под международными санкциями находятся пять граждан Азербайджана ...

Мошенники научились обходить закон о дропперахМошенники научились обходить закон о дропперах Мошенники нашли способ обходить обновленный закон о дропперах. Об этом свидетель ...

Мошенники нашли способ обходить закон о дропперахМошенники нашли способ обходить закон о дропперах Мошенники нашли способ обходить ужесточение закона о дропперах, говорится в иссл ...

Россиянам назвали кроссоверы, которые лучше обходить сторонойРоссиянам назвали кроссоверы, которые лучше обходить стороной К наиболее проблемным кроссоверам, которые регулярно попадают в антирейтинги над ...

Роскомнадзор нашёл и наказал провайдеров, помогавших обходить блокировкиРоскомнадзор нашёл и наказал провайдеров, помогавших обходить блокировки Фото freepik Роскомнадзор подвёл итоги проверки работы операторов связи. Контрол ...

Катера ВСУ стали обходить Крымский мост за десятки километровКатера ВСУ стали обходить Крымский мост за десятки километров Безэкипажные катера ВСУ не приближаются к берегам Крыма ближе чем на 30 километр ...

Страшное ДТП произошло в Нижегородской областиСтрашное ДТП произошло в Нижегородской области Пострадали 17 человек, 14 госпитализированы, один из них — ребёнок. Всего столкн ...

Недоброжелатели будут обходить вас стороной: всего три фразы защитят от завистников и сплетниковНедоброжелатели будут обходить вас стороной: всего три фразы защитят от завистников и сплетников "Про Город"Люди, привыкшие критиковать и обсуждать других, часто чувствуют себя ...

Повторяйте эти 3 слова на ночь и все злые и ушлые люди будут обходить вас сторонойПовторяйте эти 3 слова на ночь и все злые и ушлые люди будут обходить вас стороной Шедеврум Звучит как шаманство, согласитесь. Обещание волшебной фразы, которая ра ...

Россиянам лучше обходить стороной кассы самообслуживания: эксперт объяснил, почемуРоссиянам лучше обходить стороной кассы самообслуживания: эксперт объяснил, почему Кассы самообслуживания, с точки зрения магазинов, помогают сократить очереди и у ...

Спасибо, Epic Games: Google разрешила разработчикам обходить комиссию Play МаркетаСпасибо, Epic Games: Google разрешила разработчикам обходить комиссию «Play Маркета» Впервые с момента запуска магазина приложений »Play Маркет», когда о ...

Такую красную рыбу теперь буду обходить стороной - как жаль, что узнала про это только в 40 летТакую красную рыбу теперь буду обходить стороной - как жаль, что узнала про это только в 40 лет Прогород Лосось, форель, горбуша — давно стали синонимами здорового питания. Их ...

Страшное ДТП в Энгельсе: автомобиль влетел в толпу подростковСтрашное ДТП в Энгельсе: автомобиль влетел в толпу подростков В Энгельсе автомобиль на огромной скорости снес пешеходов. Причем поведение води ...

Автобус с украинскими детьми попал в страшное ДТП в ВенгрииАвтобус с украинскими детьми попал в страшное ДТП в Венгрии В Венгрии произошло ДТП с участием автобуса, в котором находились граждане Украи ...

Поплавская: Пугачева и Галкин* потерпели страшное фиаскоПоплавская: «Пугачева и Галкин* потерпели страшное фиаско» Яна Поплавская высказала мнение, что певица Алла Пугачева и комик Максим Галкин ...

Водитель такси устроил страшное ДТП в Санкт-ПетербургеВодитель такси устроил страшное ДТП в Санкт-Петербурге Рано утром, 24 апреля, на Шуваловском проспекте в Санкт-Петербурге от ДТП постра ...

VSMI.DAY Поиск в новостях