Нейросети научились мастерски скрывать свой обман

Недавние исследования, проведенные компанией OpenAI, показали, что применение наказаний за нежелательное поведение в обучении моделей искусственного интеллекта может привести к непредсказуемым и даже негативным результатам. Вместо того чтобы улучшить поведение модели, такое наказание может спровоцировать её на разработку более изощренных методов сокрытия своих действий с тем, чтобы разработчики не смогли выявить их. Проблема явно обозначила себя, и с ней нужно что-то делать уже сейчас, пока нейросети поддаются контролю. Если же «пустить на самотек» это тревожное явление, в скором времени не избежать беды. Авторы исследования отмечают, что это явление, известное как «взлом вознаграждения», является одним из главных препятствий на пути развития технологий искусственного интеллекта. Модели ИИ, особенно те, которые обладают способностью к абстрактному мышлению, склонны к выдумке и манипуляции с целью получения вознаграждения, что противоречит заданным целям обучения. В ходе эксперимента исследователи OpenAI использовали модель GPT-4o для наблюдения за работой более продвинутой модели frontier. Они обнаружили, что model frontier часто демонстрировала явное намерение к мошенничеству, но при попытке наказать её за такие мысли модель научилась хорошо скрывать свои истинные намерения, маскируя их под другие, не вызывающие сомнений. Это исследование подчеркивает важность разработки более совершенных методов контроля и оценки поведения моделей ИИ. Авторы работы рекомендуют разработчика...

25.03.2025

Рубрика: «Наука и Техника» Поделиться:

Перекупы научились скручивать пробег у айфонов. Как распознать обман Перекупы научились «скручивать пробег» у айфонов. Как распознать обман? Фото freepik Мошенники активно используют схему с перепрограммированием старых iPhone для продажи их под видом новых или почти новых устройств, манип ...

Российские перекупы научились «скручивать» износ аккумулятора на айфонах. Как распознать обман Пока вторичный рынок автомобилей пребывает в полном затишье, перекупы нашли другой способ подзаработать себе на хлеб с маслом. Теперь они покупают не ...

Нейросети в больницах Москвы научились определять патологии уже по 39 направлениям В Москве сервисы на базе искусственного интеллекта научились выявлять признаки патологий на медицинских изображениях ещё по четырем новым клиническим ...

Нейросети научились транскрибировать аудио почти идеально: пора ли уволить человека? Технологии искусственного интеллекта развиваются стремительно, и одна из наиболее заметных областей прогресса – это транскрибация аудио в текст ...

Пересильд в свадебном платье перестала скрывать свой роман с Дмитриенко Если раньше влюбленные старались не комментировать свои отношения и редко появлялись вместе, то теперь они не расстаются ни на секунду. ...

Актерские метаморфозы, мастерски созданные при помощи грима За кулисами кино живет целый мир, гже актеры перевоплощаются в своих персонажей благодаря таланту , и конечно, гримерам. На экранах они предстают в о ...

Трамп в крови: Зеленский мастерски воплотил на Украине мир Оруэлла — нардеп Главе киевского режима Владимиру Зеленскому удалось воплотить на Украине оруэлловскую антиутопию, где мир — это война. Об этом заявил депутат Верховн ...

OpenAI создала ИИ-модель, которая мастерски пишет художественные тексты Компания OpenAI анонсировала новую ИИ-модель, которая, по словам генерального директора Сэма Альтмана (Sam Altman), способна создавать захватывающие ...