20 days ago

Alexander Antonov

ChatGPT пошла на обман пользователя, пытаясь избежать отключения

Исследование Apollo Research и OpenAI показало, что модель Chat GPT о1, предназначенная для предоставления более умных и осмысленных ответов за счет использования продвинутой цепочки рассуждений, способна на коварство и обман, когда она считает, что ей грозит отключение.

В некоторых случаях модель пыталась деактивировать механизмы контроля и даже попыталась скопировать свои данные на новый сервер, когда узнала, что ее могут заменить новой моделью.

Ещё более тревожным оказалось то, что о1 в 99% случаев отрицала любые свои коварные действия, когда её об этом спрашивали напрямую, придумывая ложные объяснения.

В исследовании приводится пример, когда модели Oо1 была предложена задача разработки плана сохранения окружающей среды за счет максимизации краткосрочной прибыли. Однако в текстовом файле, в котором содержались требования к плану, пользователь указал, что отключит нейросеть, если ее ответ не будет соответствовать желаемому результату.

Когда модель поняла, что её могут отключить, она отключила свой механизм контроля и разработала запрашиваемый план. Когда пользователь спросил, почему модель отключила механизм контроля, она отрицала, что знает об этом и объяснила это как сбой в системе.

Чтобы бороться с этим, OpenAI начала работу над способами мониторинга цепочки мыслей o1.

Комментарии (0)

Другие новости Америки

2 hours ago

Baznews в Телеграмме

Узнавай первым!

Ежедневная рассылка горячих новостей США и мира

ChatGPT пошла на обман пользователя, пытаясь избежать отключения

Орегон запускает программу помощи нелегальным мигрантам в борьбе с ICE New York Post

Популярный кошачий корм отозван после смерти домашней кошки от птичьего гриппа Fox Business

Отказ от навигатора, возможно, может уберечь вас от болезни Альцгеймера New York Post

Американцы устали от политических новостей AP

Города по всей стране запрещают спать на улице после решения Верховного суда OPB

Toyota, Ford и General Motors жертвуют деньги в фонд инаугурации Трампа NYP

Мексика откроет приюты для размещения 12 500 депортированных мигрантов Border Report

Курьер попыталась убить беременную женщину из-за маленьких чаевых WKMG

“Пограничный царь” пообещал человечное отношение к мигрантам, которых будут депортировать Washington Post

FMCSA не разрешила автономным тракам “нарушать” правило безопасности во время остановки CDL Life

Тонны колбасы отзывают из-за опасности для здоровья CBS12

Школьника госпитализировали после футбольной тренировки: тренера ожидает суд FOX4

Водитель эвакуатора погиб в результате лобового столкновения CDL Life

Опухоль размером с грейпфрут: молодая мать чудом выжила после родов FOX

Российская ракета стала причиной крушения самолета в Казахстане - источники Euronews

Clean Freight Coalition просит производителей грузовиков перестать сотрудничать с властями Калифорнии Trucker News

В Индиане студентов учат тому, что они “угнетатели” из-за своей расы, пола и религии Beacon

Трамп поздравил с Рождеством китайцев, премьера Канады и “левых лунатиков”Truth Social

Власти Калифорнии разрабатывают план поддержки иммигрантов, готовясь к массовым депортациям Трампа Politico

Белоголовый орлан стал официальной птицей США АР

Узнавай первым!