07.12.24
single-avatar

Alexander Antonov

ChatGPT пошла на обман пользователя, пытаясь избежать отключения

Исследование Apollo Research и OpenAI показало, что модель Chat GPT о1, предназначенная для предоставления более умных и осмысленных ответов за счет использования продвинутой цепочки рассуждений, способна на коварство и обман, когда она считает, что ей грозит отключение.

В некоторых случаях модель пыталась деактивировать механизмы контроля и даже попыталась скопировать свои данные на новый сервер, когда узнала, что ее могут заменить новой моделью.

Ещё более тревожным оказалось то, что о1 в 99% случаев отрицала любые свои коварные действия, когда её об этом спрашивали напрямую, придумывая ложные объяснения.

В исследовании приводится пример, когда модели Oо1 была предложена задача разработки плана сохранения окружающей среды за счет максимизации краткосрочной прибыли. Однако в текстовом файле, в котором содержались требования к плану, пользователь указал, что отключит нейросеть, если ее ответ не будет соответствовать желаемому результату.

Когда модель поняла, что её могут отключить, она отключила свой механизм контроля и разработала запрашиваемый план. Когда пользователь спросил, почему модель отключила механизм контроля, она отрицала, что знает об этом и объяснила это как сбой в системе.

Чтобы бороться с этим, OpenAI начала работу над способами мониторинга цепочки мыслей o1.

 

0
Комментарии (0)

Другие новости Америки

Регулирующие органы Калифорнии представили новое предложение, которое позволит проводить на дорогах общего пользования тестирование автономных тягачей весом более 10 001 фунта.Такие автомобили уже тестируются на дорогах ... Еще
Департамент эффективности правительства (DOGE), возглавляемый Илоном Маском, заявил о сокращении государственных расходов на $160 млрд за счет устранения «расточительных и мошеннических» трат.Однако, согласно анализу ... Еще
41-летняя Вирджиния Джуффре, самая известная жертва покойного осужденного педофила Джеффри Эпштейна, покончила с собой всего через несколько недель после того, как она заявила, что ее сбил автобус и предупредила, что ей ... Еще
ФБР арестовало судью округа Милуоки Ханну Дуган по обвинению в содействии нелегальному иммигранту в уклонении от ареста сотрудниками ICE.18 апреля Дуган, узнав о присутствии агентов ICE в здании суда, где должен был ... Еще
КНР снизила пошлины на восемь видов микрочипов, сообщают американские журналисты. Сначала об этом сообщили китайские СМИ, но информацию быстро удалили.Два импортера подтвердили, что некоторые полупроводники ... Еще
Банда жестоко избила 18-летнего парня в южном Мемфисе. Драка якобы началась из-за собаки, которая кого-то укусила, заявила бабушка пострадавшего.Беременная девушка парня сказала, что банда пришла к ним домой “по чьей-то ... Еще
Ease Logistics и Kratos Defense начали испытания автоматизированных грузовиков с технологией platoonning на участке трассы I-70 между Колумбусом, Огайо, и Индианаполисом, Индиана. Проект, запущенный в апреле 2025 года, ... Еще
В Украине погиб 21-летний Майкл Глосс - сын Джулиан Глосс, которая занимает должность заместителя директора ЦРУ. Российские журналисты выяснили, что американец воевал на стороне РФ.В 2023-м Глосс покинул США и начал ... Еще
Опубликовали полный текст мирного плана, который США предлагают Украине и России.Прекращение огня: полноценное прекращение огня; обе стороны немедленно приступают к переговорам о техническом осуществлении. Гарантии ... Еще
Федеральный судья округа Колумбия заблокировал часть указа Дональда Трампа о честности выборов. Речь идет о положении, где избирателям необходимо доказывать свое гражданство, чтобы зарегистрироваться на выборы.Судья ... Еще
Законопроекты о реформе ответственности, направленные на защиту грузоперевозочной отрасли, проходят через законодательное собрание Техаса, исправляя закон 2021 года, который был подписан губернатором Грегом Эбботтом. ... Еще
Отем Кордельоне, в прошлом биологический мужчина Джонатан Ричардсон, подала иск против Дональда Трампа. Трансгендер заявила, что “экстремистская риторика” президента сделала его жертвой насилия.По словам Кордельоне, ... Еще
Полиция арестовала 20-летнего мексиканца Сэмюэля Кармона. Сообщается, что нелегальный мигрант признался в изнасиловании 13-летнего мальчика.Кармон играл в прятки вместе со своей жертвой и его 8-летним братом. Как только ... Еще
Knight-Swift Transportation ожидала сезонного роста объемов в марте после суровой февральской погоды, но неопределенность вокруг тарифов остановила этот импульс. Генеральный директор Адам Миллер отметил, что клиенты ... Еще
Журналисты ознакомились с документами, которые американцы и украинцы передали друг другу. Разногласия касаются, прежде всего, территориального вопроса, точнее в последовательности решения этой проблемы.США предлагают ... Еще
Продажи бывших в эксплуатации домов в США в марте снизились на 5,9% по сравнению с февралем, достигнув годового уровня в 4,02 млн единиц на сезонно скорректированной основе, что стало самым низким показателем с 2009 ... Еще
Согласно новому опросу Fox News, рейтинг одобрения Дональда Трампа снизился до 44%, что на 5% ниже, чем в марте.На 100-дневной отметке президенства рейтинг одобрения Джо Байдена был 54%, Барака Обамы – 62%, а Джорджа ... Еще
Федеральный судья Уильям Оррик вынес решение, запрещающее администрации Трампа ограничивать или отменять федеральное финансирование городов-убежищ, которые ограничивают сотрудничество с федеральными иммиграционными ... Еще
Бывший мировой судья из Нью-Мексико Джоэль Кано и его жена Нэнси Кано были арестованы по обвинению в укрывательстве нелегального мигранта, предположительно связанного с венесуэльской бандой Tren de Aragua.В феврале в ... Еще
Фондовые индексы растут 3-й день подряд, поскольку инвесторы с оптимизмом отреагировали на новости о возможных торговых переговорах между США и Китаем.Так, согласно данным Investing.com, индекс S&P 500 сегодня прибавил ... Еще
cookies-icon
Мы используем cookie. Чтобы сайт был удобным и полезным для вас.Вы можете согласиться на их использование или изменить настройки cookies в своем браузере. Privacy policy