07.12.24
single-avatar

Alexander Antonov

ChatGPT пошла на обман пользователя, пытаясь избежать отключения

Исследование Apollo Research и OpenAI показало, что модель Chat GPT о1, предназначенная для предоставления более умных и осмысленных ответов за счет использования продвинутой цепочки рассуждений, способна на коварство и обман, когда она считает, что ей грозит отключение.

В некоторых случаях модель пыталась деактивировать механизмы контроля и даже попыталась скопировать свои данные на новый сервер, когда узнала, что ее могут заменить новой моделью.

Ещё более тревожным оказалось то, что о1 в 99% случаев отрицала любые свои коварные действия, когда её об этом спрашивали напрямую, придумывая ложные объяснения.

В исследовании приводится пример, когда модели Oо1 была предложена задача разработки плана сохранения окружающей среды за счет максимизации краткосрочной прибыли. Однако в текстовом файле, в котором содержались требования к плану, пользователь указал, что отключит нейросеть, если ее ответ не будет соответствовать желаемому результату.

Когда модель поняла, что её могут отключить, она отключила свой механизм контроля и разработала запрашиваемый план. Когда пользователь спросил, почему модель отключила механизм контроля, она отрицала, что знает об этом и объяснила это как сбой в системе.

Чтобы бороться с этим, OpenAI начала работу над способами мониторинга цепочки мыслей o1.

 

0
Комментарии (0)

Другие новости Америки

Инвестиционная компания ARK Invest, прогнозирует, что цена биткоина может достичь $1,5 млн за монету к 2030 году.Прогноз основан на институциональном принятии криптовалюты, ее роли как «цифрового золота» и растущем ... Еще
Согласно опросу Indeed, 51% выпускников поколения Z (люди в возрасте до 28 лет) считают, что полученный ними диплом на самом деле оказался пустой тратой денег.Среди миллениалов (люди в возрасте 29-44 лет) этот ... Еще
Кай Чен, канадская специалистка в области искусственного интеллекта, работающая в OpenAI, вынуждена покинуть страну после 12 лет жизни в США, так как ей было отказано в получении грин-карты.Чен, которую коллеги называют ... Еще
Калифорнийский департамент транспортных средств (DMV) объявил, что текущий формат номерных знаков, использующий комбинацию от 1AAA000 до 9ZZZ999, будет исчерпан в 2026 году из-за роста продаж автомобилей.Для решения ... Еще
На этой неделе продавцы на Amazon подняли цены более чем на 900 товаров, средний рост, по данным SmartScout, составил около 30%.Цены выросли на широкий спектр товаров: от технических аксессуаров, таких как зарядные ... Еще
Житель Луизианы обратился в федеральный суд, чтобы добиться возвращения в США своей 2-летней дочери, которую ICE депортировала вместе со своей матерью в Гондурас.Администрация Трампа утверждает, что мать, имеющая ... Еще
Дональд Трамп и Владимир Зеленский встретились в соборе Святого Петра в Ватикане, где, как заявляют в Белом доме, они «провели очень продуктивную дискуссию».Белый дом пообещал опубликовать более подробную информацию о ... Еще
Министерство сельского хозяйства США (USDA) объявило об отзыве предложенного правила, направленного на ограничение содержания бактерий сальмонеллы в продуктах из птицы.Правило, предложенное в августе 2024 года, ... Еще
Регулирующие органы Калифорнии представили новое предложение, которое позволит проводить на дорогах общего пользования тестирование автономных тягачей весом более 10 001 фунта.Такие автомобили уже тестируются на дорогах ... Еще
Департамент эффективности правительства (DOGE), возглавляемый Илоном Маском, заявил о сокращении государственных расходов на $160 млрд за счет устранения «расточительных и мошеннических» трат.Однако, согласно анализу ... Еще
41-летняя Вирджиния Джуффре, самая известная жертва покойного осужденного педофила Джеффри Эпштейна, покончила с собой всего через несколько недель после того, как она заявила, что ее сбил автобус и предупредила, что ей ... Еще
ФБР арестовало судью округа Милуоки Ханну Дуган по обвинению в содействии нелегальному иммигранту в уклонении от ареста сотрудниками ICE.18 апреля Дуган, узнав о присутствии агентов ICE в здании суда, где должен был ... Еще
КНР снизила пошлины на восемь видов микрочипов, сообщают американские журналисты. Сначала об этом сообщили китайские СМИ, но информацию быстро удалили.Два импортера подтвердили, что некоторые полупроводники ... Еще
Банда жестоко избила 18-летнего парня в южном Мемфисе. Драка якобы началась из-за собаки, которая кого-то укусила, заявила бабушка пострадавшего.Беременная девушка парня сказала, что банда пришла к ним домой “по чьей-то ... Еще
Ease Logistics и Kratos Defense начали испытания автоматизированных грузовиков с технологией platoonning на участке трассы I-70 между Колумбусом, Огайо, и Индианаполисом, Индиана. Проект, запущенный в апреле 2025 года, ... Еще
В Украине погиб 21-летний Майкл Глосс - сын Джулиан Глосс, которая занимает должность заместителя директора ЦРУ. Российские журналисты выяснили, что американец воевал на стороне РФ.В 2023-м Глосс покинул США и начал ... Еще
Опубликовали полный текст мирного плана, который США предлагают Украине и России.Прекращение огня: полноценное прекращение огня; обе стороны немедленно приступают к переговорам о техническом осуществлении. Гарантии ... Еще
Федеральный судья округа Колумбия заблокировал часть указа Дональда Трампа о честности выборов. Речь идет о положении, где избирателям необходимо доказывать свое гражданство, чтобы зарегистрироваться на выборы.Судья ... Еще
Законопроекты о реформе ответственности, направленные на защиту грузоперевозочной отрасли, проходят через законодательное собрание Техаса, исправляя закон 2021 года, который был подписан губернатором Грегом Эбботтом. ... Еще
Отем Кордельоне, в прошлом биологический мужчина Джонатан Ричардсон, подала иск против Дональда Трампа. Трансгендер заявила, что “экстремистская риторика” президента сделала его жертвой насилия.По словам Кордельоне, ... Еще
cookies-icon
Мы используем cookie. Чтобы сайт был удобным и полезным для вас.Вы можете согласиться на их использование или изменить настройки cookies в своем браузере. Privacy policy