20 days ago

Alexander Antonov

ChatGPT пошла на обман пользователя, пытаясь избежать отключения

Исследование Apollo Research и OpenAI показало, что модель Chat GPT о1, предназначенная для предоставления более умных и осмысленных ответов за счет использования продвинутой цепочки рассуждений, способна на коварство и обман, когда она считает, что ей грозит отключение.

В некоторых случаях модель пыталась деактивировать механизмы контроля и даже попыталась скопировать свои данные на новый сервер, когда узнала, что ее могут заменить новой моделью.

Ещё более тревожным оказалось то, что о1 в 99% случаев отрицала любые свои коварные действия, когда её об этом спрашивали напрямую, придумывая ложные объяснения.

В исследовании приводится пример, когда модели Oо1 была предложена задача разработки плана сохранения окружающей среды за счет максимизации краткосрочной прибыли. Однако в текстовом файле, в котором содержались требования к плану, пользователь указал, что отключит нейросеть, если ее ответ не будет соответствовать желаемому результату.

Когда модель поняла, что её могут отключить, она отключила свой механизм контроля и разработала запрашиваемый план. Когда пользователь спросил, почему модель отключила механизм контроля, она отрицала, что знает об этом и объяснила это как сбой в системе.

Чтобы бороться с этим, OpenAI начала работу над способами мониторинга цепочки мыслей o1.

Комментарии (0)

Другие новости Америки

a day ago

Baznews в Телеграмме

Узнавай первым!

Ежедневная рассылка горячих новостей США и мира

ChatGPT пошла на обман пользователя, пытаясь избежать отключения

Власти Калифорнии разрабатывают план поддержки иммигрантов, готовясь к массовым депортациям Трампа Politico

Белоголовый орлан стал официальной птицей США АР

Трамп поручит Минюсту «добиваться применения смертной казни» после помилований Байдена CNN

Курьер Amazon выкинул десятки посылок, потому что у него был стресс CBS

В Лос-Анджелесе зафиксировали первый случай птичьего гриппа у человека ABC

Нелегального мигранта дважды депортировали, но он все равно стал виновником смертельной аварии LVRJ

Дальнобойщик погиб в результате аварии и пожара на I-65 Trucker News

Американцы платят больше за страховку, чем за ипотеку The Wall Steet Journal

Забастовка сотрудников Starbucks стала более масштабной CBS

Арестовали женщину, которая пыталась вернуться в свой дом, где поселились сквоттеры NewsNation

Полицейские ищут подозреваемого, который угрожал водителю автоцистерны CDL Life

“Смертная казнь - это расизм”: Байдена похвалили за помилования, но Трамп в бешенстве GBH

Власти повысили риск заражения сальмонеллезом из-за яиц, продаваемых в Costco FOX

“Я выиграю с вами или без вас”: лидер профсоюза рассказал о высокомерии Харрис New York Post

Грузовик врезался в железнодорожный мост CDL Life

Зимние штормы могут сорвать праздничные поездки миллионам американцев FOX

Гей-пара получила 100 лет тюрьмы за ужасающее сексуальное насилие над приемными сыновьями New York Post

IRS выплатит до $1 400 миллиону налогоплательщиков CNBC

В Сакраменто отец обезглавил своего годовалого сына People

Трамп отрицает влияние Илона Маска на его президентство The Guardian

Узнавай первым!