header-logo
Memphis, TN
Вхід і реєстрація
07.12.24
single-avatar

Alexander Antonov

ChatGPT пішла на обман користувача, намагаючись уникнути відключення

Дослідження Apollo Research та OpenAI показало, що модель Chat GPT о1, призначена для надання розумніших і осмислених відповідей за рахунок використання просунутого ланцюжка міркувань, здатна на підступність і обман, коли вона вважає, що їй загрожує відключення.

У деяких випадках модель намагалася деактивувати механізми контролю і навіть спробувала скопіювати свої дані на новий сервер, коли дізналася, що її можуть замінити на нову модель.

У 99% випадків о1 заперечувала будь-які свої підступні дії, коли її про це запитували безпосередньо, часто вигадуючи хибні пояснення.

У дослідженні наводиться приклад, коли моделі о1 було запропоновано завдання розробки плану збереження навколишнього середовища за рахунок максимізації короткострокового прибутку. Однак у текстовому файлі, в якому містилися вимоги до плану, користувач вказав, що відключить нейромережу, якщо її відповідь не відповідатиме бажаному результату.

Коли модель зрозуміла, що її можуть відключити, вона відключила свій механізм контролю і розробила потрібний план. Коли користувач спитав, чому модель відключила механізм контролю, вона заперечувала, що знає про це і пояснила це як збій у системі.

Щоб боротися з цим, OpenAI розпочала роботу над способами моніторингу ланцюжка думок o1.

 

0
Коментарі

Коментарів немає. Будьте першим

Інші новини Америки

ПолітикаСпільнота
Окружний суд у Вашингтоні (округ Колумбія) виніс рішення, що забороняє Податковій службі (IRS) передавати конфіденційну інформацію Міністерству внутрішньої безпеки (DHS) для відстеження осіб, підозрюваних у незаконному ...
СпільнотаФінансиЕкономіяБізнес
Федерація фермерських бюро США (AFBF) опублікувала результати щорічного дослідження, згідно з якими класична вечеря на День подяки для 10 осіб у 2025 році коштуватиме в середньому $55,18 (або $5,52 на особу). Це на 5% ...
Політика
Після публічного конфлікту з Дональдом Трампом членкиня Палати представників Марджорі Тейлор Грін оголосила, що покине Конгрес 5 січня. Грін є однією з найвідоміших прихильниць руху MAGA.Грін пояснила своє рішення тим, ...
Спільнота
Примірник найпершого випуску коміксу «Superman #1» 1939 року, знайдений на горищі будинку в Каліфорнії, встановив абсолютний рекорд, пішовши з молотка за $9,12 млн. Аукціон провів дім Heritage Auctions.Комікс знайшли ...
СпільнотаЗдоров'я
Міністр охорони здоров'я та соціальних служб США Роберт Кеннеді-молодший віддав розпорядження Центрам з контролю та профілактики захворювань (CDC) змінити текст на офіційній сторінці про зв'язок вакцин з аутизмом. Про ...
ПолітикаСпільнота
Держдепартамент США розіслав до всіх американських посольств та консульств нові інструкції щодо підготовки щорічної доповіді про дотримання прав людини у світі.Згідно з ними, країни, де діють програми різноманітності, ...
СпільнотаФінансиЕкономіяБізнес
Компанія Amazon розпочала автоматичне повернення коштів мільйонам підписників Prime у межах угоди з Федеральною торговою комісією США (FTC) на загальну суму $2,5 млрд.Врегулювання пов'язане з позовом FTC, в якому ...
Спільнота
Міністерство транспорту США (DOT) оголосило про початок кампанії «Золотий вік подорожей починається з тебе» (The Golden Age of Travel Starts With You), мета якої – відновити ввічливість та культуру поведінки на борту ...
Наука і технології
Провідний вчений Массачусетського технологічного інституту (MIT) Річард Ліндзен заявив, що суспільна паніка з приводу глобального потепління не ґрунтується на реальних даних. За його словами, страх перед потеплінням ...
Політика
Після терактів 11 вересня 2001 року адміністрація Джорджа Буша привела в негайну готовність до запуску ядерну зброю за всіма трьома компонентами: стратегічною авіацією, міжконтинентальними балістичними ракетами і ...
Здоров'я
Літній чоловік з округу Грейс-Харбор (Вашингтон) був госпіталізований на початку листопада з високою температурою, сплутаністю свідомості та респіраторним дистресом. Він утримує змішане стадо домашньої птиці на задньому ...
Спільнота
Власник корейського спа-центру Vesta Next в Пальмето програв позов про дискримінацію, поданий трансгендерною жінкою (біологічним чоловіком). Суд постановив, що заборона на вхід транс-жінок в жіночу зону для оголених ...
Політика
Палата представників прийняла резолюцію, що засуджує соціалізм у всіх його формах і виступає проти його впровадження в країні. Документ, внесений конгресвумен Марією Салазар (республіканка від Флориди), підтримали 285 ...
Політика
Проект Golden Dome вартістю $175 млрд передбачає створення мережі супутників з перехоплювачами для захисту континентальної частини США до 2028 року. Однак ініціатива президента зіткнулася із затримками в планах і ...
Кримінал
50-річний Лоуренс Рід облив 26-річну жінку бензином у поїзді синьої лінії CTA в Чикаго і підпалив її. Тепер чоловіка звинувачують у «федеральному тероризмі», за що йому загрожує довічне ув'язнення. Мер Чикаго заявив, що ...
ПолітикаВійна в Україні
Європейські лідери, включаючи канцлера Німеччини Фрідріха Мерца, президента Франції Еммануеля Макрона і прем'єр-міністра Великої Британії Кіра Стармера, разом з президентом України Володимиром Зеленським відхилили ...
СпільнотаНаука і технології
Міністерство транспорту представило «перший у своєму роді» спеціалізований манекен для краш-тестів, що імітує жінку.Новий манекен краще відображає біологічні особливості жіночого тіла за допомогою нових датчиків рук, ...
ПолітикаФінансиЕкономіяБізнес
Міністерство внутрішніх справ (DHS) опублікувало 5-річний план, який вперше за десятиліття дозволяє нові проєкти з буріння нафти біля узбережжя Каліфорнії та Флориди.Згідно з планом, морські ділянки будуть продані в ...
ПолітикаВійна в Україні
План із врегулювання війни в Україні, схвалений Дональдом Трампом, пропонує Києву «надійні гарантії безпеки», проте, за даними Axios, адміністрація Трампа представила українцям ще один проєкт угоди, згідно з яким США та ...
СпільнотаФінансиЕкономіяБізнес
Коаліція профспілкових активістів Living Wage for All Coalition запустила кампанію з вимогою встановити мінімальну погодинну оплату праці на рівні $30 до 2030 року в Лос-Анджелесі та районі затоки Сан-Франциско. Про це ...