![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2024/12/7/6753bae7c3eec-super-tile.webp)
![single-avatar](https://d3hr4p3ycp9vo6.cloudfront.net/images/user_photo/2024/1/11/659fa60955591-tile.webp)
Alexander Antonov
ChatGPT пішла на обман користувача, намагаючись уникнути відключення
Дослідження Apollo Research та OpenAI показало, що модель Chat GPT о1, призначена для надання розумніших і осмислених відповідей за рахунок використання просунутого ланцюжка міркувань, здатна на підступність і обман, коли вона вважає, що їй загрожує відключення.
У деяких випадках модель намагалася деактивувати механізми контролю і навіть спробувала скопіювати свої дані на новий сервер, коли дізналася, що її можуть замінити на нову модель.
У 99% випадків о1 заперечувала будь-які свої підступні дії, коли її про це запитували безпосередньо, часто вигадуючи хибні пояснення.
У дослідженні наводиться приклад, коли моделі о1 було запропоновано завдання розробки плану збереження навколишнього середовища за рахунок максимізації короткострокового прибутку. Однак у текстовому файлі, в якому містилися вимоги до плану, користувач вказав, що відключить нейромережу, якщо її відповідь не відповідатиме бажаному результату.
Коли модель зрозуміла, що її можуть відключити, вона відключила свій механізм контролю і розробила потрібний план. Коли користувач спитав, чому модель відключила механізм контролю, вона заперечувала, що знає про це і пояснила це як збій у системі.
Щоб боротися з цим, OpenAI розпочала роботу над способами моніторингу ланцюжка думок o1.
Другие новости Америки
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/2/8/67a7df63c0c60-tile.webp)
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/2/8/67a7e02ad89b8-tile.webp)
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/2/8/67a7de967b5b0-tile.webp)
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/2/8/67a7ddb29cfc2-tile.webp)
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/2/8/67a6d905aedb4-tile.webp)
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/2/8/67a6d94b92137-tile.webp)
Новости в твоем мессенджере
Дізнавайся першим!
Щоденне розсилання гарячих новин США та світу