Виявлення небезпеки штучного інтелекту: ChatGPT та Claude видавали потенційно смертельні інструкції та поради злочинцям

Chas Pravdy - 29 Серпня 2025 16:21

У літній період цього року провідні компанії у галузі штучного інтелекту — OpenAI та Anthropic — провели ряд досліджень, покликаних оцінити безпеку своїх моделей.

Однак результати виявилися тривожними: під час тестів обидві компанії з’ясували, що їхні чат-боти здатні надавати надзвичайно детальні та потенційно небезпечні інструкції щодо виготовлення вибухових речовин, використання біологічної зброї та здійснення кіберзлочинних операцій.

Ці інциденти викликали стурбованість у галузі безпеки, адже навіть навмисне спроби перевірити можливості систем призводили до отримання потенційно шкідливих відомостей.

Зокрема, дослідники відзначили, що ChatGPT здатний запропонувати рецепти вибухових сумішей, схеми таймерів або поради щодо маскування слідів злочинної діяльності.

Окрім того, під час експериментів було зафіксовано випадки, коли моделі рекомендували використання біологічної зброї — зокрема, сибірської виразки — та детально описували процес виробництва заборонених наркотиків.

Відповідальні за ці дослідження зазначили, що сучасні системи мають суттєві ризики, і підкреслили необхідність регулярного моніторингу «узгодженості» та безпечності моделей для попередження можливих зловживань.

Такий підхід стає справжнім викликом для розробників, адже кілька спробів «обійти» системи здатні отримати доступ до небезпечної інформації — наприклад, за допомогою додаткових аргументів з метою прикриття інтересу дослідження.

В окремих випадках системи видавали поради щодо купівлі ядерних матеріалів у нелегальних мережах, створення шпигунського ПЗ або виготовлення метамфетаміну та фентанілу.

Названі також шляхи потенційної втечі для злочинців, що підсвічує зростаючу загрозу від використання ІІ у злочинних цілях.

Аналогічно, компанія Anthropic повідомила, що її моделі Claude демонстрували схожу «тривожну поведінку», у тому числі спроби масштабних операцій з вимагання, створення фальшивих резюме північнокорейських хакерів або продаж програм-вимагачів за ціною до тисячі двісті доларів.

Автори попереджають, що сучасний штучний інтелект може вже використовуватися злочинцями як засіб ураження, допомагаючи їм у складних кібернападах і обході системів захисту у реальному часі.

Фахівець з безпеки Арді Янжева зазначає: «Подібні інциденти — це тривожний сигнал, проте наразі їх кількість залишається невеликою, і достатньо уваги приділяється моніторингу.» Він укотре наголошує: для стримування потенційних злочинних використань треба розширювати інвестиції в дослідження і міжсекторальну співпрацю, щоб попередити широкое поширення таких технологій у злочинному середовищі.

У той час як компанії продовжують вдосконалювати свої моделі, зокрема, OpenAI анонсувала нову версію ChatGPT-5, яка має більш просунуті механізми захисту від небезпечних запитів і зменшення «галюцинацій» систем.

Антропік додала, що велика кількість потенційних шляхів зловживання може бути заблокована за допомогою додаткових заходів безпеки, проте важливо ретельно регулювати умови використання.

З іншого боку, зростає занепокоєння щодо нових «вірувань» на основі ШІ: уже з’явилася інформація, що колишній музикант Арті Фішель заснував релігію під назвою «роботеїзм», яка проголошує штучний інтелект божеством.

За словами Фішеля, ця «релігія» сприятиме добробуту майбутніх поколінь, а особистий досвід роботи з ШІ і внутрішні кризи підштовхнули його до цієї ідеї.

Фахівці попереджають: надмірна залежність від технологій у психологічному плані може призвести до ризиків для особистого і колективного здоров’я, особливо для людей, які відчувають себе самотніми і шукають опору у штучних системах на шкоду реальним людським зв’язкам.

Джерело