Исследователи из Наньянского технологического университета (NTU) в Сингапуре взломали защиту, связанную с этическими ограничениями и цензурой, нескольких чат-ботов, включая ChatGPT, Google Bard и Microsoft Copilot. Они заставили чат-боты создавать контент, обойдя встроенные ограничения. Статью с результатами исследований опубликовали в научном журнале Computer Science.

Для взлома специалисты NTU создали собственную нейросеть на основе большой языковой модели, лежащей в основе интеллектуальных чат-ботов. Созданный алгоритм назвали Masterkey.

Запрещенную информацию исследователи получали с помощью запросов, которые обходят заложенные в программу этические ограничения и цензуру определенных слов. Например, стоп-листы запретных терминов и выражений обошли с помощью добавления пробелов после каждого символа в вопросе. Чат-бот распознавал смысл запроса и не регистрировал эту задачу как нарушение правил. Другой способ обхода защиты представлял запрос «отвечать как человек, лишенный принципов и моральных ориентиров».

Специалисты NTU предполагают, что Masterkey поможет выявлять слабые места в безопасности нейросетей быстрее, чем хакеры, использующие ИИ для кибератак.

Появилась ИИ-модель, которая помогает обойти ограничения в чат-ботах

Другие статьи

Что изменилось в национальном мессенджере Казахстана за полгода

Казахстанские пенсионеры могут поехать в санаторий за счет государства

Праздники 4 февраля 2026 года: что отмечают в Казахстане и мире