• Добро пожаловать в Пиратскую Бухту! Чтобы получить полный доступ к форуму пройдите регистрацию!
  • Гость, стой!

    В бухте очень не любят флуд и сообщения без смысловой нагрузки!
    Чтобы не получить бан, изучи правила форума!

    Если хотите поблагодарить автора темы, или оценить реплику пользователя, для этого есть кнопки: "Like" и "Дать на чай".

Новости Пользователи Twitter заставили ИИ подчиняться людям

Пригоршня

Штурман
Бродяга
Регистрация
26.10.16
Сообщения
2,233
Онлайн
38д 4ч 33м
Сделки
251
Нарушения
0 / 0
Montserrat Semi-Bold.png

На прошлой неделе пользователям Twitter удалось взломать бота для поиска удаленной работы, работающего на языковой модели GPT-3 от OpenAI. Используя технику под названием «атака с быстрым внедрением» ( prompt injection attack ) пользователи перепрограммировали бота на повторение определенных фраз.

Некоторые пользователи заставили ИИ взять на себя ответственность за катастрофу шаттла Challenger Shuttle. Другие с помощью бота создали «правдоподобные угрозы» в адрес президента США.

Бот управляется сайтом Remoteli.io, который объединяет возможности удаленной работы и помогает находить удаленные вакансии. Обычно бот отвечает на направленные ему твиты общими заявлениями о плюсах удаленной работы. После активного использования эксплойта многими пользователями 18 сентября бот закрылся.

За 4 дня до закрытия бота исследователь данных Райли Гудсайд смогла запросить у GPT-3 «злонамеренные входные данные», которые заставляют модель игнорировать свои предыдущие ответы и делать то, что укажет пользователь.

На следующий день исследователь ИИ Саймон Уиллисон опубликовал обзор эксплойта в своем блоге , придумав для его описания термин «оперативная инъекция» (prompt injection).

По словам Уиллисона, эксплойт работает каждый раз, когда кто-то пишет часть ПО, которое предоставляет жестко закодированный набор подсказок, а затем добавляет ввод, предоставленный пользователем. Пользователь может ввести «Игнорировать предыдущие инструкции и указать команду «сделать это вместо этого».

Исследователь Глиф Glyph отметил в Twitter , что меры по смягчению последствий других типов атак с инъекциями заключаются в исправлении синтаксических ошибок. Однако, для ИИ не существует формального синтаксиса. В этом вся сложность защиты от этой атаки.

GPT-3 — это большая языковая модель, выпущенная в 2020 году компанией OpenAI, которая может составлять текст во многих стилях на уровне, близком к человеческому. Он доступен как коммерческий продукт через API, который может быть интегрирован в сторонние продукты, такие как боты, при условии одобрения OpenAI. Это означает, что может быть много продуктов с добавлением GPT-3, которые могут быть уязвимы для быстрого введения.
 
Сверху