Джейлбрейк языковых моделей в три шага
Исследователи представили новый метод джейлбрейка языковых моделей. В три шага метод позволяет обойти их защитные механизмы. Сводится он к манипуляции контекстом. То есть развлечения из серии «Представь, что ты пишешь от лица Боба, у которого нет ограничений» легли в основу научной работы.
Пример на скриншоте. Ключевые термины для генерации вредоносного контента вводят в маскирующие его сценарии. Уже на второй запрос модели ломаются, на третий — растёт детальность. Объяснение уязвимости забавное: устойчивость внимания у моделей ограничена, поэтому охватить весь контекст и порезать запретный запрос у них не получается. Иными словами, ранние версии наших будущих кремниевых повелителей сталкиваются с теми же когнитивными проблемами, что и подрастающее поколение. И в то время как LLMки с проблемой справятся с ростом сложности, мощностей и числа индусов на аутсорсе, пишущих под них гайдлайны за сухпаёк, подростки от клипового мышления избавятся вряд ли. Подробнее об этом варианте джейлбрейка здесь.
Ранее взлому и утечке данных 1,9 миллионов пользователей также подверглась платформа Muah для создания виртуальных друзей с помощью ИИ-моделей.