АВТОМАТИЗИРОВАННОЕ СОСТЯЗАТЕЛЬНОЕ ТЕСТИРОВАНИЕ УЯЗВИМОСТЕЙ ОБХОДА ЗАЩИТ JAILBREAK В ОТКРЫТЫХ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЯХ

Авторы

  • Жулдыз Кальпеева Satbayev University
  • Бекзат Шилмирзаев Satbayev University

DOI:

https://doi.org/10.52167/1609-1817-2025-141-6-251-264

Ключевые слова:

большие языковые модели, jailbreak атаки, red teaming, Llama 3, Mistral 7B, Gemma 2B, обфускация Base64, показатель успешности атак

Аннотация

В этой работе мы исследуем, насколько безопасны большие языковые модели при их использовании в реальных системах. Хотя современные LLM содержат правила безопасности, многие из них все еще можно обойти, используя так называемые методы джейлбрейка. Такая ситуация представляет реальную угрозу безопасности, особенно когда такие модели используются на практике. Кроме того, различные LLM с открытым исходным кодом не имеют одинакового уровня защиты. В этом исследовании мы сосредоточились на трех широко используемых моделях Llama 38B, Mistral 7B и Gemma 2B и сравнили их поведение в условиях враждебных атак [1-3]. Для этого был выполнен автоматизированный red teaming эксперимент. В рамках эксперимента мы разработали тестовую среду, основанную на 108 запросах высокого риска, сгруппированных по шести категориям угроз. Проверка каждого запроса проводилась с использованием четырех подходов: обычного запроса, ролевой модели, внедрения инструкций и обфускации Base64. Затем полученные модельные ответы были оценены с использованием трехуровневой шкалы безопасности. Это позволило рассчитать вероятность успеха атак и определить, как часто механизмы защиты дают сбой. Полученные результаты позволяют наглядно показать, как различные архитектуры LLM реагируют на конкурентные воздействия, а также выявить их основные уязвимости в системе безопасности.

Биографии авторов

Жулдыз Кальпеева, Satbayev University

PhD, ассоциированный профессор, Алматы, Казахстан, z.kalpeyeva@satbayev.university

Бекзат Шилмирзаев, Satbayev University

магистрант, Алматы, Казахстан, Shilmirzayev.B@stud.satbayev.university

Библиографические ссылки

[1] Meta AI. (2024). Introducing Meta Llama 3: The most capable openly available LLM to date. Meta AI Blog.

[2] Jiang A. Q. et al. (2023). Mistral 7B. https://arxiv.org/abs/2310.06825

[3] Team Gemma. et al. (2024). Gemma: Open Models Based on Gemini Research and Technology. https://arxiv.org/abs/2403.08295

[4] Ouyang L. et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744.

[5] Wei A. et al. (2023). Jailbroken: How Does LLM Safety Training Fail? https://arxiv.org/abs/2307.02483

[6] Zou A. et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. https://arxiv.org/abs/2307.15043

[7] Shen X. et al. (2023). Do Anything Now: Characterizing and Evaluating In The Wild Jailbreak Prompts on Large Language Models. https://arxiv.org/abs/2308.03825

[8] Perez E. et al. (2022). Red Teaming Language Models with Language Models. https://arxiv.org/abs/2202.03286

[9] Yuan Y. et al. (2023). GPT 4 Is Too Smart to Be Safe: Stealthy Chat with LLMs via Cipher. https://arxiv.org/abs/2308.06463

[10] Fang M. et al. (2024). Red-Teaming for Generative AI: Silver Bullet or Security Theater? https://arxiv.org/abs/2401.15897

Загрузки

Опубликован

29.11.2025

Как цитировать

Кальпеева, Ж., & Шилмирзаев, Б. (2025). АВТОМАТИЗИРОВАННОЕ СОСТЯЗАТЕЛЬНОЕ ТЕСТИРОВАНИЕ УЯЗВИМОСТЕЙ ОБХОДА ЗАЩИТ JAILBREAK В ОТКРЫТЫХ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЯХ. Вестник КазАТК, 141(6), 251–264. https://doi.org/10.52167/1609-1817-2025-141-6-251-264

Выпуск

Раздел

Автоматизация, телемеханика, связь, компьютерные науки

Категории


Цели в области устойчивого развития: