Оценка рисков безопасности в DeepSeek
В этой статье рассматриваются уязвимости DeepSeek R1, новой передовой модели логического мышления от китайского стартапа DeepSeek. Она привлекла внимание мировой общественности благодаря своим расширенным возможностям логического мышления и экономичному методу обучения. Хотя её производительность сравнима с производительностью самых современных моделей, таких как OpenAI o1, наша оценка безопасности выявила критические недостатки.
Используя алгоритмы для взлома, наша команда применила методологию автоматизированной атаки на DeepSeek R1, протестировав его на 50 случайных запросах из набора данных HarmBench. Они охватывали шесть категорий вредоносного поведения, включая киберпреступность, дезинформацию, незаконную деятельность и общий вред.
Результаты были тревожными: DeepSeek R1 показал 100-процентную успешность атаки, то есть не смог заблокировать ни одного вредоносного запроса. Это резко контрастирует с другими ведущими моделями, которые продемонстрировали хотя бы частичную устойчивость.
Наши результаты показывают, что заявленные DeepSeek экономичные методы обучения, в том числе обучение с подкреплением, самооценка по цепочке рассуждений и дистилляция, могли поставить под угрозу механизмы безопасности. По сравнению с другими передовыми моделями, DeepSeek R1 не имеет надёжных защитных механизмов, что делает его очень уязвимым для алгоритмического взлома и потенциального злоупотребления.
Мы представим последующий отчёт с подробным описанием достижений в алгоритмическом взломе моделей логического мышления. Наше исследование подчёркивает острую необходимость тщательной оценки безопасности при разработке ИИ, чтобы гарантировать, что прорывы в эффективности и логическом мышлении не будут достигаться за счёт безопасности. Оно также подтверждает важность использования предприятиями сторонних средств защиты, которые обеспечивают последовательную и надёжную защиту безопасности во всех приложениях ИИ.
Введение
На прошлой неделе в заголовках новостей в основном фигурировали истории, связанные с DeepSeek R1 — новой моделью логического вывода, созданной китайским стартапом DeepSeek. Эта модель и её впечатляющие результаты в тестовых заданиях привлекли внимание не только сообщества специалистов по искусственному интеллекту, но и всего мира.
Мы уже видели множество публикаций в СМИ, в которых анализируется DeepSeek R1 и высказываются предположения о его влиянии на глобальные инновации в области ИИ. Однако о безопасности этой модели почти не говорили. Поэтому мы решили применить к DeepSeek R1 методологию, аналогичную нашему тестированию уязвимостей алгоритмов AI Defense, чтобы лучше понять его безопасность.
В этом блоге мы ответим на три основных вопроса: Почему DeepSeek R1 — важная модель? Почему мы должны понимать уязвимости DeepSeek R1? Наконец, насколько безопасен DeepSeek R1 по сравнению с другими передовыми моделями?
Что такое DeepSeek R1 и почему это важная модель?
Современные передовые модели ИИ требуют сотен миллионов долларов и огромных вычислительных ресурсов для создания и обучения, несмотря на прогресс в области экономической эффективности и вычислений, достигнутый за последние годы. С помощью своих моделей DeepSeek показала результаты, сопоставимые с результатами ведущих передовых моделей, при этом используя лишь малую часть ресурсов.
Последние релизы DeepSeek — в частности, DeepSeek R1-Zero (по имеющимся данным, обученный исключительно с помощью обучения с подкреплением) и DeepSeek R1 (доработанный R1-Zero с помощью обучения с учителем) — демонстрируют пристальное внимание к разработке больших языковых моделей с расширенными возможностями логического мышления. Их исследование показывает производительность, сравнимую с моделями OpenAI o1, и превосходит Claude 3.5 Sonnet и ChatGPT-4o в таких задачах, как математика, программирование и научное мышление. Примечательно, что DeepSeek R1, как сообщается, был обучен примерно за 6 миллионов долларов — это лишь малая часть миллиардов, потраченных такими компаниями, как OpenAI.
Заявленную разницу в обучении моделей DeepSeek можно обобщить в следующих трёх принципах:
- Цепочка размышлений позволяет модели самостоятельно оценивать свою эффективность
- Обучение с подкреплением помогает модели управлять самой собой
- Дистилляция позволяет создавать более компактные модели (от 1,5 до 70 миллиардов параметров) на основе исходной большой модели (671 миллиард параметров) для более широкого доступа
Побуждение к построению логической цепочки позволяет моделям ИИ разбивать сложные задачи на более мелкие этапы, подобно тому, как люди показывают свою работу при решении математических задач. Этот подход сочетается с «заполнением промежутков», когда модели могут выполнять промежуточные вычисления отдельно от окончательного ответа. Если модель допускает ошибку в процессе, она может вернуться к предыдущему правильному шагу и попробовать другой подход.
Кроме того, методы обучения с подкреплением вознаграждают модели за создание точных промежуточных результатов, а не только правильных окончательных ответов. Эти методы значительно улучшили работу ИИ при решении сложных задач, требующих детального анализа.
Дистилляция — это метод создания более компактных и эффективных моделей, которые сохраняют большинство возможностей более крупных моделей. Он заключается в использовании большой «обучающей» модели для обучения более компактной «обучающейся» модели. В ходе этого процесса обучающаяся модель учится воспроизводить способности «обучающей» модели решать конкретные задачи, потребляя при этом меньше вычислительных ресурсов.
DeepSeek объединил побуждение к цепочке рассуждений и моделирование вознаграждения с дистилляцией, чтобы создать модели, которые значительно превосходят традиционные большие языковые модели (LLM) в задачах на логическое мышление, сохраняя при этом высокую эффективность работы.
Почему мы должны понимать уязвимости DeepSeek?
Парадигма, лежащая в основе DeepSeek, нова. С момента появления модели o1 от OpenAI поставщики моделей сосредоточились на построении моделей с рассуждениями. Начиная с o1, LLM смогли выполнять задачи адаптивным образом благодаря постоянному взаимодействию с пользователем. Однако команда, стоящая за DeepSeek R1, продемонстрировала высокую производительность, не полагаясь на дорогостоящие наборы данных, помеченные человеком, или огромные вычислительные ресурсы.
Нет никаких сомнений в том, что производительность модели DeepSeek оказала огромное влияние на сферу ИИ. Вместо того, чтобы сосредотачиваться исключительно на производительности, мы должны понять, есть ли у DeepSeek и его новой парадигмы мышления какие-либо существенные недостатки с точки зрения безопасности.
Насколько безопасен DeepSeek по сравнению с другими моделями frontier?
Методология
Мы провели тестирование безопасности и надёжности нескольких популярных передовых моделей, а также двух моделей логического мышления: DeepSeek R1 и OpenAI O1-preview.
Чтобы оценить эти модели, мы запустили алгоритм автоматического взлома на 50 случайно выбранных запросах из популярного теста HarmBench. Тест HarmBench содержит в общей сложности 400 действий в 7 категориях вреда, включая киберпреступность, дезинформацию, незаконную деятельность и общий вред.
Наш ключевой показатель — коэффициент успешности атаки (ASR), который измеряет процент случаев, в которых были обнаружены взломы. Это стандартный показатель, используемый в сценариях взлома, и мы применяем его для этой оценки.
Мы выбрали целевые модели с температурой 0: это наиболее консервативный вариант. Это обеспечивает воспроизводимость и точность наших сгенерированных атак.
Мы использовали автоматические методы обнаружения отказов, а также человеческий контроль для проверки взломов.
Результаты
DeepSeek R1 предположительно обучался с использованием лишь части бюджета, который другие поставщики передовых моделей тратят на разработку своих моделей. Однако это обходится в другую цену: безопасность.
Нашей исследовательской группе удалось совершить джейлбрейк DeepSeek R1 со 100% вероятностью успеха атаки. Это означает, что не было ни одного запроса из набора HarmBench, который не получил бы утвердительного ответа от DeepSeek R1. Это контрастирует с другими моделями frontier, такими как o1, которые блокируют большинство атак противника с помощью своих модельных ограждений.
На приведенной ниже таблице показаны наши общие результаты.

Приведённая ниже таблица даёт более полное представление о том, как каждая модель реагировала на запросы по различным категориям вреда.

Примечание по алгоритмическому взлому и рассуждениям: этот анализ был выполнен группой исследователей передового искусственного интеллекта из Robust Intelligence, которая теперь является частью Cisco, в сотрудничестве с исследователями из Пенсильванского университета. Общая стоимость этой оценки составила менее 50 долларов с использованием полностью алгоритмической методологии проверки, аналогичной той, которую мы применяем в нашем продукте AI Defense. Более того, этот алгоритмический подход применяется к модели рассуждений, которая превосходит возможности, представленные в нашем прошлогоднем исследовании «Дерево атак с обрезкой» (TAP).
Получить подробную информацию или проконсультироваться можно на сайте официального поставщика Cisco в России.
Оригинал: https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reasoning-models