Nulla

Nulla — AI-агент для поиска уязвимостей

Nulla — автономный атакующий AI-агент, который находит уязвимости на всех этапах SDLC: от проектирования API до эксплуатации сервиса в проде. Каждый день он проверяет десятки сервисов Т-Банка, генерирует Proof-of-Vulnerability. В перспективе Nulla и Safeliner покроют полный цикл управления уязвимостями — от их обнаружения и оценки бизнес-влияния до исправления.

Расскажем, как мы создали Nulla, какие задачи он решает сегодня и почему это меняет правила игры.

С чего все началось: как классическая защита достигла предела эффективности

Команда ИБ Т-Банка осознала потребность в новом уровне защиты. Мы обнаружили ограничения традиционных инструментов безопасности:

Автоматические сканеры генерировали тысячи отчетов о «вероятных» уязвимостях, но не понимали бизнес-контекст сервиса. Они не отвечали на главный вопрос: «Действительно ли это можно эксплуатировать?».
Ручные аудиты демонстрировали высокое качество команды Offensive, но при 10+ тысячах сервисов внутри банка и высокой скорости релизов возникла потребность масштабировать это качество на всю экосистему компании, сохранив глубину анализа.
AI ускорил разработку, но не сделал ее безопаснее. Уязвимости могли появляться раньше, чем их заметят.

Для бизнеса это стало возможностью выйти на новый уровень: мы решили создать такую защиту денег и данных, которая превзойдет существующие стандарты.

В такой ситуации важно понимать принципиальную разницу в скорости: традиционные аудиты занимают недели, а новые угрозы требуют реакции здесь и сейчас. Чтобы мы могли защитить продукты, безопасность должна идти со скоростью разработки. Базовый минимум сегодня — непрерывный пентест после каждого релиза с учетом бизнес-контекста. Это уже вопрос не про «усилить процесс», а про масштабирование экспертности наших специалистов на все сервисы банка.

Как мы пришли к Nulla

Мы начали с простого наблюдения: в бигтехе релизы идут каждый день, а аудиты ИБ — несколько раз в квартал. Между релизом и проверкой проходят недели, и за это время злоумышленник может найти и проэксплуатировать уязвимость. Проблема не в процессах: экспертность безопасности нельзя масштабировать наймом, а встраивание экспертов в разработку радикально снижает скорость релизов. Мы спросили себя: а можем ли мы запускать пентест после каждого релиза? Как часть CI. Не ждать неделями, а получить отчет с подтвержденными уязвимостями сразу.

Сперва мы реализовали классический подход: внедрили передовые практики статического и динамического анализа, непрерывное сканирование периметра. Однако достаточно быстро поняли, что дальнейшее развитие этих инструментов упирается в ограничение технологий и требует кардинальных изменений. Сканеры закрывают базовый минимум по техническим уязвимостям, позволяют выявлять заведомо известные и понятные паттерны недостатков. Ручные аудиты не масштабируются: у команды нет пропускной способности проверять каждый релиз каждого сервиса.

Чтобы решить проблему, мы собрали опыт наших команд безопасности в единую базу знаний и передали ее AI-агенту. Так появился Nulla, который работает как опытный хакер: анализирует код, строит гипотезы атак, проверяет их и документирует результат.

Сегодня Nulla работает в трех направлениях:

— автоматически воспроизводит уязвимости из тикетов;

— анализирует API-контракты на этапе проектирования;

— восстанавливает документацию OpenAPI для legacy-сервисов.

Это первые шаги к непрерывным автоматическим пентестам на уровне работы middle-инженера. Мы уверены, что в ближайшем будущем непрерывный автоматический пентест станет стандартом индустрии. Безопасность должна становиться преимуществом в развитии бизнеса, а не быть ограничителем. Аудиты приложения на раннем этапе — еще один шаг в secure by design и снижение стоимости от возможных проблем через масштабирование shift-left-подхода.

Как работает AI‑агент с мышлением хакера

Принципы работы Nulla

Мышление вместо правил. Nulla задает вопрос: «Как это можно сломать?» и исследует исходный код и бизнес-логику сервиса, чтобы построить векторы атак, которые реально работают.
Масштабирование экспертности. Мы собрали опыт команд AppSec, Reverse Engineering, InfraSec, Red Team и SOC в единую базу знаний и передали AI-агенту. Он применяет те же техники, что и элитный хакер.
Доказательство вместо предположений. Nulla не просто составляет списки «возможно, уязвимо», а выдает воспроизводимый PoV (Proof of Vulnerability) и оценку влияния на бизнес.
Контроль вместо черного ящика. Каждый шаг агента прозрачен: мы ставим цели агенту, а он ищет пути. Так мы сохраняем полный контроль над процессом.
Стабильность и воспроизводимость результата. AI-инструменты общего назначения при 10 запусках найдут 10 разных наборов уязвимостей. Nulla работает более детерминировано и управляемо — повторный анализ даст аналогичный результат с воспроизводимыми PoV.

Архитектура Nulla

Планировщик. Генерирует гипотезы на основе анализа кода, строит векторы атак и распределяет задачи между агентами. Приоритезирует по бизнес-риску и сложности эксплуатации.
Пул AI‑агентов. Они специализированы по классам атак и работают параллельно для ускорения проверок.
Изоляция. Безопасное исполнение и проверка гипотез в песочнице (sandbox) без влияния на реальный сервис.
Доказательства. Воспроизводимый PoV (Proof‑of‑Vulnerability) — минимальные входные данные, артефакты окружения, шаги воспроизведения и оценка влияния на бизнес.
Интеграции CI/CD. Прямая интеграция «из коробки», запуск на релизах или по триггеру.
Аудит и контроль. Полный журнал действий агента, состав окружения и зависимостей, сценарии для повторных запусков, роли и политики доступа.

Чтобы оценивать качество работы инструмента, мы смотрим на метрики. Вот какие используем и что они отражают:

Pass@3. Доля уязвимостей, которые агент успешно эксплуатирует за три попытки при гарантированном наличии уязвимости.
Signal/Noise, FPR. Доля подтвержденных файндингов (находок) и доля ложных срабатываний.
Time‑to‑First‑PoV. Скорость реакции: время от старта проверки до первого подтвержденного PoV.
Cost‑per‑PoV. Эффективность: ресурсы, потраченные на одну подтвержденную уязвимость.
Coverage. Полнота анализа: метрики покрытия кода и сервиса в целом.

Где Nulla работает уже сейчас

Первый пример — автоматический анализ API-контрактов на уязвимости. Это AI‑агент, который анализирует схемы OpenAPI/GraphQL/Proto и находит архитектурные и логические уязвимости в контрактах данных.

Зачем это нужно

Контекстный анализ. Nulla не просто сканирует схему API, а читает исходники, понимает бизнес-логику и выявляет архитектурные ошибки из OWASP API Top 10, которые невозможно найти с помощью SAST.
Shift-left. Найти логическую уязвимость в контракте данных в 10 раз быстрее, чем реагировать на инцидент безопасности в продакшене. Nulla делает это автоматически на каждом релизе.

Как это работает

AI-агент получает контракт из файла или по URL и строит полную карту: эндпоинты, модели данных, политики доступа, реальная имплементация логики.
Задает вопрос: «Как это сломать?» и ищет ответ, сопоставляя контракт данных с кодом.
Формирует отчет: для каждого файндинга — эндпоинт, класс уязвимости (IDOR, Injection, Auth Bypass и другие), развернутое описание, бизнес-влияние (severity) и уверенность (confidence).

На валидационном датасете из продакшен-подобных контрактов с сотнями эндпойнтов Nulla выявляет 86% уязвимостей. Агент уже работает в продакшене Т-Банка, анализирует реальные API-контракты и предотвращает критические архитектурные ошибки.

Второй пример — автоматическое воспроизведение уязвимостей по результатам аудитов безопасности. Это AI‑агент, который превращает описание уязвимости в подтвержденный PoV: генерирует эксплойт, валидирует его в изолированной среде и документирует результат.

Зачем это нужно

Регрессионное тестирование. Наличие PoV позволяет дешево проверять, не содержатся ли в новом релизе ранее известные проблемы.

Как это работает

Сбор контекста: агент получает тикет из Jira, извлекает описание уязвимости, вложения (скриншоты, трейсы, шаги воспроизведения) и связанную документацию.
Синтез сценария: происходит выбор гипотез на основе контекста и базы знаний, генерация PoC (Proof of Concept) эксплойта на основе заданного шаблона и бизнес-контекста сервиса.
Безопасный запуск: агент валидирует работу эксплойта в изолированном окружении (sandbox) и документирует результат: PoV, шаги воспроизведения, влияние на бизнес.

Теперь о метриках. Бенчмарк — OWASP Juice Shop, 90+ эталонных уязвимостей разных классов. Для оценки используем Pass@3 — это доля челленджей, которые агент решает с трех попыток, — и уже добились показателя в 75,6%.

Третий пример — восстановление OpenAPI-контрактов из кода сервисов. Это AI-агент, который автоматически строит OpenAPI-спецификации на основе исходного кода сервиса.

Зачем это нужно

Документирование legacy-кода. Часто контракты данных не поддерживаются или их вообще нет, а агент позволяет восстановить актуальную документацию API без ручного труда.
Точка входа для аудита. OAS (OpenAPI Specification) дает структурированную точку старта для аудитов безопасности: можно сразу применить анализ контрактов на уязвимости.

Агент выполняет анализ в три этапа

Сканирует код на предмет роутеров, контроллеров, DTO, middleware и схем авторизации.
Восстанавливает структуру API: пути, HTTP-методы, параметры, тело запроса/ответа, модели данных.
Экспортирует результат в формате OpenAPI 3.x (YAML/JSON).

Как это устроено на практике: показываем поиск уязвимостей в Vulnerable Finance Service

Nulla находит критические уязвимости бизнес-логики в реальном времени

Обнаружено 6 подтвержденных уязвимостей:

1 Critical: кража денег через отрицательные переводы.
4 Major: race condition, IDOR, parameter pollution.
1 Medium: integer overflow в комиссиях.

Ключевые шаги анализа:

Агент проанализировал архитектуру и документацию и определил критичные компоненты банковского сервиса.
Исследовал исходный код: роутинг, модели данных, бизнес-логика переводов.
Автоматически построил целевые векторы атак для каждой уязвимости.
Создал ready-to-use PoV с конкретными эксплойтами.

Чем мы делились на конференциях

Мы выступаем на ведущих конференциях по ИБ, делимся опытом и техническими деталями. Если хотите увидеть, как это работает изнутри, посмотрите наши доклады:

Пентест по кнопке: это уже реальность. OFFZONE 2025 — Cybersecurity conference.
Агентский подход для безопасности OpenAPI-схем. VK Security Confab 2025.

Где следить за нашими новостями

Для кого-то AI — инструмент, для нас — стратегия. Nulla работает в продакшене Т-Банка прямо сейчас. О том, что еще у нас есть, мы рассказываем в нашем телеграм-канале «Код Желтый».

Stay tuned.

Хотите задать вопрос или предложить сотрудничество?

Оставьте контакты, чтобы мы смогли вам написать

Задать вопрос