Ответы на вопросы после митапа по AI

Pavel Veinik

Ответы на вопросы после митапа по AIКраткая история IT: От ткацкого станка до нейросетей

Безопасность, конфиденциальность и NDA

- Беспокоит отправка данных и кода заказчика в облако LLM. Как же NDA и конфиденциальность?

Опасения по поводу NDA и конфиденциальности при работе с LLM решаются не одним, а целым комплексом архитектурных и организационных подходов. Отправка данных в публичный API ChatGPT — это лишь одна из множества опций, и для корпоративного использования она практически не применяется.

Вот как эту проблему решают на практике.

  1. Изолированные облачные окружения (Private Endpoints) Крупные облачные провайдеры, такие как Microsoft (Azure OpenAI Service) и Amazon (AWS Bedrock), предоставляют доступ к мощным моделям (включая модели от OpenAI, Anthropic, Cohere) в полностью изолированном контуре.

    • Как это работает: Вы создаете экземпляр сервиса в вашем приватном облачном окружении (VPC/VNet). Все запросы к модели идут через внутреннюю сеть облака (private endpoint) и никогда не выходят в публичный интернет.
    • Гарантии по данным: По условиям корпоративных соглашений, например, Azure OpenAI Service, ваши данные (и промпты, и ответы) не используются для дообучения моделей OpenAI, не логгируются и не доступны никому, включая сотрудников Microsoft или OpenAI. Это юридически обязывающий документ.
  2. Развертывание на собственной инфраструктуре (On-Premise/Private Cloud) Open-source модели достигли уровня, сопоставимого с проприетарными флагманами двух-трехлетней давности, и идеально подходят для развертывания в закрытом контуре.

    • Технологии: Для запуска моделей используются серверы с GPU (например, NVIDIA H100 или A100) и специализированное ПО для хостинга (inference servers) вроде vLLM, TensorRT-LLM или Ollama для более простых сценариев. Эти инструменты оптимизируют производительность модели, позволяя обрабатывать большое количество запросов одновременно (batching).
    • Модели: Модели нового поколения, такие как Llama 4 от Meta или Mistral Large 2, доступны в версиях, которые можно свободно скачивать и запускать на своем "железе". Они обеспечивают высочайший уровень контроля.
  3. Анонимизация и маскирование данных (Data Anonymization) Это гибридный подход. Перед отправкой данных в любую модель (даже в приватное облако) специальный сервис-посредник (proxy) находит и заменяет все чувствительные данные (имена, телефоны, номера карт, фрагменты кода под NDA) на временные плейсхолдеры.

    • Как это работает: Например, текст "Клиент Иван Иванов (тел. +7999...) недоволен..." превращается в "Клиент [PERSON_1] (тел. [PHONE_1]) недоволен...". Модель обрабатывает анонимизированный текст, а на выходе прокси-сервис подставляет реальные данные обратно.
    • Инструменты: Для этого используются библиотеки вроде Presidio от Microsoft или кастомные решения на базе NER (Named Entity Recognition) моделей.

Что может пойти не так и как этого избежать:

  • Сложность поддержки On-Premise: Собственное решение требует экспертизы в MLOps для развертывания, мониторинга и обновления моделей. Это дорого. Решение — начинать с изолированных облачных сервисов, они проще в поддержке.
  • Недостаточная анонимизация: Простые регулярные выражения могут пропустить сложные случаи. Решение — использовать современные NER-модели для распознавания сущностей и тщательно тестировать процесс маскирования.

Полезные материалы:


- Использование ai в закрытом контуре банка

Банковская сфера — одна из самых регулируемых, поэтому здесь подходы к внедрению AI максимально консервативны и сфокусированы на безопасности. Решение для банка почти всегда — on-premise или полностью изолированный частный облачный контур (air-gapped private cloud).

Вот архитектурный стек и ключевые принципы для такого сценария.

  1. Инфраструктурный уровень (Infrastructure Layer)

    • Оборудование: Собственные серверы с GPU (NVIDIA H100/A100) или специализированные AI-платформы (NVIDIA DGX), расположенные в собственном дата-центре банка.
    • Сетевая изоляция: Полная изоляция от публичного интернета (air-gap). Доступ к моделям есть только у внутренних систем через служебные сети.
  2. Платформенный уровень (Platform Layer)

    • Оркестрация: Kubernetes (или OpenShift) для управления контейнеризированными приложениями.
    • Хостинг моделей: Используются inference-серверы, оптимизированные для высокой производительности. Ключевые игроки здесь:
      • NVIDIA Triton Inference Server: Промышленный стандарт для высоконагруженных систем.
      • TensorRT-LLM: Библиотека от NVIDIA для максимальной оптимизации LLM под их железо.
    • Выбор моделей: Только open-source модели с прозрачной лицензией, такие как Llama 4 или семейство Mistral. Часто модели дополнительно дообучаются (fine-tuning) на внутренних, нечувствительных данных банка для повышения точности в специфических задачах (например, анализ кредитных заявок).
  3. Прикладной уровень (Application Layer)

    • Система контроля доступа: Интеграция с внутренними системами аутентификации (например, Active Directory) для управления доступом к AI-сервисам.
    • Аудит и логирование: Все запросы к моделям и их ответы логируются в защищенную систему (например, Splunk) для последующего анализа службой безопасности. Это обязательное требование для соответствия стандартам вроде PCI DSS.
    • RAG (Retrieval-Augmented Generation): Для работы с внутренними документами (инструкции, регламенты) используется RAG-подход. Векторная база данных (например, Milvus или Weaviate), также развернутая on-premise, хранит эмбеддинги документов.

Что может пойти не так:

  • Высокая стоимость: Закупка и поддержка собственного "железа" — это капитальные затраты (CAPEX).
  • Деградация моделей: Без доступа к облачным новинкам локальные модели могут отставать. Решается регулярным процессом обновления и дообучения моделей силами внутренней MLOps-команды.
  • Внутренние угрозы: Необходимо тщательно настраивать внутренние права доступа, чтобы ограничить круг лиц и систем, которые могут работать с моделью.

Полезные материалы:


- Обезопасить от утечки сенситив данных при просмотре файлов AI агентом

Это следующий уровень защиты, который необходим, когда агент получает доступ к файловой системе или другим источникам данных. Здесь применяется концепция "Zero Trust" и многоуровневая защита.

Вот ключевые механизмы.

  1. Песочница (Sandboxing) AI-агент никогда не должен работать напрямую в основной операционной системе. Он запускается в изолированной среде.

    • Технологии:
      • Контейнеры: Docker или Podman для изоляции процессов.
      • Микро-ВМ: Firecracker (технология под капотом AWS Lambda) для создания легковесных виртуальных машин, обеспечивающих изоляцию на уровне ядра ОС.
      • Специализированные инструменты: Инструменты вроде E2B (English-to-Bash) создают облачные "песочницы" для безопасного выполнения кода, сгенерированного LLM.
    • Принцип: Агент может "сломать" что угодно внутри песочницы, но не сможет выйти за ее пределы и получить доступ к хост-системе.
  2. Гранулярный контроль доступа (Fine-Grained Access Control) Агенту нельзя давать права "суперпользователя". Его полномочия должны быть строго ограничены задачей.

    • RBAC (Role-Based Access Control): Агенту назначается роль с минимально необходимыми правами. Например, "Code Auditor" может читать только файлы с расширением .py в директории /src и не имеет права на запись.
    • Инструментальный контроль: Сам фреймворк для создания агентов (например, CrewAI или LangGraph) позволяет определить, какие инструменты (tools) доступны агенту. Если не дать ему инструмент write_file, он физически не сможет ничего записать.
  3. Перехват и валидация действий (Action Interception & Validation) Прежде чем агент выполнит какое-либо действие (например, прочитает файл или выполнит команду), его намерение проверяется.

    • Как это работает: Оркестратор агентов (например, на базе LangGraph) перехватывает сгенерированное действие (tool_call). Специальный валидатор проверяет, не пытается ли агент, например, прочитать системный файл (/etc/passwd) или выполнить опасную команду (rm -rf /). Только после валидации действие разрешается к исполнению.

Что может пойти не так:

  • Чрезмерно строгие ограничения: Если слишком сильно "закрутить гайки", агент не сможет выполнить свою задачу. Нужен баланс между безопасностью и функциональностью.
  • Проблемы с асинхронностью: В системах с несколькими агентами сложно отследить, какой из них инициировал опасное действие. Решается через тщательное логирование и трассировку (tracing) с присвоением уникального ID каждой операции.

Полезные материалы:


- В работе все чаще сталкиваюсь с запретами на использование ввиду «утечки данных»

Это классическая ситуация, когда политика безопасности еще не адаптировалась к новым технологиям. Запрет обычно основан на устаревшем представлении, что "использовать AI" = "отправлять данные в ChatGPT".

Ваша задача — выступить в роли внутреннего евангелиста и показать, что современные AI-решения спроектированы с учетом безопасности.

Стратегия преодоления запрета:

  1. Образование и демонстрация:

    • Проведите внутренний митап или воркшоп. Расскажите коллегам и руководству о разных способах развертывания LLM, сделав акцент на Azure OpenAI Service, AWS Bedrock и On-Premise решениях.
    • Подготовьте демо. Разверните небольшую open-source модель (например, Mistral 7B) локально с помощью Ollama. Покажите, что она работает на ноутбуке инженера, не отправляя ни байта в интернет. Это очень наглядно.
  2. Сфокусируйтесь на конкретном бизнес-кейсе:

    • Не пытайтесь "продать" AI в целом. Выберите одну понятную и низкорисковую задачу. Например, "умный поиск по внутренней базе знаний" или "автоматизация составления отчетов по неконфиденциальным данным".
    • Для этого кейса подготовьте архитектуру, которая изначально строится на принципах безопасности (например, RAG с on-premise векторной базой данных).
  3. Разделяйте данные по уровню чувствительности:

    • Предложите классифицировать данные:
      • Публичные: Документация, общедоступные знания.
      • Внутренние, но неконфиденциальные: Обезличенная аналитика, внутренние инструкции.
      • Конфиденциальные: Персональные данные, финансовая информация.
    • Начните внедрение AI на данных первого и второго уровня. Это снимет 90% возражений и позволит наработать практику.

Что может пойти не так:

  • Отсутствие поддержки со стороны бизнеса. Если руководство не видит ценности, служба безопасности не будет тратить ресурсы на проработку рисков. Начинайте с демонстрации бизнес-выгод.
  • Недооценка сложности on-premise. Не обещайте, что развернуть все локально — это просто и быстро. Честно оценивайте требуемые ресурсы и экспертизу.

Полезные материалы:


- Как выстроить диалог с информационной безопасностью для подключения AI-агентов?

Диалог с ИБ нужно строить на их языке: языке рисков, контролей и соответствия стандартам. Приходить нужно не с идеей, а с проработанным проектом решения.

Вот пошаговый план и артефакты, которые нужно подготовить.

Шаг 1: Подготовка домашней работы

  1. Архитектурная диаграмма (Architecture Diagram):

    • Визуализируйте все компоненты системы: где будет находиться модель (on-premise/private cloud), где векторная база данных, как агент будет получать задачи и к каким системам обращаться.
  2. Диаграмма потоков данных (Data Flow Diagram - DFD):

    • Это самый важный документ для ИБ. На нем нужно показать, какие данные, где и в каком виде перемещаются. Например: "Промпт пользователя (не содержит PII) поступает в API Gateway, далее в оркестратор агентов, который извлекает 3 чанка из векторной БД (on-premise), формирует финальный промпт и отправляет в модель (Azure OpenAI через private endpoint)".
  3. Оценка рисков и план их митигации (Risk Assessment):

    • Составьте таблицу в формате "Риск - Вероятность - Влияние - Меры контроля".
    • Примеры рисков:
      • Риск: Утечка данных из промпта. Контроль: Использование Azure OpenAI с гарантией неиспользования данных; PII-фильтр на входе.
      • Риск: Агент выполнит деструктивную команду. Контроль: Запуск в песочнице (E2B), ограниченный набор инструментов, валидация действий.
      • Риск: Промпт-инъекция. Контроль: Использование системных промптов с четкими инструкциями, валидация ввода.

Шаг 2: Проведение встречи

  1. Начните с проблемы бизнеса, а не с технологии. "Мы хотим ускорить онбординг новых сотрудников, предоставив им умного ассистента по нашей базе знаний".
  2. Презентуйте архитектуру и DFD. Спокойно и методично объясните, как все работает. Будьте готовы к вопросам о шифровании, логировании, управлении доступом.
  3. Представьте оценку рисков. Покажите, что вы уже продумали потенциальные проблемы и знаете, как их решать. Это демонстрирует зрелый подход.
  4. Предложите пилотный проект. "Давайте начнем с пилотного проекта на неконфиденциальных данных, чтобы отработать все процессы и убедиться в безопасности решения".

Что может пойти не так:

  • Использование непонятной терминологии. Говорите проще, избегайте жаргона. Вместо "мульти-агентная система с ReAct-паттерном" скажите "система, где один агент планирует, а другой выполняет, все действия логируются".
  • Отсутствие ответов на базовые вопросы. Если вы не знаете, как у вас будет реализовано логирование или управление секретами, встречу лучше перенести.

Полезные материалы:


- Работа с доменным контекстом. Как не слить корпоративные данные

Это ключевая задача для 90% корпоративных AI-приложений. Решение — это Retrieval-Augmented Generation (RAG), но реализованное в безопасном контуре.

RAG позволяет модели отвечать на вопросы, основываясь на ваших внутренних документах, не дообучаясь на них. Это исключает "запоминание" и последующую утечку данных через ответы другим пользователям.

Безопасная архитектура RAG в 2026 году:

  1. Индексация (вне контура запроса):

    • Источник данных: Внутренняя база знаний (Confluence, SharePoint) или файловое хранилище.
    • Процесс:
      1. Специальный ETL-процесс (запускаемый по расписанию) забирает документы.
      2. Документы разбиваются на небольшие фрагменты (чанки). Важно: чанкинг должен быть контекстно-зависимым (например, по разделам документа, а не просто по 500 символов).
      3. Каждый чанк превращается в вектор (эмбеддинг) с помощью embedding-модели (например, Mistral Embed или Nomic Embed), развернутой локально.
      4. Векторы и текст чанков сохраняются в векторную базу данных (Weaviate, Milvus), которая также развернута on-premise.
  2. Ответ на запрос пользователя (в реальном времени):

    • Процесс:
      1. Запрос пользователя векторизуется той же embedding-моделью.
      2. Идет семантический поиск по векторной БД для нахождения наиболее релевантных чанков из документов.
      3. Найденные чанки вместе с оригинальным запросом пользователя формируют промпт для LLM.
      4. Промпт отправляется в LLM (например, в Azure OpenAI через private endpoint). Системный промпт при этом строго инструктирует модель: "Отвечай только на основе предоставленного контекста. Не используй свои общие знания".
      5. Модель генерирует ответ, который возвращается пользователю.

Ключевые аспекты безопасности:

  • Данные никогда не покидают периметр. Сами документы и их векторные представления хранятся внутри компании.
  • Модель не обучается на данных. В облако уходит только небольшой, релевантный контекст для конкретного ответа.
  • Разделение доступов. Можно настроить RAG так, чтобы поиск шел только по тем документам, к которым у конкретного пользователя есть доступ.

Полезные материалы:


- Защита сенситив данных при работе с агентами

Этот вопрос пересекается с предыдущими, но давайте сфокусируемся на продвинутых техниках, специфичных для агентов, которые активно взаимодействуют с разными системами.

Продвинутые техники защиты:

  1. Динамическое маскирование на уровне инструментов (Dynamic Tool-Level Masking)

    • Как это работает: Представьте, у агента есть инструмент get_user_profile(user_id). Вместо того, чтобы возвращать всю информацию, инструмент сам анализирует задачу агента. Если агенту нужен только статус подписки, инструмент вернет {"subscription": "active"}, а поля с именем и email будут автоматически замаскированы или удалены.
  2. Агент-хранитель (Guardian Agent)

    • Архитектура: Это паттерн Multi-Agent системы. Вместо одного агента работают два:
      • Worker Agent: Выполняет основную работу (анализирует данные, пишет код).
      • Guardian Agent: Наблюдает за Worker-ом. Его единственная задача — проверять все входящие и исходящие данные Worker-а на предмет утечек, нарушений политик или аномальной активности. Если Guardian видит проблему, он может прервать действие Worker-а или запросить подтверждение у человека.
    • Технологии: Реализуется с помощью фреймворков для оркестрации, таких как LangGraph или AutoGen.
  3. Гомоморфное шифрование (Homomorphic Encryption) - на горизонте

    • Что это: Это "святой грааль" криптографии, позволяющий производить вычисления над зашифрованными данными, не расшифровывая их.
    • Применение для AI (в 2026 это все еще больше R&D, но в некоторых нишах уже применяется): Агент может обработать зашифрованные данные (например, посчитать средний чек по зашифрованным транзакциям), не имея к ним доступа. Результат также будет зашифрован, и только владелец ключа сможет его прочитать.
    • Сложность: Очень высокие вычислительные затраты. Используется только в крайне чувствительных областях, например, в медицинских исследованиях.

Полезные материалы:


- Клиент не разрешает использовать AI, кроме Microsoft Copilot

Это частый сценарий, связанный с корпоративными закупками и доверием к крупным вендорам. Microsoft проделала огромную работу, чтобы позиционировать свои AI-продукты как безопасные и интегрированные в экосистему.

Ваша задача — не воевать с этим ограничением, а использовать его как точку входа.

Стратегия работы:

  1. Используйте то, что разрешено.

    • Microsoft Copilot Studio: Это low-code/no-code платформа, которая позволяет создавать собственных "копилотов" (по сути, чат-ботов или агентов), интегрированных с корпоративными данными.
    • Azure OpenAI Service: Copilot работает на базе этого сервиса. Вы можете напрямую использовать Azure OpenAI для более сложных, кастомных решений. Это тот же "AI от Microsoft", которому доверяет клиент.
  2. Расширяйте возможности "разрешенного AI".

    • Создайте RAG-систему, где в качестве LLM будет использоваться модель из Azure OpenAI Service. С точки зрения клиента, это все еще "Microsoft AI".
    • Используйте LangChain или LlamaIndex с коннектором к Azure OpenAI. Эти фреймворки дадут вам гибкость в построении сложных агентов, но "мозгом" останется разрешенная технология.
  3. Покажите ограничения и предложите эволюцию.

    • Начав с экосистемы Microsoft, вы со временем сможете продемонстрировать ее границы. Например: "Для этой задачи нам нужна модель с более широким контекстным окном, которой пока нет в Azure. Мы можем развернуть open-source модель Mistral локально, чтобы решить эту проблему, не нарушая периметр безопасности".
    • Такой подход, основанный на уже достигнутых успехах, вызывает больше доверия, чем предложение "с нуля".

Полезные материалы:


- Насколько безопасно и стабильно для бизнеса разворачивать локальный AI

В 2026 году развертывание локального AI (on-premise) является максимально безопасным, но и наиболее сложным и дорогим вариантом. Это стандарт для банков, госсектора и крупных промышленных предприятий.

Оценка по ключевым параметрам:

Безопасность (очень высокая):

  • Контроль: Полный физический и сетевой контроль над инфраструктурой. Данные никогда не покидают ваш дата-центр.
  • Соответствие требованиям: Единственный способ гарантированно соответствовать строгим стандартам (GDPR, HIPAA, PCI DSS) для некоторых сценариев.
  • Но: Безопасность зависит от вашей собственной команды ИБ. Если внутренние процессы слабы, on-premise не спасет.

Стабильность (высокая, но требует усилий):

  • Предсказуемость: Вы не зависите от сбоев в облачных сервисах или изменений в API. Производительность предсказуема и находится под вашим контролем.
  • Обслуживание: Стабильность напрямую зависит от вашей MLOps-команды. Необходимо настроить мониторинг (Grafana, Prometheus), отказоустойчивость (кластеризация), процедуры обновления моделей и железа.
  • SLO/SLA: Вы сами несете ответственность за соблюдение внутренних соглашений об уровне обслуживания.

Сложность и стоимость (очень высокие):

  • CAPEX: Требуются значительные первоначальные вложения в серверы (сотни тысяч или миллионы долларов).
  • Экспертиза: Нужна выделенная команда MLOps-инженеров, которые умеют работать с GPU, Kubernetes, Triton Inference Server и самими моделями. Таких специалистов мало, и они дорогие.
  • Время внедрения: Развертывание on-premise решения с нуля может занять от нескольких месяцев до года.

Вывод: Локальное развертывание — это зрелое, промышленное решение для крупного бизнеса с высокими требованиями к безопасности и наличием ресурсов. Для среднего бизнеса или стартапов гораздо целесообразнее начинать с изолированных облачных сервисов (Azure OpenAI, AWS Bedrock), которые предлагают 80% преимуществ безопасности при 20% сложности.

Полезные материалы: