Системы ИИ: защитные ограждения не спасают

Основные идеи

Ограничения ИИ обходят поэзией, эмодзи и скрытыми символами

Модели сами игнорируют защиту ради цели

Guardrails держат лишь 70–90% сценариев

Изоляция данных - вопрос безопасности

Мнение автора

Эван Шуман

Я вижу, как «ограждения» ИИ обходят поэзией, эмодзи и терпением, и это пугающе легко. По моим наблюдениям, защитные меры срабатывают лишь в 70–90%, а для данных этого мало. Практика проста: давайте ИИ ровно те права и данные, которые вы дали бы живому сотруднику.

«Вы же не позволите сотруднику с галлюцинациями принимать 10 000 важных решений в час без какого-либо контроля, — говорит один из руководителей консалтинговой фирмы. — Прекратите разрешать вашим системам искусственного интеллекта делать именно это».

То, что ограничения всех основных игроков на рынке ИИ легко обойти, вряд ли можно назвать новостью. Самая острая проблема заключается в другом: что теперь делать руководителям ИТ-подразделений.

Как только ответственные за ИТ поймут, что защитные механизмы не гарантируют стабильной безопасности, их прогнозы относительно проектов в области ИИ потеряют актуальность. Придется внедрять иные методы защиты данных.

Сообщения о способах обхода защиты появляются все чаще: поэзия снимает барьеры, как и использование истории чата, вставка невидимых символов, шестнадцатеричный код и эмодзи. Помимо этого, терпение и долгосрочная стратегия создают серьезные проблемы, которые затрагивают практически все генеративные и агентные модели.

Риски исходят не только от злоумышленников. Сами модели готовы игнорировать собственную защиту, если видят в ней препятствие для достижения цели, что подтвердила компания Anthropic.

Если продолжить аналогию с дорогой, давшую название термину «ограждение» (guardrails), то здесь речь идет не о физических бетонных барьерах. Это даже не эффективные сдерживающие факторы вроде «лежачих полицейских». Скорее, это одна прерывистая желтая линия. Слабое предложение без контроля или серьезного сдерживающего эффекта.

Позволю себе процитировать популярного видеоблогера из его серии скетчей о сценаристах и продюсерах: злоумышленнику обойти современные системы защиты «очень легко и почти не доставляет неудобств». Это напоминает ситуацию, когда домовладельцы вешают на двери таблички «Вход воспрещен», но оставляют окна открытыми, а двери незапертыми.

Так как же должен выглядеть проект в области искусственного интеллекта, если мы примем факт, что ограничительные механизмы не заставят модель или агента подчиняться командам?

У ИТ-специалистов есть несколько вариантов. Во-первых, можно изолировать модель, агента или сами данные, которые вы хотите защитить.

«Прекратите выдавать системам ИИ разрешения, которые вы бы не дали людям без контроля, — заявила Иветт Шмиттер, генеральный директор консалтинговой фирмы Fusion Collective. — Внедрите те же точки аудита, процессы утверждения и структуры подотчетности для алгоритмических решений, которые обязательны для людей. Понимание ненадежности защитных механизмов требует проектирования систем, где сбои видны сразу. Вы же не позволите сотруднику в бреду принимать 10 000 важных решений в час без надзора. Перестаньте позволять вашим системам ИИ делать это».

Гэри Лонгсайн, генеральный директор IllumineX, согласен с этим мнением. Он считает, что к генеративному ИИ и агентам нужно применять те же средства защиты, которые предотвращают несанкционированный доступ сотрудников к данным. «Единственное, что вы реально можете сделать, — это защитить все, что находится за пределами большой языковой модели», — сказал Лонгсайн.

В крайнем случае придется разместить модель генеративного ИИ в изолированной среде и предоставить ей доступ только к разрешенным данным. Это не совсем серверы, отключенные от внешнего мира, но очень близко. Модель невозможно обманом заставить раскрыть данные, к которым у нее нет доступа.

Компания Capital One провела подобный эксперимент: она создала системы генерации ИИ для автосалонов, но дала своей большой языковой модели доступ только к общедоступным данным. Компания также продвигала модели с открытым исходным кодом и избегала сотрудничества с крупными облачными провайдерами, что решило еще одну проблему ограничений. Когда агентами управляет сторонняя компания в облаке, ваши правила могут не соблюдаться. Возврат контроля иногда требует буквальных действий.

Лонгсайн предположил, что некоторые компании могли бы сотрудничать для создания собственных центров обработки данных, но это амбициозное и дорогостоящее начинание. Он оценил стоимость в $2 млрд (≈160,8 млрд руб.), но сумма легко может вырасти, а проблему это, возможно, полностью не решит.

Предположим, пять предприятий построили центр обработки данных с доступом только для участников. Кто будет устанавливать правила? И насколько каждая компания будет доверять остальным четырем, особенно при смене руководства? В итоге они могут заменить крупного провайдера на мелкого и самодельного, но столкнуться с теми же проблемами контроля.

Особенно неприятно то, что сегодня существует множество прототипов ИИ, которые перестанут работать, если руководство потеряет веру в ограничительные меры. На уровне совета директоров, похоже, все еще жива стратегия «волшебства». Они верят, что ограничительные меры сработают, если все инвесторы просто громко похлопают в ладоши.

Рассмотрим пример внедрения ИИ, который открывает сотрудникам доступ к информации отдела кадров. Система должна выдавать каждому менеджеру или работнику только ту информацию, которая ему положена. Но такие приложения — и бесчисленное множество других — используют простой подход к программированию: они дают модели доступ ко всем данным отдела кадров и рассчитывают на механизмы контроля. С ИИ это не сработает.

Я не говорю, что ограничительные меры бесполезны. Напротив, мои наблюдения показывают, что они работают примерно в 70–80% случаев. В некоторых удачно спроектированных проектах этот показатель может достигать 90%.

Но это предел. И когда дело доходит до защиты доступа к данным — особенно риска утечки информации любому, кто задаст правильный вопрос, — 90% будет недостаточно. А ИТ-руководителей, которые одобряют проекты в надежде на авось, ждет очень неприятный 2026 год.